Im dritten und vorerst letzten Teil meiner Kurz-Serie zum Thema Datenvisualisierung gibt es einen Überblick über diverse Möglichkeiten wie man Datensätze grafisch aufbereiten kann. Wer sich zuvor die ersten beiden Teile der Serie durchlesen möchte findet sie hier:
Teil 1: Einführung und Beispiele
Teil 2: Warum Daten visualisieren?
Bevor ich zum eigentlichen Thema dieses Beitrags komme, zunächst ein kurzes Video von Tim Berners Lee’s Kurzansprache auf der TED Konferenz. Ich finde „The Year Open Data Went Worldwid“ bietet eine sehr gute Zusammenfassung und Einführung ins Thema. In meinem anschließenden Beitrag nehme ich das angesprochene Thema „Open Data“ kurz auf, mache einen kurzen Abstecher in zum Thema „Datenaggregation“ und außerdem gibt’s jede Menge nützliche und lesenswerte Links.
Video: Tim Berners Lee „The Year Open Data Went Worldwid“
Die passenden Links zu den im Video angesprochenen Themen gibt es drüben bei Infosthetics.com
Open Data, Scrapping, Aggregation oder „Keine Visalisierung ohne Daten“
Es ist so einfach wie logisch: Am Anfang jeder Datenvisualisierung steht die Datenbeschaffung. Wo keine Daten, da keine anschauliche, ansprechende und aufregende grafische Umsetzung. In den seltensten Fällen stolpert man auf seinem Weg zur Visualisierung aber über bereits ordentlich formatierte, kategorisierte und strukturierte Datensätze. Eben jene brauchen aber die meisten Programme oder Services um richtig arbeiten zu können. Zwei wichtige Fragem im Zusammenhang mit Visualisierungen sind also: Woher bekomme ich die Daten und wie bekomme ich sie in die richtige Form?
Am Anfang steht meist die Idee, einen bestimmten Sachverhalt zu erklären. Darauf erst folgt die Beschaffung der Daten, die im Großteil der Anwendungsfälle allerdings im Netz vertreut oder zentral aber unstrukturiert vorliegen. Um diese Daten zu beschaffen und in strukturierte Form zu bringen, gibt es einige Ansätze, die ich kurz ansprechen möchte.
Ein Ansatz, Daten frei zugänglich und frei von Kontrollmechanismen und Einschränkungen wie Copyrights oder Patenten zu machen, fällt unter das Stichwort „Open Data„. Eine Initiative, die sich in Deutschland die Unterstützung dieser Bewegung auf die Fahnen geschrieben hat, und sich nach eigenen Angaben als „Netzwerk zur Förderung von Open Data, Open Government, Transparenz und Partizipation“ beschreibt ist das Open Data Network.
Wer sich ein wenig mit dem Thema beschäftigt wird schnell die Bedeutung der Thematik ua. auch für den Bereich Semantic Web erkennen. Weitere Stichwort in diesem Zusammenhang sind u.a. RDF und Linked Data, Das Thema hier allerdings weiter auszuführen würde jeglichen Rahmen sprengen. Daher zum praktischen Nutzen: In Großbritannien ist man bereits einen Schritt weiter und hat http://data.gov.uk eröffnet, eine Datenbank für frei zugängliche Datensätze der britischen Regierung, die bereits diverse Anwendungen generierte. Einen ausführlichen Bericht gibt es u.a. hier.
Ebenfalls interessant in diesem Zusammenhang sind die Bemühungen des britischen „Guardian“, der u.a. den „Data Store“ für offene Regierungsdaten der ganzen Welt ins Leben rief – inklusive API, für den einfachen Abruf der Daten aus Anwendungen heraus (dazu: Artikel beim OpenData Network). Spätestens jetzt, dürfte jedem klar sein, welche Anwendungsmöglichkeiten sich künftig bieten werden.
Dennoch ist die größte Zahl an Datensätzen nicht so leicht zugänglich. Weitere Wege um Daten aus unstrukturierten Quellen auszulesen, können zum Beispiel folgende sein:
- ScreenSrapping und Text- bzw. Data-Mining: Tools dazu sind u.a. Scraperwiki.com (derzeit noch in der Beta-Phase) oder auch das Firefox-Add on „Piggy Bank„, das am MIT entwickelt wurde. Letzteres dient auch dazu mit Hilfe des Add ons direkt Mashups zu erstellen.
- Yahoo hat sich ebenfalls hervorragende Tools zur Datenverarbeitung einfallen lassen. Für den Einstieg in die Datenaggregation eignet sich insbesondere Yahoo Pipes, das einen einfachen, da bereits selbst visualisierten Ansatz, um verschiedene Datenquellen zu filtern, zu verbinden und zu durchsuchen darstellt. Die Ergebnisse können anschließend komfortabel in verschiedenen Ausgabeformaten bereitgestellt und genutzt werden
- Ebenfalls sehr mächtig und eher für Entwickler gedacht ist die Yahoo Query Language (YQL). Durch die Verschachtelung diverser Abfragen kann jede beliebige Adresse im Netz gefiltert und strukturiert in XML– uns JSON-Format ausgegeben werden. Praktischerweise hat Yahoo für diverse Anwendungsgebiete bereits umfangreiche Datasets bereitgestellt, zum Beispiel Geo-Informationen oder Verkehrswesen
Am Ende jeder Datenaufbereitung sollte wie bereits kurz angesprochen ein strukturierter Datensatz stehen. Als gut geeignet für die Weiterverarbeitung in Tools und Anwendungen haben sich XML oder darauf basierende Formate wie bspw. GEXF (Graph Exchange XML Format) erwiesen.
Software & Tools
Die klassische Methode ist es immer noch Anwendungen und Visualisierungen selbst zu erstellen bzw. zu programmieren. Eine kleine Auswahl nützlicher Helfer:
- Um Datensätze auf Karten zu visualisieren, ist der bekannteste Weg die Verwendung von Google Maps. Google bietet eine eigene API um das Kartenmaterial mit eigenen Datensätzen in eigenen Anwendungen zu nutzen. Einen gelungenen Schnelleinstieg bietet die Präsentation von Stefan Petterssen (Google Technology User Group Stockholm) von Anfang April. Natürlich gibt es auch die offizielle umfangreiche Dokumentation von Google selbst sowie diverse Tutorials im Netz.
- Für die Visualisierung insbesondere von Netzwerkstrukturen finde ich persönlich Gephi ein hervorragendes Tool. Ein gewisses Interesse an der Einarbeitung in neue Software vorausgesetzt, lassen sich mit Gephi schnell attraktive Ergebnisse erzielen. Der Quick Start Guide erklärt das Wesentliche und lässt auch Anwender ohne tiefergehende Kenntnisse von Mathematik und Statistik mit Gephi arbeiten.
- Noch einfachere Visualisierungen von Netzstrukturen verspricht NodeXL, dass sich als Template für Windows 2007 einbindet.
- Thisislike.com bietet ein eigenes Tool zur Konvertierung von XML in Graphml. Das Graphml-Format wird u.a. von Tools wie Gephi zur Visualisierung genutzt.
- Textmining: Automap ist ein Tool zur Extraktion von Netzwerkstrukturen aus Texten, oder wie es in der Selbstbeschreibung heißt: „AutoMap can extract content analytic data (words and frequencies), semantic networks, and meta-networks from unstructured texts“ Ein sehr interessanter Ansatz, wie ich finde und sicher einen Test wert.
- Degrafa ist ein Open Source Grafik-Framework zur Anwendung mit Adobe Flex. Darauf aufbauend steht Axiis (ebenfalls Open Source) für das zur Verfügung, was am ehsten unter Data Visualizition fällt. Ein schönes Beispiel ist eine historische Browser Statistik. /via Schockwellenreiter
- Wer Datensätze vorliegen hat und bereits JavaScript beherrscht findet einen Startpunkt beim JavaScript InfoVis Toolkit, das dabei helfen will interaktive Visualisierungen zu erstellen.
- Viele Visualisierungen sind mit Hilfe der Programmiersprache Python umgesetzt. Wer einen einfachen Einstieg sucht wird hier fündig: Learn Python in 10 minutes (leider nicht mehr verfügbar. Schau einfach in meinem anderen Artikel nach, dort gibt es viele Python Quellen zum Lernen)
- Eine kostenfreie Desktop-Variante bietet Tableau Public. Der Entwickler generiert die Visualisierung zwar auf dem Heimrechner, überträgt schließlich aber alles an das Unternehmen, wo die Anwendung gehostet wird. Dort werden die Grafiken serverseitig generiert, der Anwender erhält lediglich einen JavaScript-Schnippsel zum Einbinden auf der eigenen Seite. Durch die serverseitige Generierung kommt es allerdings zu leichten Verzögerungen während der Anwendung, wie User berichten.
- Auch IBM stellt mit BigSheets seinen Kunden eine Visualisierungslösung für große Datenmengen zur Verfügung. Mehr dazu bei Heise
- Microsoft will nicht hinten anstehen und schiebt mit Pivot ebenfalls eine Software an den Start – zur Zeit allerdings noch im Labor-Stadium und natürlich den eigenen Flashkonkurrenten Silverlight vorausgesetzt.
Webservices
Webservices können einem viel Arbeit abnehmen. Wer kein Problem damit hat, Daten an Dritte zu geben, für den könnten diese Dienste interessant sein:
- http://many-eyes.com – Eine der bekanntesten Seiten zur Datenvisualisierung mit diversen Möglichkeiten zur grafischen Aufbereitung. Gehört zu IBMs Collaborative User Experience Group und ist Teil des Testlabors
http://www.swivel.com(Mittlerweile eingestellt) – Hauptsächlich gewöhnliche Chart-Visualisierungen, allerdings um Sharing Komponenten erweitert. Kostenlose Alternative: Google Docs- http://hint.fm/seer – vergleicht Google Suggests
weiterführende Links
Wer weitere Ideen und Tools sucht, wird sicherlich auf den folgenden Seiten fündig
- Das Blog KoopTech widmet sich immer wieder dem Thema Open Data oder auch Mapping. Nennenswert sind dazu zum Beispiel die Artikel Open Data für Journalisten, Diverse Links zu Open Data und Infografik und die Serie Kartografien der Macht
- 50 Great Examples of Data Visualization zeigt das Webdesigner Depot. Auch einige Tooltipps dabei
- Datamining Blog von Matthew Hurst zu Text Mining, Visualization and Social Media
- Understanding the power of social media with infographics von Designreviver.com
Und bereits aus dem 1. Teil dieser Serie bekannt:
- flowingdata.com
- visualcomplexity.com
- informationisbeautiful.net
- infosthetics.com
Kennt ihr weitere Tipps, Tools, Tutorials, Software, Webanwendungen etc? Dann freue ich mich über einen Kommentar!
Copyrights der Bilder in diesem Artikel:
Titelbild: http://datamining.typepad.com/gallery/blog-map-gallery.html
Screenshot Gephi: http://gephi.org/wp-content/gallery/screenshots/untitled-14.png
ovau
Vielen lieben Dank besonders für den 3. Teil deiner Artikelserie zu Daten-visualisierung! Hat mir sehr geholfen, meine Linksammlung zu diesem Thema zu vervollständigen.
Tobias Kut
Gerne. Freut mich wenn’s gefällt. Der Artikel ist ja nun schon knapp 3 Jahre alt, von daher wäre es eigentlich mal wieder höchste Zeit für eine Neuauflage/Überarbeitung. Ich schau mal was ich tun kann…