Google Refine Icon by stefano.mazzocchi OpenRefine (vorher Google Refine, vorher Freebase Gridworks) hat in der letzten Zeit einige Änderungen erfahren. Unter anderem hat das Projekt eine neue Homepage http://openrefine.org und ist zu GitHub umgezogen, Überbleibsel gibt es aber nach wie vor noch unter der alten Adresse http://code.google.com/p/google-refine/. Damit der Einstieg in die Arbeit mit Refine etwas leichter fällt, hier kurz ein paar Eckpunkte zur Orientierung, vom Download über Starten/Sichern/Beenden, erste Schritte mit der GREL und zum Schluss noch ein paar weitere Quellen.

Einführung, Download und Entwicklung

Die wichtigsten Adressen habe ich eigentlich schon genannt. Google Code und GitHub. Unter Google Code (bisherige zentrale Anlaufstelle) sind zur Zeit noch die Programmdateien gehostet. Wer also die letzte finale Version für Windows, Mac oder Linux sucht (z.Zt. Google Refine 2.5 – r2407) ist hier richtig. Außerdem gibt es hier noch verschiedene Screencasts eingebunden, die bei den ersten Schritten unterstützen aber auch auf der neuen Homepage bzw direkt bei Youtube zu finden sind.

Auf GitHub findet sich dagegen die aktuelle Entwicklungsversion und künftig auch alle finalen Versionen. Außerdem entsteht hier das aktuelle Wiki und die Dokumentation.

Refine starten, öffnen, speichern und beenden

Refine startet mit einem Klick auf die exe. Die Ausführung findet dann im Browser unter localhost (127.0.0.1) statt. Refine speichert geöffnete Projekte automatisch. Es ist nicht notwendig irgendwo zu klicken bevor man das Browserfenster schließt, um Projekte zu sichern. Projekte können ausserdem jederzeit exportiert werden. Dieser Export beinhaltet dann das komplette Projekt inkl. Datensatz und aller Änderungen (Changelog).

Da Refine auf einer eignen Serverumgebung läuft ist das einzige was man beachten muss Refine korrekt zu schließen bzw zu beenden. Unter Windows geht man dazu in das parallel geöffnete Dos-Eingabefenster und drückt STRG+C. Im Browser ist das Projekt dann zwar noch offen, aber es können keine Operationen mehr durchgeführt werden, da der Server angehalten wurde. Ein Klick bspw auf das Logo oben links produziert folglich nur eine Fehlermeldung.

Mehrere Spalten löschen oder umsortieren

Hat man erstmal mit einigen Daten und Operationen rumgespielt, seine Datenspalten dupliziert und Inhalte auf mehrere Columns verteilt entsteht schnell einiges an “Datenmüll” bzw Columns die man nicht mehr braucht. Jede davon einzeln zu löschen ist mehr als mühsam und auch nicht nötig. Einfach ganz links an den Anfang der Tabelle auf “All” klicken. Dann Edit Columns -> Reorder/Delete und der Rest ist selbsterklärend.

Die Google Refine Expression Language

Wer erstmal eine Mischung aus Text und Zahlen in seinen Datenzellen hat oder auch “nur” von einem Zahlenformat in ein anderes formatieren will wird schnell mit der Google Refine Expression Language (GREL) Bekanntschaft machen. GREL ist Refines eigenes – sehr mächtiges – Tool, um Strings zu manipulieren. Das heißt, mit verschiedenen Ausdrücken kann man beispielsweise Geocodierungen ableiten, Zahlen in ein bestimmtes Format bringen (z.B. Postleitzahlen, Datumsformat) etc. Bekanntschaft macht man mit der GREL recht schnell:

GoogleRefine-GREL-cell-transform

Google Refine – GREL Cell Transformation

Wer im Drop Down Menü einer Spalte beispielsweise auf “Edit cells” -> “Transform” klickt hat die Möglichkeit eine “Expression” einzugeben. Rechts daneben werden neben GREL weitere Optionen angeboten. Unter “Help” verbirgt sich ein hilfreiches Glossar, das aber teilweise etwas abstrakt wirken kann. Wer praktische Beispiele bevorzugt um auch die Syntax der Hilfe zu verstehen (wer keine Programmiererfahrung hat, weiß vielleicht nicht was Arrays sind oder das man mit 0 anfängt zu zählen) sollte vielleicht aber erstmal auf der Refine Seite selbst ins Recipes-Wiki schauen: https://github.com/OpenRefine/OpenRefine/wiki/Recipes

Blogs und weitere Quellen zu Open Refine

Zentrale Anlaufstelle ist die Homepage des Projekts unter http://openrefine.org Darüber hinaus – und gerade im Fall von Fragen zur Anwendung und Datenbereinigung – ist die englischsprache Mailingliste/Google Group zu Refine.

Schon etwas älter ist Paulk Bradshaws kurzes How-To zu Google Refine Trotzdem lohnt sich auch hier ein Blick auf die Basics. Ein passendes Beispiel Dataset gibt’s ebenfalls im Blog, jüngeren Datums. Außerdem gibt es zahlreiche „Starter“ Blogposts, etwa von ProPublica.

Blogs, die sich hauptsächlich mit Google/OpenRefine beschäftigen sind Databeast (deutschsprachig) und Google Refine Blog (englisch)