Nach dem Needlebase-Aus: Scraperwiki und Google Refine als Alternative?

Needle Macro by fdecmoite @flickr | CC-BY Google hat bekanntgegeben Needlebase, ein Tool zum Auslesen, Bereinigen, Kombinieren und Bereitstellen von Datensätzen, einzustellen. Bei Nutzern wie Datenjournalismus-Interessierten hat dies zu einiger Verwunderung geführt und es kamen Fragen auf, welche Dienste den Platz von Needlebase einnehmen können. Ich sehe zwei Tools, die das Potential haben den Platz einzunehmen, Scraperwiki und Refine. Für eins der beiden sehe ich jedoch eine deutlich höhere Wahrscheinlichkeit. Weiterlesen

Google Refine 2.5 veröffentlicht

Google Refine Icon by stefano.mazzocchi Google Refine hat jetzt offiziel die Version 2.5 erreicht. Das Changelog, das neue Features, Bugfixes und Verbesserungen auflistet, ist umfangreich. Insgesamt wurde die Integration mit Google Spreadsheets und Fusion Tables vorangetrieben. Weiterlesen

Google Refine 2.1 erschienen

Google Refine Icon by stefano.mazzocchi Das Open Source Datenbreinigungstool Google Refine ist in Version 2.1 erschienen. Die offizielle Ankündigung spricht zwar von einem “maintenance release” mit diversen Bugfixes, einige neue Funktionen sind trotzdem dazugekommen. Interessant finde ich dabei den Import von Google Fusion Tables und den jsoup basierten HTML Parser, der jetzt Funktionen wie parseHtml, select, htmlAttr, htmlText, innerHtml, ownText unterstützt. Die Tutorial Videos wurden ebenfalls erneuert, auch wenn sie weiterhin die irreführende Betitelung “Goolge Refine 2.0″ tragen.

Links: Googles Python Anfängerkurs, Firefox 4 Visualisierungen, Data Science Toolkit, RSS Tuning, McLuhan

"link" by Alex Eylar @ Flickr (c) CC-By-NC-SA

"link" by Alex Eylar @ Flickr (c) CC-By-NC-SA

Nach viel zu langer Funkstille mal wieder Links – die jetzt übrigens auch so heißen oder alternativ auch keinen Titel tragen werden. Das “Lesenswert” im Titel der alten Linklisten bleibt, klingt mir aber irgendwie mittlerweile zu verschwurbelt. Hier gibt’s also ab sofort harte Fremdfakten im Linkbett :) Weiterlesen

WordPress: Live-Datenbank auf lokales System einspielen

Wordpress Logo

Wordpress

Eigentlich wollte ich nur die Datenbank des Live-Systems dieses Blogs auf meiner lokalen XAMPP-Installation einspielen, um lokal daran rumzuwerkeln, statt in aller Öffentlichkeit mein Blog zu überarbeiten. Sozusagen eine Bastelstunde mit echten Daten ohne den Patienten zu gefährden. Eigentlich ist das auch kein größeres Problem, vollständige Backups hat man sowieso (hat man doch, oder?) oder sind schnell gemacht und ein XAMPP ist wenn es ihn noch nicht gibt, ebenso schnell aufgesetzt. Da aus einem gedankenlosen “eigentlich ganz schnell gemacht” schnell ein “eigentlich dauert so eine Fehlersuche viel zu lang” wird, hier eine Notiz an mich, worauf ich beim nächsten Mal besser achten sollte: Weiterlesen

Google-Tools und Datenjournalismus: Public Data Explorer öffnet sich, OCR in 34 Sprachen

Google Google hat zwei seiner Produkte weiter ausgebaut, was Sie noch interessanter als Tool zur Datenvisualisierung bzw für Datenjournalisten macht. Zum einen wurde der Public Data Explorer für eigene Datasets geöffnet und die OCR (Optical Character Recognition), sprich: automatische Texterkennung, in Google Docs wurde deutlich erweitert. Weiterlesen

Lesenswert: Schnüffel-Apps, Verbraucherpreise Treemap, PDF to HTML Preview, Data Converter und JSON Editoren

Wall Street Journal: What the know - Mobile

Wall Street Journal: What the know - Mobile

Ich gebe zu, ich habe in die Überschrift bewusst ein paar Keywords mit dem Holzhammer eingepflegt. Schnüffel-Apps klingt zum Beispiel unheimlich konspirativ, meint aber auch eigentlich nichts anderes als das, was die Werbeindustrie eh schon seit eh und je tut – Daten sammeln und verwenden – nur diesmal per App. Der Artikel des Wall Street Journal ist allerdings nicht nur informativ, sondern auch ein guter Aufhänger um doch nochmal ein paar Links loszuwerden, bevor ich mich offiziell in die Weihnachtspause verabschiede. Hier also meine letzten “lesenswerten” Links für dieses Jahr, auch diesmal nur grob in Schubladen gedacht und kategorisiert. Weiterlesen

Google Refine 2.0 erschienen

Google Refine (ehemals Freebase Gridworks) ist in der Version 2.0 erschienen. Wie im Google Open Source Blog nachzulesen ist, hat sich das Tool zur Datenbereinigung seit der Übernahme von Metaweb wieder einen großen Sprung weiterentwickelt. Neben einer neuen Extension Architektur und verbesserten Datenabgleichmöglichkeiten hat es auch eine Reihe neuer Features gegeben. Dazu zählen neue Commands, erweiterte Importfunktionen zu CSV und TSV und die Erweiterung der Google Refine Expression Language, die nun auch JSON unterstützt. Alle Änderungen gibt es im Überblick im Changelog

Außerdem hat Google drei neue Einführungsvideos zu Refine veröffentlicht. Das erste habe ich mal eingebunden, alle weiteren stehen im Open Source Blog bzw auf Youtube.