Nach dem Needlebase-Aus: Scraperwiki und Google Refine als Alternative?

Needle Macro by fdecmoite @flickr | CC-BY Google hat bekanntgegeben Needlebase, ein Tool zum Auslesen, Bereinigen, Kombinieren und Bereitstellen von Datensätzen, einzustellen. Bei Nutzern wie Datenjournalismus-Interessierten hat dies zu einiger Verwunderung geführt und es kamen Fragen auf, welche Dienste den Platz von Needlebase einnehmen können. Ich sehe zwei Tools, die das Potential haben den Platz einzunehmen, Scraperwiki und Refine. Für eins der beiden sehe ich jedoch eine deutlich höhere Wahrscheinlichkeit. Weiterlesen

Google Refine 2.5 veröffentlicht

Google Refine Icon by stefano.mazzocchi Google Refine hat jetzt offiziel die Version 2.5 erreicht. Das Changelog, das neue Features, Bugfixes und Verbesserungen auflistet, ist umfangreich. Insgesamt wurde die Integration mit Google Spreadsheets und Fusion Tables vorangetrieben. Weiterlesen

Blog-Autorenschaft mit rel=”author” für Google nachweisen

Ich habe ja schonmal kurz erwähnt, dass ich für Google jetzt nicht mehr nur die Zeichenkette “Tobias Kut” bin, sondern dieses Blog meiner Person zugeordnet wird. Kurz gesagt, ich habe Google die Autorenschaft nachgewiesen. Der Prozess dafür ist erstaunlich simpel und braucht nur ein paar kleine Änderungen.

Die folgende Erklärung richtet sich vor allem an diejenigen, die als einzelner Autor ein Blog betreiben. Für Mehr-Autoren-Blogs habe ich aber auch ein paar hilfreiche Hinweise zur Umsetzung. Weiterlesen

Rezension: “Python von Kopf bis Fuß”

Cover "Python von Kopf bis Fuss" Hier im Blog habe ich schon öfter über Python, bzw den Einstieg in Python geschrieben. Dabei habe ich auf einige Tutorials im Netz hingewiesen, darunter u.a. Showmedo, Google, freiesMagazin oder andere Wege um die Sprache zu erlernen, bislang aber nur online Quellen und kein klassisches Buch. Das ändert sich jetzt, denn kürzlich erschien die deutsche Ausgabe von “Head First, Python” und O’Reilly hat mir ein Exemplar von “Python von Kopf bis Fuss” geschickt, damit ich mir darüber eine Meinung bilden kann. Ich habe mich also die letzten Tage eingelesen und mir das Buch genauer angeschaut. Weiterlesen

LimeSurvey: Basissprache ändern

Limesurvey Logo Ich schätze das offene Umfragetool LimeSurvey ja wirklich sehr. Es ist sehr flexibel, intuitiv zu bedienen, hat eine Wagenladung an Features mit an Bord und wird – nicht zuletzt durch die Teilnahme am Google Summer of Code – ziemlich zügig weiterentwickelt, was neue Features und schnell behobene Bugs verspricht.

Mit dem Tool lassen sich u.a. auch sehr einfach mehrsprachige Umfragen realisieren. Das erspart zwar nicht die Übersetzung einzelner Fragen, aber der Standardbausteine – wie Vor-/zurück-Buttons, Hinweise zum Ausfüllen etc. Klickt man eine weitere Sprache hinzu, sind alle Standardbausteine direkt übersetzt. Das ist solange alles nützlich und richtig, wie die ursprüngliche Umfrage und alle weiteren Sprachversionen identisch sind. Gibt es Abweichungen (andere Fragekonstellation, neue Struktur, unterschiedlicher Fragetyp in anderer Sprache) oder will man eine alte Umfrage in weiteren Sprachen neu starten hilft meist nur noch eine neue Umfrage. Weiterlesen

Chicago Tribune: Open Source Twitterfeed-Alternative und CSV-Toolkit in Python

Die Entwickler der Chicago Tribune haben kürzlich einige Eigenentwicklungen als Open Source veröffentlicht. Darunter ist auch der Appengine Autotweeter, der eine Alternative zur Verwendung des Webservice Twitterfeed darstellt und – wie der Name vermuten lässt – auf Googles App Engine läuft. In einem Blogpost erkären die Entwickler, dass Grund für die Eigenentwicklung die starren bzw zu langen Updateintervalle von Twitterfeed sind. Twitterfeed erlaubt nur Updates von maximal allen 30 Minuten – im schnelllebigen Nachrichtengeschäft oft deutlich zu lang.

Im selben Blogpost stellen die Entwickler weitere Open Source Tools vor. Darunter CSVkit (Dokumentation), eine Toolsammlung zur Bearbeitung von csv Datensätzen – ebenfalls in Python realisiert – und das bislang weit mehr beachtete PANDA (Presentation). PANDA gewann kürzlich $150.000 Förderung der Knight Foundation im Rahmen des Media Innovation Contest und soll das Datenmanagement bzw Datenjournalismus in Redaktionen vereinfachen.

Links: CMSms 2.0 verschoben, Piwik 1.5 erschienen, Python visualisieren und lernen, PluXML

  • Die Entwickler von CMS Made Simple haben sich zur lange angekündigten Version 2.0 geäußert: Die ist gecancelt bzw verschoben bzw wird anders umgesetzt. In einem Blogpost erklärt man, dass, durch die Populäritat und Entwicklungsgeschwindigkeit der 1.x Serie die ursprünglichen Vorstellungen der 2.0 Version überholt sind. Statt eines kompletten Code-Rewrites werden geplante Änderungen soweit möglich in die 1.x Serie übernommen. Die ausführliche Begründung steht im Blogeintrag. Die aktuelle Version ist nach dem letzten Security-Release also 1.9.4.2
  • Piwik 1.5 ist in der Version 1.5 erschienen. Unter anderem visualisiert man ab sofort die Charts via Javascript statt Flash und liefert ein neues Anonymisierungsplugin mit. Ersteres dürfte das Backend nochmal beschleunigen, letzteres finde ich eher überflüssig, da die Anonymisierung auch bislang keine Wissenschaft war.
  • Freies Magazin setzt Python Serie fort: In der Maiausgabe des freiesMagazin wird die als Sonderausgabe und Tutorialsammlung erschienene Python Einsteigerserie fortgesetzt. In der aktuellen Folge geht’s um Iteration. Nach den Kommentaren in den Leserbriefen kam die Sonderausgabe allgemein gut an. Daher sind weitere Sammmelausgaben nicht ausgeschlossen.
  • Nochmal Python: Mit VPython sollen auch “ordinary mortals” wie es auf der Webseite heißt in Python dreidimensionale Grafiken programmieren können: “VPython is the Python programming language plus a 3D graphics module called “Visual” originated by David Scherer in 2000. VPython makes it easy to create navigable 3D displays and animations, even for those with limited programming experience. Because it is based on Python, it also has much to offer for experienced programmers and researchers.” Auf Youtube gibt es Tutorial Videos, die zugegeben schon ein paar Jahre alt ist. Der Homepage ist aber zu entnehmen, dass es Anfang Mai die letzte Entwicklungsschritte an Visual gab.
  • Ich habe hier im Blog ja schon öfter XML-basierte CMS-Leichtgewichte vorgestellt. PluXml erweitert die Runde, zumindest schonmal als Linktipp. PluXML ist ein französisches Kleinst-CMS, dass seine Daten in Textdateien ablegt. Für alle weiteren technischen Details, erste Eindrücke und Downloads lohnt ein Blick auf die Webseite und die Fähigkeit Französisch zu sprechen. (via Schockwellenreiter)

Links: semantische CSS-Timeline, Python Sonderausgabe, JSON, praktischer DDJ, Processing

"link" by Alex Eylar @ Flickr (c) CC-By-NC-SA

"link" by Alex Eylar @ Flickr (c) CC-By-NC-SA

Damit über Ostern der Lesestoff nicht ausgeht hier noch schnell ein paar Links. Viel Spaß beim Lesen und frohe Ostern! Weiterlesen

TimelineSetter & Tiki-Toki: Zeitleisten-Tools für Entwickler und Journalisten

Mit TimelineSetter von ProPublica und Tiki-Toki sind vor kurzem zwei neue Tools zur Visualisierung von chronologischen Abläufen erschienen. Die Ansätze sind dabei gänzlich unterschiedlich, einmal als bunte Webanwendung (Tiki-Toki.com) und im Gegensatz dazu TimelineSetter, das als Open Source Lösung hauptsächlich für Entwickler bereitsteht. Da ich bereits früher hier im Blog kurz TimeFlow angesprochen hatte, ein erster Blick auf die beiden neuen Tools. Weiterlesen

Links: Datenjournalismus, re:publica, XML und RSS Einführung

Kurzer Zwischenruf mit zwei praktischen Links: