#DDJ

Datenjournalismus-Tools für den Alltag

Sparen Sie Zeit und Nerven

Datenjournalisten haben – Überraschung! – oft mit Daten zu kämpfen. Denn Datensätze kommen in allen Grössen, Formen und Codierungen. Diese Tools helfen, schnell und sicher mit Datensätzen zu hantieren. Wer sich ein wenig Zeit nimmt und sie einübt, wird im Alltag viel Zeit und Nerven sparen. Es handelt sich dabei um eine Selektion von wenig-bekannten und eher fortgeschrittenen Tools mit den dazugehörigen Tutorials.


Die Command Line

Die Kommandozeile, englisch Command Line, ist vielen nur bekannt aus Hacker-Filmen. Dabei ist sie eines der hilfreichsten Werkzeuge für Datenjournalisten. Dieses Tutorial Command-Line-Basics for Journalists erklärt die Prinzipien und zeigt die Macht der Kommandozeile.

Es gibt hilfreiche Programme, die über die Kommandozeile funkionieren. Das beste heisst CSVkit, entwickelt von Quartz-Entwickler Chris Groskopf, und ist quasi das Daten-Taschenmesser der Kommandozeile. Dan Nguyen hat ein gutes Tutorial dafür geschrieben. Und Annabel Church hat ebenfalls ein hilfreiches hilfreiches Tutorial, das in die Commandline und CSVkit einführt.


Regular Expressions

Die sogenannten regulären Ausdrücke (in englisch: Regular Expressions, kurz Regex) sind eine Art Regeln für Text, mit einer sehr mächtigen Zeichensprache. Die Regex sind als eigene Sprache in vielen Programmiersprachen und Programmen implementiert – einfach, weil sie so hilfreich sind. Wenn eine Spalte schlecht formatiert ist und beispielsweise Name, Adresse, Postleitzahl, Wohnort alle in derselben Spalte stehen, kann Regex mit wenigen Kniffen helfen. Und auch, wenn es noch viel komplizierter wird: Kein Problem für Regex! Die Sprache lässt sich einfach online lernen, zum Beispiel auf regexr.com oder auf regex101.com.


Scraping

Daten aus dem Internet "saugen" wird immer einfacher. Mit sogenannten Scrapern lassen sich Tabellen, Datenbanken oder auch unstrukturierte Informationen kanalisieren und herunterladen.Import.io ist ein Webservice dafür, ebenso Morph.io oder das GUI-ToolOutwit Hub.

Konvertierung

Gelegentlich kommt es vor, dass Daten in ungewöhnlichen Formaten geliefert werden. Dafür gibt es ein paar hilfreiche Konvertierungs-Tools:Transformy.io ist ein junger Webservice dafür, sowie Codebeautify.org oder Mr. Data-Converter , die eine ganze Menge an Konvertierungs- und Formatierungsumrechnern anbietet, völlig kostenfrei natürlich.


PDF-Parsing

PDFs sind eine gute Datenquelle - wenn man sie aus dem störrischen Format herauslöst und parst. Dabei helfen Tools wie Tabula oder Abbyy Finereader (kostenpflichtig).


Wrangling/Cleaning

Der grösste Zeitfresser im Datenjournalismus sind dreckige Daten. Wer sie schnell und fehlerfrei reinigen kann, ist immer im Vorteil. Tools wie Comma-Chameleon oder Open Refine können da wertvolle Arbeit leisten.

Analyse & Exploration:

Natürlich denkt ein Journalist nicht erst nach der Datenaufbereitung über mögliche Geschichten nach. Trotzdem lohnt es sich, wenn man nicht nur nach Beweisen für die Anfangsthese sucht. Gerade im datengetriebenen Journalismus kann sich eine Geschichte im Laufe einer Recherche konstant verändern: Meistens weiss man ja nicht, was ein Datensatz alles in sich birgt. Es macht deshalb Sinn, die Daten explorativ zu erkunden – in dem man mit ihnen spielt und schaut, was dabei entsteht. Dafür eignen sich eine Reihe von Tools: das Statistikprogramm R kann, einmal darin eingeschafft, erstaunlich schnell zu spannenden Ansätzen führen; das Tool Exploratory nimmt die Sprache von R und versieht sie mit visuellen Elementen. So lassen sich die Daten intuitiv erkunden und schnell neue Leads für Geschichten finden; Tableau Public bietet ein visuelles Interface, um Daten zu erkunden – allerdings nur mit beschränkten Funktionen in der Gratis-Version; das Command-Line-Tool Agate von Christopher Groskopf ist weniger visuell, dafür enorm effizient.

Weitere Tools: Datacomb. Databasic. Overview.