Das Projekt Data Science behandelt aktuelle Aspekte der Datenforschung, -analyse, -visualisierung im Zusammenhang der allgemeinen Bereitstellung von offenen Daten. Das Thema “offene Daten” stellt dabei die Kernthematik des Projektes dar. Nach einer Seminarphase, in denen verschiedene Themen vorgestellt und erläutert wurden, begann die Projektphase, in denen die Teilnehmer ein Projekt zu offenen Daten realisieren sollen.

Ich hab mich für das Thema “Visualisierung offener Daten am Beispiel der offenen Daten der Webseite http://www.landmatrix.org” entschieden.

Da das Projektteam zu Beginn nur aus 3 Teammitgliedern bestand, und die Kompetenzen teils unterschiedlich waren, wurde sich darauf verständigt, die offenen Daten von landmatrix.org zu nutzen, da diese lediglich von der Webseite geladen werden mussten und entsprechend in eine Datenbank überführt wurden.

Somit war die Bereitstellung der Datengrundlage teilweise einfach, jedoch gab es ein Problem mit den zur Verfügung gestellten Daten, da diese nicht in normalisierter Form vorlagen.

Auch wurde für jeden Spaltentyp der Typ “VARCHAR” (=String) festgelegt, was ein Rechnen mit numerischen Werten erschwerte. Daher mussten einige Anpassungen am Datenschema vorgenommen werden, sodass z.B. Spalten mit numerischen Werten als Zahlen, anstatt Zeichenketten, behandelt werden konnten.

Das Projekt beinhaltet die Erstellung einer Webseite, welches dem Anwender ermöglicht, einfache Diagramme aus gewählten Abschnitten bzw. Spalten der Daten(-tabelle) zu erstellen. Dies soll dem Anwender die Möglichkeit eröffnen, für sie/ihn zugeschnittene Diagramme bspw. für eine wissenschaftliche Ausarbeitung anzufertigen. Die Wahl der Diagrammart ist dabei dem Anwender überlassen, beschränkt sich aber zunächst auf einfache Balken- bzw. Säulendiagramme. Die Anzahl der Datenpunkte ist zudem auch für den Anwender beliebig zu definieren.

Die Wahl der Diagrammdaten ist abhängig von dem eigentlichen Datentyp in denen die Daten vorliegen. Wir unterscheiden zwischen numerischen und alphabetischen Werten. Erstere stellen Zahlen im mathematischen Sinne dar, und liefern Größen die als Datenpunkte visualisiert werden können. Letztere bilden Größen bzw. Datenpunkte für die Achsen.

Zentral geht es bei der Diagrammerstellung um Beantwortung von Fragen (bezogen auf die Daten von landmatrix.org), z.B.: Welche Länder sind die Top 10 Länder, in denen Grundstückskäufe getätigt wurden, gemessen an der Vertragsgröße? Im genannten Beispiel stellen die Top 10 Länder die alphabetischen Werte dar und die Vertragsgröße die numerischen Werte. Aktuell wird nur die Kombination zwischen numerischen und alphabetischen Werten unterstützt. Technisch gesehen, basiert die Webseite auf dem Java EE Framework, als Datenhaltung wird eine PostgreSQL Datenbank verwendet, welche aber durch jedes andere DBMS ersetzt werden kann.

Als Visualisierungsframework wurde d3 gewählt, da d3 bereits breitere Anwendung im Internet findet, und eine ordentliche Dokumentation bietet.

Im weiteren Verlauf der Diskussion werden die Vorgehensweise bei der Erstellung der Webseite erläutert.

Zunächst wurde die Datengrundlage bereinigt und in ein DBMS überführt. Anschließend wurde eine Webapplikation erstellt, die eine Verbindung zur Datenbank beinhaltet, und entsprechend die gewünschten Daten der Datenbank abfragt. Das Ergebnis der Abfrage wird in die JSON Objektnotation konvertiert, und von der Webapplikation entsprechend ans Frontend ausgeliefert.

Das Frontend besteht im wesentlichen aus JSP (Java Server Pages) Dateien, JSP Dateien bilden Templates für die Generierung von dynamischen HTML, welches der Endanwender letztlich betrachtet. Diese Templates beinhalten auch die Definitionen und Aufrufe zum d3-Framework, welches letztlich das Diagrammlayout und -gestaltung festlegt. Dies bedeutet, dass ein entsprechendes JSP-Template einer Visualisierungsmöglichkeit entspricht.

Die Möglichkeiten zur Weiterentwicklung sind vielfältig, zum einen ist es sinnvoll weitere JSP-Templates zu definieren, die weitere Diagrammarten realisieren, da bis zum bisherigen Zeitpunkt nur Säulen- bzw. Balkendiagramme unterstützt werden.

Eine weitere Möglichkeit wäre die Realisierung von Diagrammarten, welche mehr als nur zwei Größen der Daten verwenden. Darüber hinaus könnte somit auch die Beschränkung dass numerische Werte mit alphabetischen Werten kombiniert werden müssen, gelockert werden.

Die Anwendung findet ihr hier: https://www.root-base.de:11112/Datascience/

Von Denis L.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

*