German English

Datenintegration und Data Mining in der Praxis

Inhalt

Der Masterstudiengang M.Sc. Journalismus der Uni Leipzig führt zusammen mit dem MDR (Redaktion Wissen und Bildung) im Wintersemester 2019/20 ein datenjournalistisches Projekt durch und sucht Informatik-Studierende als Unterstützung, die Lust haben, journalistische Arbeit kennenzulernen und zu unterstützen.

Thema des Projekts mit dem Arbeitstitel “Deutschland-Doppel” ist die Entwicklung ost- und westdeutscher Regionen seit der Wiedervereinigung 1990. In den vergangenen drei Jahrzehnten haben sich Städte und Regionen in Ost und West teilweise höchst unterschiedlich, teilweise aber auch sehr ähnlich entwickelt. Diese Entwicklung soll anhand ausgewählter Merkmale (Geburtenrate, Pro-Kopf-Einkommen etc.) aus den Datenbanken der Statistischen Landesämter und des Statistischen Bundesamtes visualisiert und für Nutzer damit recherchierbar und erlebbar gemacht werden. Ergebnis soll eine als Prototyp realisierte Web-Anwendung (mit Visualisierungen u.a.) bis mindestens Prototypenreife sein.

Organisatorisch

Das Projekt ist für maximal 3 Studenten vorgesehen.

Die Durchführung des Projekts findet in enger Zusammenarbeit mit Studenten des Masterstudiengangs Journalismus statt. Diesbezüglich ist es wünschenswert, dass Sie zu den Seminarterminen darunter folgend erscheinen. In den Seminaren werden die Schwerpunkte des Projekts ausgearbeitet, das heißt welche Daten, welche Analyseverfahren, Art der Präsentation bzgl. der Webanwendung, usw.

Ort:Zeppelinhaus 3.18, Nikolaistraße 25

Zeit: mittwochs, 11:15-12:45

Datum Thema
23.10Konkretisierung des Projektauftrags
Welche Fragen sind für die Nutzer*innen interessant? Welche Vorbildprojekte gibt es in anderen journalistischen Medien oder Infoportalen zum selben Thema oder zu anderen Themen (Spiegel Online, Zeit Online, Katapult, Bundeszentrale für politische Bildung)? Welche Daten aus welchen Quellen stehen zur Verfügung (GESIS, Statistisches Bundesamt, Statistische Landesämter)? Wie können die Daten verknüpft und aufbereitet werden? In welche IT-Infrastruktur des MDR soll das Projektergebnis eingepflegt werden?
13.11.2019Finalisierung des Projektmanagement-Plans
27.11.2019-
15.01.2020
Projektarbeit

Testate

Für das Bestehen des „Data Warehouse und Data Mining Praktikum“ sind folgende Teilleistungen zu erbringen. Jedes Testat soll zu einem vereinbarten Termin dem Betreuer präsentiert werden.

Testat 1

Für den Vergleich von Städten mithilfe statistischer Daten, ist vorab eine Datenerfassung sowie Integration notwendig. Diesbezüglich sollen verschiedene Datenquellen verwendet werden, um die entsprechenden Daten zu extrahieren. Die extrahierten Daten sollen in einer einheitlichen Repräsentation persistiert werden, so dass Kennzahlen separat von dem zeitlichen sowie inhaltlichen(Stadtname, Longitude, Latitude,…) Aspekt verwaltet werden.

  • Konzeptualisierung eines standardisierten Datenmodells
  • Extraktion, Transformation, Speicherung der Daten dem Datenmodell entsprechend

Abgabe:

  • Datenbankentwurf
  • Programm für die Datenextraktion, Transformation und Speicherung

Testat 2

Basierend auf den Kennzahlen sollen diverse Data-Mining Verfahren, wie z.B. Clustering, Top-K Selektion angewendet werden. Der Umfang der Verfahren kann sich durch Diskussion im Seminar ändern.

Abgabe:

  • Ausführbare Implementierung der Verfahren

Testat 3

Die aufbereiteten Daten sollen mithilfe einer Web-Applikation dargestellt werden. Dabei sollen ebenfalls die realisierten Analyseverfahren Anwendung finden, so dass es z.B. möglich ist „ähnliche“ Städte zu ermitteln. Der exakte Funktionalitätsumfang soll in den Seminaren erfasst werden.

Abgabe:

  • Webapplikation