- Team
- Research
- Study
- Klausurtermine
- M.Sc. Data Science
- SS 2022
- SS 2023
- WS 2022/23
- WS 2023/24
- LOTS-Nutzung
- Previous terms
- Module der Abteilung
- Theses
- Top-Studenten
- Erasmus
- Service
Datenintegration und Data Mining in der Praxis
Inhalt
Der Masterstudiengang M.Sc. Journalismus der Uni Leipzig führt zusammen mit dem MDR (Redaktion Wissen und Bildung) im Wintersemester 2019/20 ein datenjournalistisches Projekt durch und sucht Informatik-Studierende als Unterstützung, die Lust haben, journalistische Arbeit kennenzulernen und zu unterstützen.
Thema des Projekts mit dem Arbeitstitel “Deutschland-Doppel” ist die Entwicklung ost- und westdeutscher Regionen seit der Wiedervereinigung 1990. In den vergangenen drei Jahrzehnten haben sich Städte und Regionen in Ost und West teilweise höchst unterschiedlich, teilweise aber auch sehr ähnlich entwickelt. Diese Entwicklung soll anhand ausgewählter Merkmale (Geburtenrate, Pro-Kopf-Einkommen etc.) aus den Datenbanken der Statistischen Landesämter und des Statistischen Bundesamtes visualisiert und für Nutzer damit recherchierbar und erlebbar gemacht werden. Ergebnis soll eine als Prototyp realisierte Web-Anwendung (mit Visualisierungen u.a.) bis mindestens Prototypenreife sein.
Organisatorisch
Das Projekt ist für maximal 3 Studenten vorgesehen.
Die Durchführung des Projekts findet in enger Zusammenarbeit mit Studenten des Masterstudiengangs Journalismus statt. Diesbezüglich ist es wünschenswert, dass Sie zu den Seminarterminen darunter folgend erscheinen. In den Seminaren werden die Schwerpunkte des Projekts ausgearbeitet, das heißt welche Daten, welche Analyseverfahren, Art der Präsentation bzgl. der Webanwendung, usw.
Ort:Zeppelinhaus 3.18, Nikolaistraße 25
Zeit: mittwochs, 11:15-12:45
Datum | Thema |
---|---|
23.10 | Konkretisierung des Projektauftrags Welche Fragen sind für die Nutzer*innen interessant? Welche Vorbildprojekte gibt es in anderen journalistischen Medien oder Infoportalen zum selben Thema oder zu anderen Themen (Spiegel Online, Zeit Online, Katapult, Bundeszentrale für politische Bildung)? Welche Daten aus welchen Quellen stehen zur Verfügung (GESIS, Statistisches Bundesamt, Statistische Landesämter)? Wie können die Daten verknüpft und aufbereitet werden? In welche IT-Infrastruktur des MDR soll das Projektergebnis eingepflegt werden? |
13.11.2019 | Finalisierung des Projektmanagement-Plans |
27.11.2019- 15.01.2020 | Projektarbeit |
Testate
Für das Bestehen des „Data Warehouse und Data Mining Praktikum“ sind folgende Teilleistungen zu erbringen. Jedes Testat soll zu einem vereinbarten Termin dem Betreuer präsentiert werden.
Testat 1
Für den Vergleich von Städten mithilfe statistischer Daten, ist vorab eine Datenerfassung sowie Integration notwendig. Diesbezüglich sollen verschiedene Datenquellen verwendet werden, um die entsprechenden Daten zu extrahieren. Die extrahierten Daten sollen in einer einheitlichen Repräsentation persistiert werden, so dass Kennzahlen separat von dem zeitlichen sowie inhaltlichen(Stadtname, Longitude, Latitude,…) Aspekt verwaltet werden.
- Konzeptualisierung eines standardisierten Datenmodells
- Extraktion, Transformation, Speicherung der Daten dem Datenmodell entsprechend
Abgabe:
- Datenbankentwurf
- Programm für die Datenextraktion, Transformation und Speicherung
Testat 2
Basierend auf den Kennzahlen sollen diverse Data-Mining Verfahren, wie z.B. Clustering, Top-K Selektion angewendet werden. Der Umfang der Verfahren kann sich durch Diskussion im Seminar ändern.
Abgabe:
- Ausführbare Implementierung der Verfahren
Testat 3
Die aufbereiteten Daten sollen mithilfe einer Web-Applikation dargestellt werden. Dabei sollen ebenfalls die realisierten Analyseverfahren Anwendung finden, so dass es z.B. möglich ist „ähnliche“ Städte zu ermitteln. Der exakte Funktionalitätsumfang soll in den Seminaren erfasst werden.
Abgabe:
- Webapplikation