- Team
- Forschung
- Studium
- Klausurtermine
- M.Sc. Data Science
- SS 2022
- SS 2023
- WS 2022/23
- WS 2023/24
- LOTS-Nutzung
- Vergangene Semester
- Module der Abteilung
- Abschlussarbeiten
- Top-Studenten
- Erasmus
- Service
Big Data Praktikum
Allgemeines
- Folien Einführungsveranstaltung
- Bei Fragen und Problemen zur An- und Abmeldung (AlmaWeb) wenden Sie sich bitte an das Studienbüro via einschreibung(at)math.uni-leipzig.de
Termine / Testate (Präsenzveranstaltungen)
- Einführungsveranstaltung mit Gruppeneinteilung: 16.10.2015, 14:30 Uhr, P801
- Vorbesprechung: Erstes Treffen für die Konkretisierung des Themas und die ersten Schritte 26.10.2015-30.10.2015
Das Praktikum gliedert sich in drei Teile. Nach jeder der drei Teilaufgaben wird ein Testat durchgeführt. Zum erfolgreichen Absolvieren des Praktikums müssen alle drei Testate erfolgreich abgelegt werden. Wird ein Termin nicht eingehalten, verfallen die bereits erbrachten Teilleistungen. Die konkreten Termine für Testat 1+2 sind mit dem Betreuer per E-Mail zu vereinbaren. Alle Gruppenmitglieder müssen zu den Testaten anwesend sein und Fragen zum Thema beantworten können.
- Testat 1: Ende November
- Testat 2: Ende Januar/Anfang Februar
- Testat 3 = Präsentationen: 4. März, 13:30 - ca. 18:00, Raum P702
Übersicht
Das Praktikum beinhaltet den Entwurf und die Realisierung einer Anwendung oder eines Algorithmus, die mithilfe der existierenden Big Data Frameworks wie. z.B. Hadoop, Spark, Flink oder Gradoop erstellt werden sollen. Die resultierende Anwendung soll in einer Clusterumgebung ausführbar sein. Im einzelnen sind folgende Teilaufgaben zu lösen:
- Konzeptioneller Entwurf Es ist ein Entwurfsdokument anzufertigen, welches konzeptionell den Ablauf und die Architektur ihrer Anwendung darstellt. Diesbezüglich sollen Sie beschreiben wie Sie die jeweilgen Frameworks nutzen. Das Dokument soll sich vom Umfang auf 2-4 Seiten beschränken.
- Implementierung Basierend auf ihrem Entwurf soll die Anwendung realisiert werden und in einem von uns zur Verfügung gestellten GitHub-Repository versioniert werden. Das Resultat dieser Phase ist ein dokumentiertes, ausführbares Programm.
- Abschlusspräsentation Am Ende des Praktikums stellt jede Gruppe ihr Projekt vor, wobei sie ihre Anwendung beschreibt sowie die Resultate präsentiert.
Themen
Nr | Thema | Betreuer | Studenten | Framework/Programmiermodell |
---|---|---|---|---|
1 | Visualisierung von Open Street Map-Daten | Peukert | Geowave, Geomesa | |
2 | Tweet-Analyse von News | Christen | Mahout | |
3 | Holistic Ontology Matching | Christen | Gradoop, Flink | |
4 | Analyse von Wetterdaten | Groß | Spark, Spark-R | |
5 | Big OLAP: Datawarehouse | Groß | Flink, Kylin, Hive, HBase | |
6 | Graph Metrics and Measures | Petermann | Giraph, Flink, Spark | |
7 | Graph Centrality Measures | Junghanns | Giraph, Flink, Spark | |
8 | Random Walk With Restart | Junghanns | Giraph, Flink | |
9 | Graph Summarization | Petermann | Flink, Spark | |
10 | Diffusion-based Graph Partitioning | Junghanns | Giraph, Flink |
Erwartete Vorkenntnisse
- Kenntnisse der Sprache Java sind unbedingt notwendig
- Kenntnisse bzgl. Big Data Framework aus den Vorlesungen Cloud Data Management oder NoSQL
- UNIX-Kenntnisse von Vorteil
- Git-Kenntnisse von Vorteil
Teilnehmerkreis
Master-Studiengänge Informatik. Die Teilnahme erfolgt in 2-3-er Gruppen, die Teilnehmerzahl ist beschränkt (ca. 16 Studenten). Bei zu großer Teilnehmerzahl erfolgt die endgültige Vergabe der Praktikumsplätze während der Einführungsveranstaltung.
Ergebnisse
Die Ergebnisse des Praktikums koennen auf GitHub eingesehen werden.