Big Data Praktikum

Allgemeines

Die Anmeldung zum Praktikum erfolgt über Almaweb.
- Bei Fragen und Problemen zur Anmeldung wenden Sie sich bitte immer an das Studienbüro via einschreibung(at)math.uni-leipzig.de

Teilnehmerkreis

Master-Studiengänge Informatik. Die Teilnahme erfolgt in 2-3-er Gruppen, die Teilnehmerzahl ist beschränkt (20 Studenten). Bei zu großer Teilnehmerzahl erfolgt die endgültige Vergabe der Praktikumsplätze während der Einführungsveranstaltung. Zu beachten ist, dass Studenten, die das Big Data Praktikums noch nicht belegt haben, bevorzugt werden.

Termine / Testate (Präsenzveranstaltungen)

Einführungsveranstaltung mit Gruppeneinteilung: Mo 24.04, 11:15 Uhr, Raum S204 (Seminargebäude) Folien
Vorbesprechung: Erstes Treffen für die Konkretisierung des Themas und die ersten Schritte - Terminabsprache individuell mit Betreuer.

Das Praktikum gliedert sich in drei Teile. Nach jeder der drei Teilaufgaben wird ein Testat durchgeführt. Zum erfolgreichen Absolvieren des Praktikums müssen alle drei Testate erfolgreich abgelegt werden. Wird ein Termin nicht eingehalten, verfallen die bereits erbrachten Teilleistungen. Die konkreten Termine für Testat 1+2 sind mit dem Betreuer per E-Mail zu vereinbaren. Alle Gruppenmitglieder müssen zu den Testaten anwesend sein und Fragen zum Thema beantworten können.

Testat 1: Ende Mai
Testat 2: Mitte/Ende Juli
Testat 3: 31.07. um 13:30 bis ca. 17 Uhr Raum P701

Übersicht

Das Praktikum beinhaltet den Entwurf und die Realisierung einer Anwendung oder eines Algorithmus, die mithilfe der existierenden Big Data Frameworks wie. z.B. Hadoop, Spark, Flink oder Gradoop erstellt werden sollen. Die resultierende Anwendung soll in einer Clusterumgebung ausführbar sein. Im einzelnen sind folgende Teilaufgaben zu lösen:

Konzeptioneller Entwurf Es ist ein Entwurfsdokument anzufertigen, welches konzeptionell den Ablauf und die Architektur ihrer Anwendung darstellt. Diesbezüglich sollen Sie beschreiben wie Sie die jeweiligen Frameworks nutzen. Das Dokument soll sich vom Umfang auf 2-4 Seiten beschränken.
Implementierung Basierend auf ihrem Entwurf soll die Anwendung realisiert werden und in einem von uns zur Verfügung gestellten GitHub-Repository versioniert werden. Das Resultat dieser Phase ist ein dokumentiertes, ausführbares Programm.
Abschlusspräsentation Am Ende des Praktikums stellt jede Gruppe ihr Projekt vor, wobei sie ihre Anwendung beschreibt sowie die Resultate präsentiert.

Themen

Nr	Thema	Betreuer	Studenten	Framework/Programmiermodell
1	Is the globe really warming?	Lin	[redacted]	SparkR
2	Metabolic Networks	Groß	[redacted]	Gradoop
3	Distributed PubChem converter	Petermann	[redacted]	Apache Flink
4	Analyzing PanamaPapers with Gradoop	Peukert	[redacted]	Gradoop/Apache Flink
5	Analytics of Publication Data with Graphulo	Kricke	[redacted]	Apache Accumulo
6	Classification of program traces using TensorFlow or Caffe	Grimmer	[redacted]	TensorFlow or Caffe / Python / C++ / (Java)
7	Analyse LOD datasets within Gradoop	Nentwig	[redacted]	Apache Flink
8	Speed up Entity Resolution with Bit Arrays	Sehili	[redacted]
9	Parameter Tuning for Entity-Resolution Problems	Christen	[redacted]	SparkML

Erwartete Vorkenntnisse

Kenntnisse der Sprache Java sind unbedingt notwendig
Kenntnisse bzgl. Big Data Framework aus den Vorlesungen Cloud Data Management oder NoSQL
UNIX-Kenntnisse von Vorteil
Git-Kenntnisse von Vorteil

Praktikum

» Druckversion

Abteilung Datenbanken Leipzig

Inhalte

Neue Publikationen