German English

Seminar Data Cleaning WS06/07

Die Termine 23.01. und 30.01. finden im Seminargebäude Raum 3-05 um 13 Uhr statt.

Die ersten beiden Termine (9. und 16. Januar) fanden im Seminarraum 1-22 in der Johannisgasse 26 statt.

Termin und Ort

Einzelne Termine siehe Tabelle ‘Themen’.

  • Vorbesprechung: 17. Oktober 2006
  • Uhrzeit: dienstags 13:00 Uhr bis ca. 15 Uhr, statt; bei 3 Themen bis ca. 16:30 Uhr.
  • Ort: Seminargebäude 3-05

Inhaltsübersicht

Daten aus verschiedenen Datenquellen können u.a. falsche Werte, Inkonsistenzen sowie Duplikate enthalten. Data Cleaning beschäftigt sich daher mit der Säuberung von Daten, d.h. dem Erkennen und Korrigieren von Datenfehlern. Dazu gehören u.a. die Normalisierung von Daten in ein einheitliches Format (z.B. Personennamen), die Analyse von auffälligen Datenwerten (z.B. Geburtsjahr > 3000) oder das Erkennen gleicher Datensätze (z.B. doppelter Eintrag für gleiche Person).

Data Cleaning ist u.a. zentraler Bestandteil von Anwendungen zur Datenintegration (z.B. Data Warehouses). Der Qualität des durchgeführten Data Cleanings kommt eine entscheidende Bedeutung zu, da fehlerhafte Daten zu falschen Ergebnissen in den entsprechenden Anwendungen führen (garbage in, garbage out). Das Seminar gibt einen Überblick über die Teilgebiete des Data Cleanings und beleuchtet sowohl aktuelle Forschungsarbeiten als auch bestehende Tools zum Data Cleaning.

Teilnehmerkreis

Informatiker (Diplom / Bachelor / Master) im Hauptstudium

Erwartete Vorkenntnisse

  • DBS1
  • Data-Warhousing (von Vorteil)

Bedingungen für Scheinvergabe (pro Teilnehmer)

  • Selbständiger Vortrag mit Diskussion (25–30min)
  • Schriftliche Ausarbeitung (ca. 15 Seiten)
    • Ausarbeitung vom Betreuer abzunehmen
    • Ausarbeitung soll zum Vortragstermin vorliegen
  • Aktive Teilnahme an allen Vortragsterminen

Themen

NrThemaBetreuerBearbeiterTerminPDF
0 Einführung, Ablauf -E. Rahm 17.10.06 Folien
1 Data Cleaning – Ein Überblick D. Sosna Björn Dassow, Ronny Jäkel 09.01.07 Folien
2 Normalisierung von Daten D. Aumüller Fei Yuan, Shuangqing He 09.01.07
3 Outlier-Analyse M. Hartung Regine Werner, Andreas Richter 16.01.07
4 Ähnlichkeitsmaße zur Duplikaterkennung T. Kirsten Xiaoling Luo, Yiming Huang 16.01.07
5 Object Matching in relationalen Daten H. Köpcke Tino Schnerwitzki, Michael Maaß 23.01.07
6 Object Matching in hierarchischen DatenA. Thor Doreen Seider, Enrico Tappert 23.01.07
7 Bereinigung von Web-Daten D. Aumüller Bo Peng, Chun Bao 23.01.07
8 Data-Cleaning-Frameworks S. Maßmann Zheng Li 30.01.07
9 Data-Cleaning-Unterstützung in kommerziellen DBS A. Weikum Qin Wang, Marcel Hoyer 30.01.07
10Evaluierungen/Benchmarks H. Köpcke Thomas Weber, Renfei Zhang 30.01.07

Literatur

Seminar | Wintersemester 2006/07