German English

Verfahren für Entity-Resolution

In vielen Domänen ist die Integration von verschiedenen Datenquellen relenvant. Ein wichtiger Bestandteil ist die Identifikation von Duplikaten, um die Informationen der Datenquellen zu vereinheitlichen. Im Allgemeinen, werden zu Beginn mittels Blocking die Menge der Vergleiche zwischen Objekten reduziert, um die Effizienz zu erhöhen. Im Matching Schritt werden Ähnlickeiten zwischen Objekten berechnet, die in der Selection Phase verwendet werden, um korrekte Duplikate zu bestimmen. Das Auffinden von Duplikaten spielt eine essentielle Rolle bei Produktportalen, Personenverzeichnisse, Geodaten,etc. Aufgrund der hohen Datenmenge und Datenqualitätsproblemen sowie der Heterogenität der Datenquellen spielen Effizienz und Qualität eine entscheidende Rolle für Record-Linkage Verfahren.

Lösungsansätze von Entity-Resolution Verfahren umfassen Themen des Machine und Active Learning sowie effiziente Blocking Techniken. Technologisch stehen parallele Frameworks, wie z.B. Flink im Vordergrund.