Terminansicht

Veranstaltung

Teilautomatisierte Datenintegration von Produktdaten - End-to-End Entity Matching Prozess auf Basis von Large Language Models

Am Montag, den 03. November 2025, um 16:15 Uhr hält

Jan-Philipp Awick
Universität Oldenburg

im Rahmen seiner beabsichtigten Dissertation einen Vortrag mit dem Titel

Teilautomatisierte Datenintegration von Produktdaten - End-to-End Entity Matching Prozess auf Basis von Large Language Models

Der Vortrag findet im OFFIS, Escherweg 2, Raum F02

und https://meeting.uol.de/rooms/tj8-j69-snc-0sg/join statt.

Der Vortrag erfolgt in deutscher Sprache.

Abstract:
Die zunehmende Digitalisierung führt dazu, dass Produktinformationen in Unternehmen und entlang von Wertschöpfungsketten über verschiedene Systeme, Plattformen und Organisationen hinweg verteilt vorliegen. Um Produktinformationen aus unterschiedlichen Quellen zusammenzuführen, Redundanzen zu vermeiden und deren Weiterverwendung in Anwendungen wie Produktvergleich, Beschaffung oder Katalogmanagement zu ermöglichen, ist eine effektive Datenintegration erforderlich. Da zwischen den Datenquellen in der Regel keine einheitlichen Identifikationsschlüssel existieren, wird Entity Matching eingesetzt, um Datensätze zu identifizieren, die sich auf dasselbe Produkt beziehen, und diese zu einem integrierten Datensatz zusammenzuführen. Dieser Schritt bildet die Grundlage für konsistente Produktstammdaten.
Trotz technischer Fortschritte durch den Einsatz von vortrainierten Sprachmodellen bleibt das Entity Matching von Produktdaten eine komplexe Aufgabe. Bereits geringfügige Abweichungen in Beschreibungen, Attributen oder Varianten können darüber entscheiden, ob zwei Datensätze dasselbe Produkt repräsentieren. Aktuelle Verfahren weisen drei zentrale Schwächen auf. Erstens existieren überwiegend partielle Lösungen, die nur Teilaspekte des Entity Matching Prozesses abdecken. Zweitens erfordert das Fine-Tuning dieser Modelle große Mengen an Trainingsdaten, die in der Praxis häufig nicht verfügbar sind und deren Erstellung zeit- und kostenintensiv ist. Drittens verursacht die nötige manuelle Prüfung der Ergebnisse einen hohen Zeit- und Kostenaufwand, was die Automatisierung und den praktischen Einsatz zusätzlich erschwert.
Um diese Herausforderungen zu adressieren, stellt diese Arbeit einen End-to-End Entity Matching Prozess auf Basis von generativen Large Language Models für Produktdaten vor, der im Gegensatz zu bisherigen Ansätzen ohne zusätzliches Fine-Tuning auskommt. Ausgangspunkt ist ein systematisches Literaturreview, mit dem bestehende Ansätze identifiziert und analysiert wurden. Darauf aufbauend wurden Datenheterogenitätsprobleme von Produktdaten durch die Analyse von Literatur, Datenquellen und Experteninterviews abgeleitet. Die entwickelte Lösung kann ohne zusätzliches Modelltraining übereinstimmende Produkte zwischen verschiedenen Datenquellen identifizieren und zwischen sicheren und potenziellen Matches unterscheiden. Dadurch soll sowohl der zeitliche Aufwand für die Entwicklung und die Ergebnisprüfung als auch die Abhängigkeit von Trainingsdaten reduziert werden. Auf diese Weise soll der Automatisierungsgrad bei der Integration von Produktdaten erhöht werden und so einen effizienteren und praxisnäheren Einsatz ermöglichen.
Betreuer: Prof. Dr.-Ing. Jorge Marx Gómez

03.11.2025 16:15 – Offenes Ende

Webmaster (Stand: 20.06.2024)  Kurz-URL:Shortlink: https://uole.de/p31232c146009
Zum Seitananfang scrollen Scroll to the top of the page