Semantic data integration and knowledge graph creation at scale

Download statistics - Document (COUNTER):

Jozashoori, Samaneh: Semantic data integration and knowledge graph creation at scale. Hannover : Gottfried Wilhelm Leibniz Universität, Diss., 2023, VI, 159 Seiten, DOI: https://doi.org/10.15488/13537

Selected time period:

year: 
month: 

Sum total of downloads: 436




Thumbnail
Abstract: 
Contrary to data, knowledge is often abstract. Concrete knowledge can be achieved through the inclusion of semantics in the data models, highlighting the role of data integration. The massive growing number of data, in recent years, has promoted the demand for scaling up data management techniques; materializing data integration, a.k.a., knowledge graph creation falls in that category. In this thesis, we investigate efficient methods and techniques for materializing data integration. We formalize the process of materializing data integration. We formally define the characteristics of a materialized data integration system that merge the data operators and sources. Owing to this formalism, both layers of data integration, including data and schema-level integration, are formalized in the context of mapping assertions. We explore optimization opportunities for improving the materialization of data integration systems. We recognize three angles including intra/inter-mapping assertions from which the materialization can be improved. Accordingly, we propose source-based, mapping-based, and inter-mapping assertion groups of optimization techniques. We utilize our proposed techniques in three real-world projects. We illustrate how applying these optimization techniques contribute to meeting the objectives of the mentioned projects.Furthermore, we study the parameters impacting the performance of materialization of data integration. Relying on reported parameters and the presumably impacting parameters, we build four groups of testbeds. We empirically study the performances of these different testbeds in the presence and absence of our proposed techniques, in terms of execution time. We observe that the savings can be up to 75%.Lastly, we contribute to facilitating the process of declarative data integration system definition. We propose two data operation function signatures in Function Ontology (FnO). The first set of functions is designed to perform the task of entity alignment by resorting to an entity and relation linking tool. The second library consists of domain-specific functions to align genomic entities by harmonizing their representations. Finally, we introduce a tool equipped with a user interface to facilitate the process of defining declarative mapping rules by allowing users to explore the data sources and unified schema while defining their correspondences.
Im Gegensatz zu den Daten ist das Wissen oft abstrakt. Konkretes Wissen kanndurch die Einbeziehung von Semantik in die Datenmodelle erreicht werden, was dieRolle der Datenintegration unterstreicht. Die massiv wachsende Zahl von Daten hatin den letzten Jahren die Nachfrage nach einer Ausweitung der Datenverwaltungstechnikengef¨ordert; die materialisierende Datenintegration, auch bekannt als die Erstellung von Wissensgraphen, f¨allt in diese Kategorie.In dieser Arbeit untersuchen wir effiziente Methoden und Techniken zur Materialisierung der Datenintegration. Wir formalisieren den Prozess der Materialisierung der Datenintegration. Wir definieren formal die Eigenschaften eines materialisierten Datenintegrationssystems, so dass die Datenoperatoren und -quellen zusammengef¨uhrt werden. Dank dieses Formalismus werden beide Ebenen der Datenintegration, einschließlich der Integration auf Daten- und Schemaebene, im Kontext von Mapping-Assertions formalisiert. Wir untersuchen die Optimierungsm¨oglichkeiten zur Verbesserung der Materialisierung von Datenintegrationssystemen. Wir erkennen drei Gesichtspunkte, einschließlich Intra-/Inter-Mapping-Assertions, unter denen die Materialisierung verbessert werden kann. Dementsprechend schlagen wir quellenbasierte, mappingbasierte und inter-mapping Assertionsgruppen von Optimierungstechniken vor. Wir setzen die von uns vorgeschlagenen Techniken in drei Forschungsprojekte ein. Wir veranschaulichen, wie die Anwendung dieser Optimierungstechniken dazu beitr¨agt, die Ziele der genannten Projekte zu erreichen. Wir untersuchen die Parameter, die sich auf die Leistung der Materialisierung der Datenintegration auswirken. Auf der Grundlage der gemeldeten Parameter und der vermutlich ausschlaggebenden Parameter erstellen wir vier Gruppen von Testumgebungen.Wir untersuchen empirisch die Leistung dieser verschiedenen Testbeds mitund ohne die von uns vorgeschlagenen Techniken in Bezug auf die Ausf¨uhrungszeit.Wir stellen fest, dass die Einsparungen bis zu 75% betragen k¨onnen.Schließlich tragen wir zur Erleichterung des Prozesses der deklarativen Definitionvon Datenintegrationssystemen bei, indem wir zwei Funktionssignaturen f¨ur Datenoperationenin der Function Ontology (FnO) vorschlagen. Die erste Gruppe vonFunktionen ist f¨ur die Aufgabe des Entit¨atsabgleichs konzipiert, w¨ahrend die zweiteBibliothek aus dom¨anenspezifischen Funktionen zum Abgleich genomischer Entit¨atendurch Harmonisierung ihrer Darstellungen besteht. Schließlich stellen wir ein Toolvor, das mit einer Benutzeroberfl¨ache ausgestattet ist, um den Prozess der Definitiondeklarativer Mapping-Regeln zu erleichtern, indem es den Benutzern erm¨oglicht, dieDatenquellen und das einheitliche Schema zu erkunden.
License of this version: CC BY 3.0 DE
Document Type: DoctoralThesis
Publishing status: publishedVersion
Issue Date: 2023
Appears in Collections:Fakultät für Elektrotechnik und Informatik
Dissertationen

distribution of downloads over the selected time period:

downloads by country:

pos. country downloads
total perc.
1 image of flag of Germany Germany 164 37.61%
2 image of flag of China China 74 16.97%
3 image of flag of United States United States 53 12.16%
4 image of flag of Spain Spain 24 5.50%
5 image of flag of France France 15 3.44%
6 image of flag of No geo information available No geo information available 11 2.52%
7 image of flag of Netherlands Netherlands 8 1.83%
8 image of flag of Canada Canada 7 1.61%
9 image of flag of United Kingdom United Kingdom 6 1.38%
10 image of flag of Israel Israel 5 1.15%
    other countries 69 15.83%

Further download figures and rankings:


Hinweis

Zur Erhebung der Downloadstatistiken kommen entsprechend dem „COUNTER Code of Practice for e-Resources“ international anerkannte Regeln und Normen zur Anwendung. COUNTER ist eine internationale Non-Profit-Organisation, in der Bibliotheksverbände, Datenbankanbieter und Verlage gemeinsam an Standards zur Erhebung, Speicherung und Verarbeitung von Nutzungsdaten elektronischer Ressourcen arbeiten, welche so Objektivität und Vergleichbarkeit gewährleisten sollen. Es werden hierbei ausschließlich Zugriffe auf die entsprechenden Volltexte ausgewertet, keine Aufrufe der Website an sich.

Search the repository


Browse