Inferring Missing Categorical Information in Noisy and Sparse Web Markup

Tempelmeier, Nicola; Demidova, Elena; Dietze, Stefan

Inferring Missing Categorical Information in Noisy and Sparse Web Markup

Services

Deutsch English

Über das Repositorium Suchen und Entdecken Publizieren

Startseite
→
Forschungseinrichtungen
→
Forschungszentren
→
Dokumentanzeige

Downloadstatistik des Dokuments (Auswertung nach COUNTER):

Tempelmeier, N.; Demidova, E.; Dietze, S.: Inferring Missing Categorical Information in Noisy and Sparse Web Markup. In: Proceedings of the 2018 World Wide Web Conference (WWW '18), S. 1297-1306. DOI: https://doi.org/10.1145/3178876.3186028

Version im Repositorium

Zum Zitieren der Version im Repositorium verwenden Sie bitte diesen DOI: https://doi.org/10.15488/4771

Zeitraum, für den die Download-Zahlen angezeigt werden:

Summe der Downloads: 161

Verteilung der Downloads über den gewählten Zeitraum
Herkunft der Downloads nach Ländern

zurück zum Einzeltitelnachweis (Ansicht Nutzungsstatistik schließen)

Namep1297-tempelmeier ...

Größe1,06 MB

FormatAdobe PDF

Öffnen

Zusammenfassung:
Embedded markup of Web pages has seen widespread adoption throughout the past years driven by standards such as RDFa and Microdata and initiatives such as schema.org, where recent studies show an adoption by 39% of all Web pages already in 2016. While this constitutes an important information source for tasks such as Web search, Web page classification or knowledge graph augmentation, individual markup nodes are usually sparsely described and often lack essential information. For instance, from 26 million nodes describing events within the Common Crawl in 2016, 59% of nodes provide less than six statements and only 257,000 nodes (0.96%) are typed with more specific event subtypes. Nevertheless, given the scale and diversity of Web markup data, nodes that provide missing information can be obtained from the Web in large quantities, in particular for categorical properties. Such data constitutes potential training data for inferring missing information to significantly augment sparsely described nodes. In this work, we introduce a supervised approach for inferring missing categorical properties in Web markup. Our experiments, conducted on properties of events and movies, show a performance of 79% and 83% F1 score correspondingly, significantly outperforming existing baselines.
Lizenzbestimmungen:	CC BY 4.0 Unported
Publikationstyp:	BookPart
Publikationsstatus:	publishedVersion
Erstveröffentlichung:	2018
Die Publikation erscheint in Sammlung(en):	Forschungszentren

nach oben

Verteilung der Downloads über den gewählten Zeitraum:

nach oben

Herkunft der Downloads nach Ländern:

Pos.	Land		Downloads
Pos.	Land		Anzahl	Proz.
1		Germany	84	52,17%
2		United States	31	19,25%
3		Netherlands	12	7,45%
4		China	10	6,21%
5		No geo information available	8	4,97%
6		United Kingdom	3	1,86%
7		Israel	2	1,24%
8		France	2	1,24%
9		Italy	1	0,62%
10		Austria	1	0,62%
		andere	7	4,35%

nach oben

Weitere Download-Zahlen und Ranglisten:

Hinweis

Zur Erhebung der Downloadstatistiken kommen entsprechend dem „COUNTER Code of Practice for e-Resources“ international anerkannte Regeln und Normen zur Anwendung. COUNTER ist eine internationale Non-Profit-Organisation, in der Bibliotheksverbände, Datenbankanbieter und Verlage gemeinsam an Standards zur Erhebung, Speicherung und Verarbeitung von Nutzungsdaten elektronischer Ressourcen arbeiten, welche so Objektivität und Vergleichbarkeit gewährleisten sollen. Es werden hierbei ausschließlich Zugriffe auf die entsprechenden Volltexte ausgewertet, keine Aufrufe der Website an sich.

Suche im Repositorium

Durchblättern

Gesamter Bestand
Diese Sammlung

Inferring Missing Categorical Information in Noisy and Sparse Web Markup

Downloadstatistik des Dokuments (Auswertung nach COUNTER):

Version im Repositorium

Zeitraum, für den die Download-Zahlen angezeigt werden:

Summe der Downloads: 161

Verteilung der Downloads über den gewählten Zeitraum:

Herkunft der Downloads nach Ländern:

Weitere Download-Zahlen und Ranglisten:

Suche im Repositorium

Durchblättern

Gesamter Bestand

Diese Sammlung