Concepts and tools for the effective and efficient use of web archives

Holzmann, Helge

dc.identifier.uri	http://dx.doi.org/10.15488/4436
dc.identifier.uri	https://www.repo.uni-hannover.de/handle/123456789/4476
dc.contributor.author	Holzmann, Helge	ger
dc.date.accessioned	2019-02-06T13:43:40Z
dc.date.available	2019-02-06T13:43:40Z
dc.date.issued	2019
dc.identifier.citation	Holzmann, Helge: Concepts and tools for the effective and efficient use of web archives. Hannover : Gottfried Wilhelm Leibniz Universität, Diss., 2019, xiv, 145 S. DOI: https://doi.org/10.15488/4436	ger
dc.description.abstract	Web archives constitute valuable sources for researchers in various disciplines. However, their sheer size, the typically broad scope and their temporal dimension make them difficult to work with. We have identified three views to access and explore Web archives from different perspectives: user-, data- and graph-centric. The natural way to look at the information in a Web archive is through a Web browser, just like the live Web is consumed. This is what we consider the user-centric view. The most commonly used tool to access a Web archive this way is the Wayback Machine, the Internet Archive's replay tool to render archived webpages. To facilitate the discovery of a page if the URL or timestamp of interest is unknown, we propose effective approaches to search Web archives by keyword with a temporal dimension through social bookmarks and labeled hyperlinks. Another way for users to find and access archived pages is past information on the current Web that is linked to the corresponding evidence in a Web archive. A presented tool for this purpose ensures coherent archived states of webpages related to a common object as rich temporal representations to be referenced and shared. Besides accessing a Web archive by closely reading individual pages like users do, distant reading methods enable analyzing archival collections at scale. This data-centric view enables analysis of the Web and its dynamics itself as well as the contents of archived pages. We address both angles: 1. by presenting a retrospective analysis of crawl metadata on the size, age and growth of a Web dataset, 2. by proposing a programming framework for efficiently processing archival collections. ArchiveSpark operates on standard formats to build research corpora from Web archives and facilitates the process of filtering as well as data extraction and derivation at scale. The third perspective is what we call the graph-centric view. Here, websites, pages or extracted facts are considered nodes in a graph. Links among pages or the extracted information are represented by edges in the graph. This structural perspective conveys an overview of the holdings and connections between contained resources and information. While this enables novel concepts of exploring Web archives, it also raises new challenges. We present the latest achievements in all three views as well as synergies among them. For instance, important websites that can be identified from the graph-centric perspective may be of particular interest for the users of a Web archive. The data-centric view is used in both ways, it benefits from the graph-centric view to guide data studies but is also employed to prepare the data for the other views, like extracting graphs from archival collections. Finally, by considering the three views as different zoom levels of the same Web archive, they can be integrated in a holistic data analysis pipeline.	eng
dc.description.abstract	Web-Archive stellen wertvolle Datenquellen für Forscher unterschiedlicher Disziplinen dar. Ihre schiere Größe, die typischerweise große Bandbreite an Daten sowie ihre zeitliche Dimension führen jedoch dazu, dass es nicht einfach ist, mit ihnen zu arbeiten. Um dies näher zu untersuchen, haben wir drei Sichtweisen auf den Zugriff und die Exploration von Web-Archiven identifiziert: Nutzer-, Daten- und Graphen-zentriert. Ähnlich wie das Live-Web, ist der natürliche Weg die Informationen in einem Web-Archiv zu betrachten, durch einen Web-Browser. In dieser Nutzer-zentrierten Sicht, stellt die Wayback Machine des Internet Archives das bekannteste Tool zur Anzeige archivierter Webseiten dar. Um dabei das Auffinden solcher Seiten zu unterstützen, zu denen entweder die URL oder der gewünschte Zeitpunkt nicht bekannt sind, stellen wir einen effektiven Ansatz vor, um Web-Archive basierend auf sozialen Lesezeichen oder Hyperlinks zeitlich nach Schlüsselwörtern zu durchsuchen. Eine Alternative dazu sind zeitliche Informationen im Live-Web, die mit entsprechenden Belegen in einem Web-Archiv verlinkt sind. Unser dafür präsentierter Ansatz stellt sicher, dass zusammengehörige Seiten gemeinsam archiviert werden und somit als zeitliche Abbildung der durch sie repräsentierten Objekte dienen. Neben der individuellen Betrachtung einzelner Webseiten durch den Nutzer, ermöglicht das sogenannte Distant-Reading Analysen im großen Stil. Die Daten-zentrierte Sicht betrachtet dabei sowohl das Web selbst, mit seinen dynamischen Eigenschaften, als auch die Inhalte der archivierten Seiten. Wir beschäftigen uns hierbei mit beiden Blickwinkeln: 1. indem wir Crawl-Metadaten in Bezug auf die Größe, das Alter sowie das Wachstum einer Webkollektion untersuchen, 2. indem wir ein Programmier-Framework zur effizienten Datenverarbeitung von Archiven vorstellen. ArchiveSpark arbeitet dabei ausschließlich mit Standardformaten, woraus Forschungskorpora durch die Anwendung von Filtern und die Extraktion von Daten erstellt werden können. Aus der dritten Perspektive, der Graphen-zentrierte Sicht, werden Webseiten oder enthaltene Informationen als Knoten in einem Graphen betrachtet. Links oder Verbindungen zwischen diesen Daten werden durch Kanten in dem Graphen repräsentiert. Diese strukturelle Perspektive vermittelt dadurch einen Überblick über die im Archiv enthaltenen Elemente und deren Beziehungen. Diese Betrachtung der Daten ermöglicht neuartige Konzepte zur Erkundung von Web-Archiven. Gleichzeitig wirft sie jedoch auch neue Fragen auf. Neben den neuesten Ergebnissen aus allen drei Sichtweisen präsentieren wir auch die Synergien zwischen diesen. Beispielsweise hilft die Graphen-zentrierte Sicht dabei, wichtige Webseiten zu identifizieren, die für Nutzer von besonderem Interesse sein können. Die Daten-zentrierte Sicht profitiert einerseits ebenfalls von der Graphen-zentrierte Sicht, um Webseiten mit hoher Relevanz für eine Datenanalyse ausfindig zu machen, andererseits wird sie genutzt, um die benötigten Daten für die beiden anderen Perspektiven aufzubereiten, zum Beispiel zur Konstruktion eines Graphen basierend auf den archivierten Daten. Weiterhin können die drei Sichtweisen als unterschiedliche Zoomstufen auf ein und dieselben Daten angesehen werden, was sich vor allem bei Datenanalyse-Prozessen als sehr sinnvoll erwiesen hat.	ger
dc.language.iso	eng	ger
dc.publisher	Hannover : Institutionelles Repositorium der Leibniz Universität Hannover
dc.rights	Es gilt deutsches Urheberrecht. Das Dokument darf zum eigenen Gebrauch kostenfrei genutzt, aber nicht im Internet bereitgestellt oder an Außenstehende weitergegeben werden.	ger
dc.subject	Web archives	eng
dc.subject	temporal search	eng
dc.subject	distributed data processing	eng
dc.subject	Web analysis	eng
dc.subject	Web-Archive	ger
dc.subject	zeitliche Suche	ger
dc.subject	verteilte Datenverarbeitung	ger
dc.subject	Web-Analyse	ger
dc.subject.ddc	004 \| Informatik	ger
dc.title	Concepts and tools for the effective and efficient use of web archives	eng
dc.type	DoctoralThesis	ger
dc.type	Text	ger
dcterms.extent	xiv, 145 S.
dc.description.version	publishedVersion	ger
tib.accessRights	frei zug�nglich	ger

Name: phd_thesis_final.pdf

Größe: 6.390Mb

Format: PDF

Öffnen

Die Publikation erscheint in Sammlung(en):

Fakultät für Elektrotechnik und Informatik
Frei zugängliche Publikationen aus der Fakultät für Elektrotechnik und Informatik
Dissertationen
Dissertationsschriften der Leibniz Universität Hannover

Concepts and tools for the effective and efficient use of web archives

Die Publikation erscheint in Sammlung(en):

Suche im Repositorium

Durchblättern

Gesamter Bestand

Diese Sammlung

Mein Nutzer/innenkonto

Nutzungsstatistiken