Concepts and tools for the effective and efficient use of web archives

Download statistics - Document (COUNTER):

Holzmann, Helge: Concepts and tools for the effective and efficient use of web archives. Hannover : Gottfried Wilhelm Leibniz Universität, Diss., 2019, xiv, 145 S. DOI: https://doi.org/10.15488/4436

Selected time period:

year: 
month: 

Sum total of downloads: 760




Thumbnail
Abstract: 
Web archives constitute valuable sources for researchers in various disciplines. However, their sheer size, the typically broad scope and their temporal dimension make them difficult to work with. We have identified three views to access and explore Web archives from different perspectives: user-, data- and graph-centric. The natural way to look at the information in a Web archive is through a Web browser, just like the live Web is consumed. This is what we consider the user-centric view. The most commonly used tool to access a Web archive this way is the Wayback Machine, the Internet Archive's replay tool to render archived webpages. To facilitate the discovery of a page if the URL or timestamp of interest is unknown, we propose effective approaches to search Web archives by keyword with a temporal dimension through social bookmarks and labeled hyperlinks. Another way for users to find and access archived pages is past information on the current Web that is linked to the corresponding evidence in a Web archive. A presented tool for this purpose ensures coherent archived states of webpages related to a common object as rich temporal representations to be referenced and shared. Besides accessing a Web archive by closely reading individual pages like users do, distant reading methods enable analyzing archival collections at scale. This data-centric view enables analysis of the Web and its dynamics itself as well as the contents of archived pages. We address both angles: 1. by presenting a retrospective analysis of crawl metadata on the size, age and growth of a Web dataset, 2. by proposing a programming framework for efficiently processing archival collections. ArchiveSpark operates on standard formats to build research corpora from Web archives and facilitates the process of filtering as well as data extraction and derivation at scale. The third perspective is what we call the graph-centric view. Here, websites, pages or extracted facts are considered nodes in a graph. Links among pages or the extracted information are represented by edges in the graph. This structural perspective conveys an overview of the holdings and connections between contained resources and information. While this enables novel concepts of exploring Web archives, it also raises new challenges. We present the latest achievements in all three views as well as synergies among them. For instance, important websites that can be identified from the graph-centric perspective may be of particular interest for the users of a Web archive. The data-centric view is used in both ways, it benefits from the graph-centric view to guide data studies but is also employed to prepare the data for the other views, like extracting graphs from archival collections. Finally, by considering the three views as different zoom levels of the same Web archive, they can be integrated in a holistic data analysis pipeline.
Web-Archive stellen wertvolle Datenquellen für Forscher unterschiedlicher Disziplinen dar. Ihre schiere Größe, die typischerweise große Bandbreite an Daten sowie ihre zeitliche Dimension führen jedoch dazu, dass es nicht einfach ist, mit ihnen zu arbeiten. Um dies näher zu untersuchen, haben wir drei Sichtweisen auf den Zugriff und die Exploration von Web-Archiven identifiziert: Nutzer-, Daten- und Graphen-zentriert. Ähnlich wie das Live-Web, ist der natürliche Weg die Informationen in einem Web-Archiv zu betrachten, durch einen Web-Browser. In dieser Nutzer-zentrierten Sicht, stellt die Wayback Machine des Internet Archives das bekannteste Tool zur Anzeige archivierter Webseiten dar. Um dabei das Auffinden solcher Seiten zu unterstützen, zu denen entweder die URL oder der gewünschte Zeitpunkt nicht bekannt sind, stellen wir einen effektiven Ansatz vor, um Web-Archive basierend auf sozialen Lesezeichen oder Hyperlinks zeitlich nach Schlüsselwörtern zu durchsuchen. Eine Alternative dazu sind zeitliche Informationen im Live-Web, die mit entsprechenden Belegen in einem Web-Archiv verlinkt sind. Unser dafür präsentierter Ansatz stellt sicher, dass zusammengehörige Seiten gemeinsam archiviert werden und somit als zeitliche Abbildung der durch sie repräsentierten Objekte dienen. Neben der individuellen Betrachtung einzelner Webseiten durch den Nutzer, ermöglicht das sogenannte Distant-Reading Analysen im großen Stil. Die Daten-zentrierte Sicht betrachtet dabei sowohl das Web selbst, mit seinen dynamischen Eigenschaften, als auch die Inhalte der archivierten Seiten. Wir beschäftigen uns hierbei mit beiden Blickwinkeln: 1. indem wir Crawl-Metadaten in Bezug auf die Größe, das Alter sowie das Wachstum einer Webkollektion untersuchen, 2. indem wir ein Programmier-Framework zur effizienten Datenverarbeitung von Archiven vorstellen. ArchiveSpark arbeitet dabei ausschließlich mit Standardformaten, woraus Forschungskorpora durch die Anwendung von Filtern und die Extraktion von Daten erstellt werden können. Aus der dritten Perspektive, der Graphen-zentrierte Sicht, werden Webseiten oder enthaltene Informationen als Knoten in einem Graphen betrachtet. Links oder Verbindungen zwischen diesen Daten werden durch Kanten in dem Graphen repräsentiert. Diese strukturelle Perspektive vermittelt dadurch einen Überblick über die im Archiv enthaltenen Elemente und deren Beziehungen. Diese Betrachtung der Daten ermöglicht neuartige Konzepte zur Erkundung von Web-Archiven. Gleichzeitig wirft sie jedoch auch neue Fragen auf. Neben den neuesten Ergebnissen aus allen drei Sichtweisen präsentieren wir auch die Synergien zwischen diesen. Beispielsweise hilft die Graphen-zentrierte Sicht dabei, wichtige Webseiten zu identifizieren, die für Nutzer von besonderem Interesse sein können. Die Daten-zentrierte Sicht profitiert einerseits ebenfalls von der Graphen-zentrierte Sicht, um Webseiten mit hoher Relevanz für eine Datenanalyse ausfindig zu machen, andererseits wird sie genutzt, um die benötigten Daten für die beiden anderen Perspektiven aufzubereiten, zum Beispiel zur Konstruktion eines Graphen basierend auf den archivierten Daten. Weiterhin können die drei Sichtweisen als unterschiedliche Zoomstufen auf ein und dieselben Daten angesehen werden, was sich vor allem bei Datenanalyse-Prozessen als sehr sinnvoll erwiesen hat.
License of this version: Es gilt deutsches Urheberrecht. Das Dokument darf zum eigenen Gebrauch kostenfrei genutzt, aber nicht im Internet bereitgestellt oder an Außenstehende weitergegeben werden.
Document Type: doctoralThesis
Publishing status: publishedVersion
Issue Date: 2019
Appears in Collections:Fakultät für Elektrotechnik und Informatik
Dissertationen

distribution of downloads over the selected time period:

downloads by country:

pos. country downloads
total perc.
1 image of flag of United States United States 183 24.08%
2 image of flag of Germany Germany 149 19.61%
3 image of flag of Netherlands Netherlands 52 6.84%
4 image of flag of United Kingdom United Kingdom 46 6.05%
5 image of flag of France France 34 4.47%
6 image of flag of Canada Canada 29 3.82%
7 image of flag of Romania Romania 23 3.03%
8 image of flag of India India 13 1.71%
9 image of flag of Hungary Hungary 13 1.71%
10 image of flag of No geo information available No geo information available 12 1.58%
    other countries 206 27.11%

Further download figures and rankings:


Hinweis

Zur Erhebung der Downloadstatistiken kommen entsprechend dem „COUNTER Code of Practice for e-Resources“ international anerkannte Regeln und Normen zur Anwendung. COUNTER ist eine internationale Non-Profit-Organisation, in der Bibliotheksverbände, Datenbankanbieter und Verlage gemeinsam an Standards zur Erhebung, Speicherung und Verarbeitung von Nutzungsdaten elektronischer Ressourcen arbeiten, welche so Objektivität und Vergleichbarkeit gewährleisten sollen. Es werden hierbei ausschließlich Zugriffe auf die entsprechenden Volltexte ausgewertet, keine Aufrufe der Website an sich.

Search the repository


Browse