Konvertierung von PDF in XML für die Langzeitarchivierung und Weiterverarbeitung

Downloadstatistik des Dokuments (Auswertung nach COUNTER):

Bähr, T.; Friedrichsen, M.: Konvertierung von PDF in XML für die Langzeitarchivierung und Weiterverarbeitung. In: ABI Technik 37 (2017), S. 21-29. DOI: https://doi.org/10.1515/abitech-2017-0004

Version im Repositorium

Zum Zitieren der Version im Repositorium verwenden Sie bitte diesen DOI: https://doi.org/10.15488/3918

Zeitraum, für den die Download-Zahlen angezeigt werden:

Jahr: 
Monat: 

Summe der Downloads: 410




Kleine Vorschau
Zusammenfassung: 
In der Darstellung, Weitergabe und Aufbewahrung elektronischer Publikationen steht das Format PDF unangefochten an erster Stelle. Die Stärken des ISO-standardisierten Formats liegen in der Plattform- und Hardwareunabhängigkeit, in der seitengenauen Darstellung von Publikationen sowie in der einfachen Navigierbarkeit von komplexen Dokumenten. Dank der stetigen Weiterentwicklung des Formats existiert mittlerweile eine große Anzahl an PDF Profilen wie PDF/A, PDF/X, PDF/UA oder PDF/E. Eine flexiblere Dokumentendarstellung ermöglicht hingegen die eXtensible Markup Language XML, welche nicht nur im Web, sondern auch vermehrt in der Druckvorstufe eingesetzt wird. Wie PDF ist auch XML medienneutral und plattformunabhängig. Im Gegensatz zu PDF-Dokumenten erlaubt XML hingegen mittels Erfassung der Inhalte in einer dokumentierten und transparenten Struktur eine Validierung der Inhalte wie auch eine gezielte Weiternutzung einzelner Teilinhalte. Die Technische Informationsbibliothek (TIB) führte eine Analyse zur Machbarkeit einer PDF-nach-XML-Konvertierung durch. Ziel ist die Vorhaltung von XML-Dokumenten für zwei Prozesse: Erstens zur automatischen Katalogisierung von Kongressbänden auf Aufsatzebene, zweitens zur Aufbewahrung einer parallelen Repräsentation neben PDF-Dokumenten im Langzeitarchiv. Dieser Artikel stellt die Ergebnisse der Machbarkeitsstudie dar.
PDF is without a doubt the most common file format choice when it comes to presenting, sharing and preserving electronic publications. The strengths of the ISO-standardized format lie in its independent platform and hardware, its page-exact rendering of publications as well as its smooth navigation of complex documents. Due to the ever-growing requirements of the community, a number of profiles for the file format exist today, such as: PDF/A, PDF/X, PDF/UA or PDF/E. The eXtensible Markup Language XML, on the other hand, allows for more flexible handling of document display, leading to a high adoption of the format not only in the web but also in printing and publishing processes. Like PDF, XML is media-neutral and platform-independent. Contrary to PDF, XML makes use of a transparent and well-documented content structure, allowing for validation processes as well as for extraction processes targeting specific content parts. TIB (the Technische Informationsbibliothek) conducted a proof-of-concept study on PDF to XML conversion. The study’s background is the usage of XML as a second representation of the original PDF content in the digital archive. This article presents the outcome of the proof-of-concept.
Lizenzbestimmungen: Es gilt deutsches Urheberrecht. Das Dokument darf zum eigenen Gebrauch kostenfrei genutzt, aber nicht im Internet bereitgestellt oder an Außenstehende weitergegeben werden. Dieser Beitrag ist aufgrund einer (DFG-geförderten) Allianz- bzw. Nationallizenz frei zugänglich.
Publikationstyp: Article
Publikationsstatus: publishedVersion
Erstveröffentlichung: 2017
Die Publikation erscheint in Sammlung(en):Zentrale Einrichtungen

Verteilung der Downloads über den gewählten Zeitraum:

Herkunft der Downloads nach Ländern:

Pos. Land Downloads
Anzahl Proz.
1 image of flag of Germany Germany 314 76,59%
2 image of flag of United States United States 28 6,83%
3 image of flag of Russian Federation Russian Federation 11 2,68%
4 image of flag of Czech Republic Czech Republic 9 2,20%
5 image of flag of India India 8 1,95%
6 image of flag of China China 6 1,46%
7 image of flag of Austria Austria 5 1,22%
8 image of flag of No geo information available No geo information available 4 0,98%
9 image of flag of Singapore Singapore 4 0,98%
10 image of flag of Switzerland Switzerland 4 0,98%
    andere 17 4,15%

Weitere Download-Zahlen und Ranglisten:


Hinweis

Zur Erhebung der Downloadstatistiken kommen entsprechend dem „COUNTER Code of Practice for e-Resources“ international anerkannte Regeln und Normen zur Anwendung. COUNTER ist eine internationale Non-Profit-Organisation, in der Bibliotheksverbände, Datenbankanbieter und Verlage gemeinsam an Standards zur Erhebung, Speicherung und Verarbeitung von Nutzungsdaten elektronischer Ressourcen arbeiten, welche so Objektivität und Vergleichbarkeit gewährleisten sollen. Es werden hierbei ausschließlich Zugriffe auf die entsprechenden Volltexte ausgewertet, keine Aufrufe der Website an sich.