Konvertierung von PDF in XML für die Langzeitarchivierung und Weiterverarbeitung

Zur Kurzanzeige

dc.identifier.uri http://dx.doi.org/10.15488/3918
dc.identifier.uri https://www.repo.uni-hannover.de/handle/123456789/3952
dc.contributor.author Bähr, Thomas ger
dc.contributor.author Friedrichsen, Merle ger
dc.date.accessioned 2018-11-06T14:12:16Z
dc.date.available 2018-11-06T14:12:16Z
dc.date.issued 2017
dc.identifier.citation Bähr, T.; Friedrichsen, M.: Konvertierung von PDF in XML für die Langzeitarchivierung und Weiterverarbeitung. In: ABI Technik 37 (2017), S. 21-29. DOI: https://doi.org/10.1515/abitech-2017-0004 ger
dc.description.abstract In der Darstellung, Weitergabe und Aufbewahrung elektronischer Publikationen steht das Format PDF unangefochten an erster Stelle. Die Stärken des ISO-standardisierten Formats liegen in der Plattform- und Hardwareunabhängigkeit, in der seitengenauen Darstellung von Publikationen sowie in der einfachen Navigierbarkeit von komplexen Dokumenten. Dank der stetigen Weiterentwicklung des Formats existiert mittlerweile eine große Anzahl an PDF Profilen wie PDF/A, PDF/X, PDF/UA oder PDF/E. Eine flexiblere Dokumentendarstellung ermöglicht hingegen die eXtensible Markup Language XML, welche nicht nur im Web, sondern auch vermehrt in der Druckvorstufe eingesetzt wird. Wie PDF ist auch XML medienneutral und plattformunabhängig. Im Gegensatz zu PDF-Dokumenten erlaubt XML hingegen mittels Erfassung der Inhalte in einer dokumentierten und transparenten Struktur eine Validierung der Inhalte wie auch eine gezielte Weiternutzung einzelner Teilinhalte. Die Technische Informationsbibliothek (TIB) führte eine Analyse zur Machbarkeit einer PDF-nach-XML-Konvertierung durch. Ziel ist die Vorhaltung von XML-Dokumenten für zwei Prozesse: Erstens zur automatischen Katalogisierung von Kongressbänden auf Aufsatzebene, zweitens zur Aufbewahrung einer parallelen Repräsentation neben PDF-Dokumenten im Langzeitarchiv. Dieser Artikel stellt die Ergebnisse der Machbarkeitsstudie dar. ger
dc.description.abstract PDF is without a doubt the most common file format choice when it comes to presenting, sharing and preserving electronic publications. The strengths of the ISO-standardized format lie in its independent platform and hardware, its page-exact rendering of publications as well as its smooth navigation of complex documents. Due to the ever-growing requirements of the community, a number of profiles for the file format exist today, such as: PDF/A, PDF/X, PDF/UA or PDF/E. The eXtensible Markup Language XML, on the other hand, allows for more flexible handling of document display, leading to a high adoption of the format not only in the web but also in printing and publishing processes. Like PDF, XML is media-neutral and platform-independent. Contrary to PDF, XML makes use of a transparent and well-documented content structure, allowing for validation processes as well as for extraction processes targeting specific content parts. TIB (the Technische Informationsbibliothek) conducted a proof-of-concept study on PDF to XML conversion. The study’s background is the usage of XML as a second representation of the original PDF content in the digital archive. This article presents the outcome of the proof-of-concept. eng
dc.language.iso ger ger
dc.publisher Berlin, Boston : De Gruyter
dc.relation.ispartofseries ABI Technik 37 (2017) ger
dc.rights Es gilt deutsches Urheberrecht. Das Dokument darf zum eigenen Gebrauch kostenfrei genutzt, aber nicht im Internet bereitgestellt oder an Außenstehende weitergegeben werden. Dieser Beitrag ist aufgrund einer (DFG-geförderten) Allianz- bzw. Nationallizenz frei zugänglich. ger
dc.subject Strucutral Analysis eng
dc.subject File Format Conversion eng
dc.subject Automatic Layout recognition eng
dc.subject Strukturanalyse ger
dc.subject Dateiformatkonvertierung ger
dc.subject automatische Layouterkennung ger
dc.subject.ddc 020 | Bibliotheks- und Informationswissenschaft ger
dc.subject.ddc 004 | Informatik ger
dc.title Konvertierung von PDF in XML für die Langzeitarchivierung und Weiterverarbeitung ger
dc.title.alternative Conversion of PDF to XML for preservation and usage eng
dc.type Article ger
dc.type Text ger
dc.relation.doi 10.1515/abitech-2017-0004
dc.bibliographicCitation.firstPage 21
dc.bibliographicCitation.lastPage 29
dc.description.version publishedVersion ger
tib.accessRights frei zug�nglich


Die Publikation erscheint in Sammlung(en):

  • Zentrale Einrichtungen
    Frei zugängliche Publikationen aus Zentralen Einrichtungen der Leibniz Universität Hannover

Zur Kurzanzeige

 

Suche im Repositorium


Durchblättern

Mein Nutzer/innenkonto

Nutzungsstatistiken