Digitalisierung des Archivs der Neuen Züricher Zeitung

Mit Hilfe von ABBYY-Technologie hat das Fraunhofer-Institut für Medienkommunikation (IMK) in Sankt Augustin die Digitalisierung des gesamten Archivs der Neuen Zürcher Zeitung (NZZ) in Angriff genommen. Das IMK setzt hierzu ABBYY FineReader XIX und das Software Development Kits ABBYY FineReader Engine ein. Zwei Millionen Seiten liegen im NZZ-Archiv in unterschiedlichsten Formaten und Schrifttypen (z.B. Antiqua und Fraktur) vor. Diese können durch den Einsatz des ABBYY FineReader XIX ab Ende September 2005 per Volltextsuche erschlossen werden. FineReader XIX ist eine Texterkennungs-Software (Optical Charater Recognition, OCR), die auch alte europäische Sprachen bzw. Frakturschrift verarbeiten kann.

"Das Projekt stellt in vielen Bereichen eine Herausforderung dar. Neben dem bloßen Umfang sind dies zum Beispiel die häufig schlechte Qualität der Vorlagen und die Verwendung von Fraktur- und Antiquaschriften", erläutert Dr. Stefan Eickeler, Projektleiter des IMK. "Für einige Funktionen mussten wir spezielle Lösungen entwickeln, für die Texterkennung setzen wir ABBYY FineReader XIX ein. Das Programm verfügt über eine hohe Erkennungsgenauigkeit, die Fähigkeit zur Verarbeitung von Frakturschrift und lässt sich über ein Software Development Kit einfach anpassen und in bestehende Anwendungen integrieren."

Die Vorlagen bestehen aus Registerbänden und Mikrofilmen – rund 1500 Rollen 35-Millimeter-Film. Die Qualität der Mikrofilmvorlagen, die das Ausgangsmaterial für die Texterkennung bilden, ist unterschiedlich. Bei der fotografischen Erfassung gab es häufig Verzerrungen. Für die Digitalisierung werden die fotografischen Daten in Bilddateien umgewandelt. Hierzu hat das IMK eine eigene Software entwickelt, die Verzerrungen und Unschärfen weitgehend entfernt. Die Bilddateien bilden das Augsangsmaterial für die Texterkennung durch den ABBYY FineReader XIX. ABBYY FineReader XIX verbindet alle Funktionen der bekannten OCR Software ABBYY FineReader 7.0 mit der Erkennung alter europäischer Sprachen bzw. Frakturschrift. Mit dem Programm kann der Anwender Dokumente in Frakturschrift scannen, lesen und digitalisieren, ohne das System lange zu trainieren. Die Spezialisten des IMK haben das SDK FineReader Engine und FineReader XIX in ihre Gesamtlösung integriert, die auf einem 20 Rechner umfassenden Cluster läuft. Aus den Erkennungsergebnissen des FineReader erstellt die Lösung pro Seite eine XML-Datei, die Metadaten z.B. zu Absatztiteln oder typografischen Merkmalen von Wörtern enthält. Pro Seite kommen so 4 Megabyte Daten zusammen. Der Gesamtdatenbestand des digitalen Archivs wird 10 Terabyte betragen.

"Wir freuen uns sehr über die Zusammenarbeit mit dem Fraunhofer-Institut", erläutert Jupp Stoepetie, Geschäftsführer von ABBYY Europe. "Dieses Projekt zeigt, wie weit unsere OCR-Technologie mittlerweile entwickelt ist. Digitalisierungsprojekte wie das des IMK werden durch unsere Technologie überhaupt erst technisch und finanziell möglich. Die ersten Pläne zu einer Digitalisierung ihres Archivs musste die NZZ noch vor wenigen Jahren verwerfen, weil die Kosten zu hoch waren. Durch den Einsatz des FineReader XIX lassen sich auch komplexe Abläufe automatisieren und große Kostenvorteile erzielen. Ohne die Möglichkeit der Antiqua- und Frakturerkennung wäre das Projekt sicher nicht realisierbar gewesen."

Quelle: openPR.de, 1.3.2005 (Pressemitteilung der Fa. ABBYY)

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.