Die Universität Würzburg entwickelt eine Texterkennung von alten Büchern

Wissenschaftler aus Deutschland entwickelten eine Software zur Texterkennung von historischen Druckschriften (Bild: gemeinfrei)

Die gesprochen Sprache ist ebenso Wandlungen unterzogen, wie das gedruckte Wort. Und so schlummern in den Archiven der Welt zahllose Bücher in alten Schriftarten, die für den Laien kaum mehr zu lesen sind. Bücher, die vor 100 Jahren gedruckt wurden sind ebenso darunter, wie kostbare Druckwerke aus vergangenen Jahrhunderten. Allgemein hin nennt man diesen Schriftsatz schlicht „Altdeutsche Schrift“. Obwohl es hier zahllose Variationen gibt. Wissenschaftler der Julius-Maximilians-Universität Würzburg wollen diese Schriften nun mit einer neu entwickelten digitalen Texterkennung in die Modere übertragen. Sie entwickelten eine Software, die solche Schriften erkennt und in lesbare und verarbeitbare Texte für den Computer umwandelt. Ein enormer Fortschritt für alle Forscher und Interessierte an diesen Druckschriften der Vergangenheit. Der noch dazu von den Entwicklern kostenlos zur Verfügung gestellt wird.

+++ Blog-Newsletter HIER abonnieren +++

Liebe Freundinnen & Freunde des Phantastischen!

Das digitale Zeitalter

Eine der gewaltigsten Neuerungen oder Errungenschaften der Menschheit war die Erfindung des Bruchdruck. Wie kaum eine andere Errungenschaft hat das gedruckte Wort die Gesellschaft verändert. Und viele dieser frühen Druckwerke vergangener Jahrhundert liegen bis heute noch in den Bibliotheken und Archiven verwahrt.

Dabei sind zahlreiche dieser Werke längst im digitalen Zeitalter angekommen. Schon seit Jahren werden sie nach und nach abfotografiert oder ihre Seiten gescannt und online der Welt zur Verfügung gestellt. Forscher wie Laien können bequem von daheim aus diese alten Bücher lesen oder sich auch nur an deren oftmals kunstvollen Bebilderung und farbenfrohen Illustration erfreuen. Auch wenn nicht wenige dieser Bücher im Laufe der Jahrhunderte beschädigt wurden.

Ein Problem sind für Forscher und Leser dieser alten Bücher sehr oft die Schriften. Während entsprechende Forscher wie Historiker oder Theologen diese noch lesen können, scheitern viele Menschen an der alten Typographie der Schrift. Heute, wo die meisten („jungen“) Menschen lieber alles gestochen scharf auf dem PC, Tablet oder Smartphone lesen, sehen die alten Texte aus wie von einem anderem Planeten.

Texterkennungssoftware wiederum gibt es schon lange. Doch bei derart alten und zum Teil beschädigten Schriftarten scheiterten diese Programm meistens kläglich. In eine computerlesbare Form konnte solche Software die Texte nicht umwandeln. Und wenn, dann war das Ergebnis noch schlechter zu lesen als das Original in „Altdeutsch“.

Forscher um Christian Reul und dem Informatik-Professor Frank Puppe vom Zentrum für Philologie und Digitalität der Julius-Maximilians-Universität in Würzburg haben jetzt allerdings einen Durchbruch auf diesem Gebiet erzielt!

Texerkennung für die Geschichte

Wie die Wissenschaftler in mehreren Veröffentlichungen (s. a. HIER) schreiben, ist es ihnen gelungen eine Texterkennung zu entwickeln, die die zahllosen unterschiedlichen Schriftarten erkennen und in moderne Form umwandeln kann. Mit dem digitalen kostenlosen Werkzeug „OCR4all“ haben die Experten bei der Erkennung und Umwandlung in computerlesbarer Textform zum Teil eine Genauigkeit von über 99 Prozent erreicht. Das ist gewaltig!

Denn hierbei muss man wissen, dass vor Jahrhunderten quasi jede Druckerei ihre Buchstaben selber anfertigte. Von einer einheitlichen Schriftart oder irgendwelchen Normen war man sehr weit entfernt. „Ihre Druckstempel waren alle selbst geschnitzt, jede Druckerei hatte praktisch ihre jeweils eigenen Buchstaben und Zeichen“, so Projektleiter Christian Reul. Deshalb sehen die Typographien vieler gedruckten Dokumente aus dem 15. oder 16. Jahrhundert so unterschiedlich aus.

Auch für Grenzwissenschaftler, die in solchen Schriften nach Spuren des Phantastischen suchen, ist das durchaus immer wieder ein Problem. Zumal einige schon schon an altdeutschen Dokumenten und Büchern aus den 20ger oder 30ger Jahren scheitern. Bei noch älteren Druckwerken ist es vielfach sogar nicht möglich einzelne Buchstaben auseinander zu halten.

Natürlich ist die Software „OCR4all“ auch mit künstlicher Intelligenz versehen. Das heißt, dass das Texterkennungsprogramm lernfähig ist. In einer umfangreichen Studie haben die Wissenschaftler diese Lernfähigkeit an sechs Druckwerken aus den Jahren 1476 bis 1572 erprobt. Die Texterkennung erhielt so eine Art von Grundausbildung und konnte dabei die Fehlerquote von 3,9 auf nur 1,7 Prozent senken.

Geschichte für die Ewigkeit

Die automatische Erkennung und Einlesung derart alter Druckwerke in ein Textverarbeitungsprogramm ist natürlich von unterschiedlicher Genauigkeit. Dies ergibt sich eben aufgrund der einst so unterschiedlich genutzten Lettern der Druckereien. Doch die Ergebnisse sind beeindruckend, und so schrieben Reul und sein Team schon am 8. Oktober 2018 unter anderem:

„Bei der Umwandlung historischer Lexika in elektronische Form ist es nicht nur das Ziel, ein qualitativ hochwertiges OCR-Ergebnis für den Text zu erhalten, sondern auch eine präzise automatische Erkennung typografischer Attribute durchzuführen, um die logische Struktur zu erfassen. (…)

Als Testfall verwendeten wir ein deutsches Wörterbuch (Sander’s ‚Wörterbuch der Deutschen Sprache‘) aus dem 19. Jahrhundert, das eine besonders komplexe semantische Funktion der Typografie umfasst. Trotz des sehr schwierigen Materials erreichten wir eine Fehlerquote unter 0,4 % und eine Typografieerkennung, bei der fast 99 % der Wörter zugeordnet wurden.

Im Gegensatz zu vielen existierenden Methoden arbeitet unser neuartiger Ansatz mit realen historischen Daten und kann häufigen Änderungen der Typografie auch innerhalb von Zeilen begegnen.“

Damit ist der Weg in die digitale Zukunft alter Druckschriften für jedermann geebnet. Auch für UFO-Forscher, Prä-Astronautiker oder ganz allgemein Grenzwissenschaftler, sofern sie vor derart schwer lesbaren Schriften zurück schrecken. Immerhin bilden auch und vor allem diese alten Schriften und Aufzeichnungen eine Fundgrube bei der Suche nach den Rätseln der Welt, wie zum Beispiel in diesem Vortrags-Video HIER dargelegt.

Was denkst DU darüber? Diskutiere gerne bei Facebook mit.

Euer Jäger des Phantastischen