Toolbox eMedien

Texterkennung (OCR)

Andreas Hartmann

Sofern gedruckte Texte digitalisiert werden sollen, empfiehlt sich die Anwendung eines OCR-Programmes (Optical Character Recognition). Für "normale" Texte gibt es eine Reihe von geeigneten, wenn auch kostspieligen Programmen (Nuance OmniPage, ABBYY Finereader); auch monotonisches Neugriechisch wird von dieser Software ohne Probleme erkannt. Schwieriger ist die Digitalisierung polytonischer altgriechischer Texte: Nur die griechische Firma Ideatech vertreibt ein hierauf spezialisiertes Programm mit Namen Anagnostis, das aber hinsichtlich der Erkennungsgenauigkeit und der Toleranz gegenüber schlechten Vorlagen in keiner Weise mit der genannten Standardsoftware konkurrieren kann. Es ist auch nicht erkennbar, dass diese Software in irgendeiner Form weiterentwickelt würde. Abhilfe schafft ein kleiner Trick: Sowohl OmniPage als auch Finereader lassen sich für neue Zeichensätze trainieren. Da sie nicht voll Unicode-fähig sind, kann man ihnen zwar Altgriechisch nicht direkt beibringen, man kann sie aber überlisten, indem man den altgriechischen Zeichen jeweils ihre Beta Code-Äquivalente (http://www.tlg.uci.edu/encoding) zuweist und die Vokale mit Akzenten bzw. die Großbuchstaben als Ligaturen deklariert. Das Ergebnis ist eine Textvorlage in Beta Code, die dann mit den oben aufgeführten Konvertern nach Unicode überführt werden kann. Seit Version 9 können nun in Finereader auch beliebige Unicode-Zeichen direkt trainiert werden.

Empfohlene Zitierweise
Andreas Hartmann, Texterkennung (OCR), aus: Toolbox eMedien, in: historicum-estudies.net,
URL: http://www.historicum-estudies.net/etutorials/toolbox-emedien/hilfsmittel-fuer-althistoriker/texterkennung/?L=0 (Datum des letzten Besuchs).

Erstellt: 24.04.2014

Zuletzt geändert: 06.05.2015