Autor |
Nachricht |
|
Titel: Tesseract - OCR mit Fraktur/Altdeutscher Schrift scheitert
Verfasst am: 11.06.2011, 10:12 Uhr
|
|
Anmeldung: 04. Jan 2007
Beiträge: 1604
Wohnort: Hamburg
|
|
Hallo Ihr,
ich habe einen altdeutschen/fraktur Text, den ich mit OCR erkennen lassen möchte. Nun habe ich das Paket tesseract-ocr-deu-f gefunden und es installiert. Es scheint aber nicht zu funktionieren.
Ich habe jetzt mal geschaut und gesehen daß im Ordner
/usr/share/tesseract-ocr/tessdata/
Die Datei deu-f.freq-dawg ist nur 1 KB groß, wohingegen die Datei deu.word-dawg 1,1 MB groß ist. Die Fraktur-Datei scheint also nichts zu enthalten.
Und wenn ich in gscan2pdf den Eintrag -f wähle, was wohl für Fraktur stehen soll, dann bricht die Texterkennung sofort ab.
Habt Ihr Erfahrungen mit diesem Problem, bzw. könnt Ihr das so reproduzieren?
Viele Grüße Christopher |
_________________ Es ist dem Untertanen untersagt, den Maßstab seiner beschränkten Einsicht an die Handlungen der Obrigkeit anzulegen - Kurfürst Friedrich Wilhelm von Brandenburg
www.projektidee.org | www.gesundheitstabelle.de | www.neoliberalyse.de
|
|
|
|
|
|
Titel: Tesseract - OCR mit Fraktur/Altdeutscher Schrift scheitert
Verfasst am: 03.09.2012, 22:42 Uhr
|
|
Anmeldung: 04. Jan 2007
Beiträge: 1604
Wohnort: Hamburg
|
|
|
|
|
|
|
|