Samstag, 30. November 2013

Altgriechisch OCR für Mac/Lin/Win und Android: tesseract-ocr

Dank Google gibt es ein kostenloses, quelloffenes OCR-Projekt, das eine Vielzahl an Sprachen erkennt, sogar Altgriechisch!

Android

Wenn man einen Androiden besitzt, geht's sehr einfach:
Man installiere dieses Programm und anschließend "ancient greek":
OCR Instantly Free
Dann kann mit der Handykamera gescannt werden. Eine hervorragende Bildaufbesserung ist integriert.
Die Ergebnisse können sich sehen lassen! Es gibt auch eine Vollversion um unter 1 Euro, die ein paar Vorteile bietet.

Desktopsysteme

Tesseract-ocr am Desktop zu nutzen, bietet sich das Java-Programm VietOCR an. Weil Java, läuft es auf praktisch allen Desktopsystemen.

Windows

Ist am einfachsten: Im Google-Code-Projekt wird direkt ein Setup angeboten:
tesseract-ocr-setup-3.02.02.exe
(Alle Downloads -evtl. eine neuere Version vorhanden)
Während dem Setup gewünschte Sprachen auswählen.

VietOCR (Java): für alle Systeme

Tesseract muss installiert sein. In Windows geht das mit dem Setup s.o. In anderen Systemen funktionierts wie folgt.

Mac

HomeBrew installieren (Alternative zu MacPorts)
Das ins Terminal eintragen (ohne sudo):

ruby -e "$(curl -fsSL https://raw.github.com/mxcl/homebrew/go/install)"

... XCode wird installiert. Wenn fertig im Skript die Eingabetaste drücken, dann wird Homebrew installiert. Anschließend das ins Terminal eingeben:

brew install tesseract

Das Skript macht alles selbstständig (Programmquellen werden heruntergeladen und mit "make install" für den Mac kompiliert.

Nun kann VietOCR verwendet werden.
Der Pfad zu tesseract lautet (je nach Version) /usr/local/Cellar/tesseract/3.02.02/bin
Anschließend Sprachdaten über das Menü laden. 

==== FEHLERBEHEBUNG ====
Aus irgendeinem Grund wurde die Sprachdateien in einen falschen Ordner kopiert. Nachdem ich irgendwas ins Feld für OCR-Sprache eingegeben hatte, sagt mir das Programm mit einer Fehlermeldung, wo es die Daten sehen wollte. Ich habe die dorthin verschoben und es funktioniert nun alles – die Sprachen sind per Dropdown auswählbar.

Screenshots zur Verdeutlichung:






2 Kommentare:

  1. Immer wenn ich mit VietOCR ein PDF versuche zu öffnen, bekomme ich eine Warning, wie folgt: "Unable to load library 'gs'... install GPL Ghostscript... or set the appropriate einviroment variable".
    Aber es gibt schon in meinem Macbook GS(ver.9.07) und die Environment variable für gs habe ich in ".profile" korrekt gestellt, trotzdem bekomme ich immer gleiches Message von VietOCR. Was soll ich tun?? Können Sie mir helfen, bitte?

    AntwortenLöschen
  2. Ich würde Ihnen empfehlen, aus dem Pdf-Bild (z.B. mit Vorschau) ein png zu erstellen, 600 dpi sind glaube ich eine gute Wahl. Damit gibt es keine Probleme. Ghostscript habe ich bisher nur in Windows verwendet und noch nie gebraucht am Mac.

    AntwortenLöschen