Tesseract (Software)

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Tesseract
TesseractLogo.png
Maintainer Ray Smith u. a.
Aktuelle Version 3.04.01
(16. Februar 2016)
Betriebssystem Windows, Linux, Mac OS X, Cygwin
Programmier­sprache C++
Kategorie Texterkennung
Lizenz ASL (Freie Software)
deutschsprachig ja (Texterkennung)
Bedienung Englisch
github.com/tesseract-ocr
Tesseract 3.03 in einer Linux-Konsole

Tesseract ist eine freie Software zur Texterkennung. Es ist ein reines Zeichenerkennungsprogramm ohne die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche, das jedoch auf Zeichenebene sehr gute Ergebnisse bietet.

Es wird in der Programmiersprache C++ entwickelt.

Für mehr als 100 Sprachen und Sprachvarianten sind bereits Texterkennungsdaten in Zusatzmodulen vorhanden. Drei dieser Module erkennen auch (deutsche) Fraktur-Schrift.[1][2]

Geschichte[Bearbeiten | Quelltext bearbeiten]

Ursprünglich wurde die Software zwischen 1985 und 1995 von Hewlett-Packard entwickelt. Aus einem Test der University of Nevada, Las Vegas (UNLV) ging sie 1995 als einer der drei präzisesten Testkandidaten hervor. Nach dem Ausstieg von HP aus dem OCR-Markt lag die Entwicklung weitgehend brach, bis der Code 2005 an das Information Science Research Institute der UNLV übergeben wurde. Hier wurde festgestellt, dass der ehemalige Entwickler Ray Smith mittlerweile bei Google arbeitete. Nach einer Nachfrage bei Google, ob Interesse an dem Code bestünde, nahm sich Google des Quelltextes an, brachte ihn auf einen aktuellen Stand und gab ihn noch im selben Jahr unter der Apache-Lizenz über SourceForge frei.

Dies bedeutete in der Welt der freien Software einen großen Qualitätssprung im Bereich der Texterkennung. Das Projekt migrierte von SourceForge auf Googles eigene Software-Entwickler-Plattform Google Code, wo es unter Betreuung von Google weiterentwickelt wurde. Aktuell findet die Weiterentwicklung auf GitHub statt.

Seit 2006 wird das Programm als Grundlage von Google Bücher weiterentwickelt. Seit Version 3.0 vom September 2010 können Ergebnisse direkt in das hOCR-Format ausgegeben werden und es wurde ein neues Modul zur Analyse der Seitengestaltung eingeführt.

In der Version 3.02 vom 28. Oktober 2012 wurde u. a. die Erkennung arabischer und hebräischer Texte im bidirektionalen Modus eingeführt.

Das Projekt tesseractindic widmet sich der Aufgabe, das Programm mit Sprachen aus der indischen Sprachenfamilie verwendbar zu machen.[3]

Anwendung[Bearbeiten | Quelltext bearbeiten]

Tesseract wird nach den unter Unix üblichen Konventionen auch unter Windows von der Kommandozeile aus gesteuert und hat folgendes Format:[4]

tesseract.exe imagename outputbase [-l lang] [configfile [[+|-]varfile]...]

Tesseract liest das Bild im Tagged Image File Format (TIFF) ein und gibt den Text in die Ausgabedatei weiter. Da bislang keine Layoutkontrolle stattfindet – hierfür steht das laufende Projekt OCRopus – sind Textspalten auf einzelne Bilddateien zu verteilen. Das jüngere Forschungsprojekt Leptonica zielt ebenso auf Analyse der Seitengestaltung und weitere Bildformate.[5]

Eine automatisierte Verarbeitung lässt sich zum Beispiel mit ImageMagick verwirklichen.

Tesseract kann seit Version 3 die Scan-Ergebnisse im hOCR-Format speichern, wodurch die Seitengestaltung erhalten bleibt.[6] Auch durchsuchbare PDF-Dateien lassen sich mit dieser Version direkt erzeugen.[7]

Es existiert eine Reihe Software, die Tesseract als Backend einbindet. Tesseract kann als Zeichenerkennungsmodul in OCRopus verwendet werden, das zusätzlich noch Analyse der Dokumentgliederung und statistische Sprachmodelle bietet.[8] Allerdings benutzt OCRopus seit Version 0.4 standardmäßig ein eigenes Zeichenerkennungsmodul basierend auf neuronalen Netzen[9]. In früheren Versionen wurde Tesseract als Standardmodul in OCRopus verwendet. Neben weiteren möglichen Backends kann es in der Desktop-OCR-Lösung OCRFeeder zur Zeichenerkennung genutzt werden. Mittels hocr2pdf dient es zum Beispiel in dem Linux-basierten Dokumentenmanagement-System Archivista der Erzeugung einer Text-Schicht zu rastergraphischen Abbildern eingescannter Papierdokumente, um diese maschinell durchsuchbar zu machen.

Verfügbarkeit[Bearbeiten | Quelltext bearbeiten]

Tesseract wird als freie Software auch im Quelltext unter den Bedingungen von Version 2.0 der Apache-Lizenz (Apache Software License, ASL) verbreitet. In praktisch allen gängigen Linux-Distributionen kann es direkt aus den Standard-Paketquellen installiert werden.[2][10][11][12][13][14]

Tesseract dient u. a. bei folgenden Programmen als Basis der Texterkennung:

  • gImageReader ist ein freies graphisches Frontend und läuft auf Linux und Windows.[15]
  • ecoDMS ist ein kommerzielles Dokumentenmanagementsystem für Windows, Linux und MacOS.[16]
  • Office Manager Pro ist ein kommerzielles Dokumentenmanagementsystem für Windows.[17]
  • FreeOCR für Windows liegt als Version 5.4 (März 2015) vor.[18]
  • TesseractOCR Mac macht es auch für Mac OS X verfügbar.[19]
  • YAGF ist eines von mehreren Frontends, die unter Linux verwendet werden können.[20]
  • PDFScanner ist ein Programm zum Scannen von Dokumenten auf Macs.[21]
  • k2pdfopt ist ein plattformunabhängiges Open-Source-Programm, das PDF-Dateien für E-Reader optimiert. Es kann einen tesseract-basierten OCR Layer über eine gescannte PDF-Datei legen. Die MS-Windows-Version bietet eine GUI.[22]
  • Capture2Text ist ein Utility, das schnell einen Text vom Bildschirmfoto erkennt.[23]
  • (a9t9) Free OCR ist ein Open-Source (GPL) Tesseract Frontend für Windows Desktop.[24]

Siehe auch[Bearbeiten | Quelltext bearbeiten]

Weblinks[Bearbeiten | Quelltext bearbeiten]

 Commons: Tesseract (software) – Sammlung von Bildern, Videos und Audiodateien

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. tesseract-ocr/tessdata (englisch) GitHub. 3. August 2015. Abgerufen am 16. November 2015.
  2. a b Erik Bärwaldt: Buchstabensalat. Texterkennung mit Tesseract. In: LinuxUser. Nr. 5. Linux New Media AG, 8. April 2011.
  3. Tesseractindic (englisch) GitHub. 27. November 2009. Abgerufen am 19. April 2016.
  4. Running Tesseract (englisch) GitHub. Abgerufen am 19. April 2016.
  5. Selected papers on image processing and image analysis (englisch) 7. Juli 2007. Abgerufen am 19. April 2016.
  6. Adnan Vatandas: Tesseract 3 und hOCR. Oktober 2010. Abgerufen am 28. Oktober 2010.
  7. Tesseract Wiki. Abgerufen am 7. November 2015.
  8. ocropus - Google Code. Archiviert vom Original am 14. Mai 2008. Abgerufen am 19. April 2016.
  9. OCRopus doesn't even link with Tesseract by default. 17. August 2009. Abgerufen am 19. April 2016.
  10. Debian - Informationen über Paket tesseract-ocr in sid. Abgerufen am 19. April 2016.
  11. Debian-Paketsuche. Abgerufen am 19. April 2016.
  12. Package tesseract (englisch) Abgerufen am 19. April 2016.
  13. openSUSE-Paketsuche. Abgerufen am 19. April 2016.
  14. Mandriva Linux. Mandriva S. A.. Archiviert vom Original am 16. Juli 2012.
  15. gImageReader (englisch) GitHub. Abgerufen am 19. April 2016.
  16. ecoDMS Funktionsumfang. ecoDMS GmbH. Abgerufen am 19. April 2016.
  17. Office Manager Benutzerhandbuch. Softwarebüro Krekeler. Abgerufen am 19. April 2016.
  18. FreeOCR (englisch) Abgerufen am 19. April 2016.
  19. Tesseract Mac (englisch) MalcolmHardie Solutions Ltd.. Abgerufen am 19. April 2016.
  20. YAGF (englisch) SourceForge. 24. Februar 2016. Abgerufen am 19. April 2016.
  21. Felix Rotthowe: PDFScanner (englisch) Abgerufen am 19. April 2016.
  22. K2pdfopt (englisch) 9. April 2016. Abgerufen am 19. April 2016.
  23. Capture2Text (englisch) SourceForge. 15. Januar 2016. Abgerufen am 19. April 2016.
  24. Tesseract OCR Software GUI (englisch) Abgerufen am 19. April 2016.