OCRopus

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
OCRopus
Entwickler Thomas Breuel, DFKI
Aktuelle Version 0.7
(2013)
Betriebssystem Linux
Programmier­sprache C++, Python
Kategorie Texterkennung
Lizenz Apache
code.google.com/p/ocropus/

OCRopus ist eine freie Software zur Dokumentanalyse und Texterkennung mit einem sehr modularen Entwurf. OCRopus wird mit Unterstützung von Google Inc. unter Leitung von Thomas Breuel vom Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Kaiserslautern entwickelt und als freie Software unter den Bedingungen von Version 2.0 der Apache-Lizenz veröffentlicht.

Beschreibung[Bearbeiten]

OCRopus ist ein OCR-System, das Analyse des Dokumentaufbaus, optische Zeichenerkennung und die Nutzung von statistischen Sprachmodellen in modularer Weise verbindet. Durch Zusatzmodule können Komponenten einfach ausgetauscht werden. Als Einsatzbereich zielt es zunächst auf das Einlesen großer Textmengen – namentlich die Retrodigitalisierung von Büchern für Google Book Search –, sollte sich jedoch auch für den Einsatz im Büro- oder Heimbereich oder für Sehgeschädigte eignen. Das Programm wird in C++ und Python mit Jam als Build-System unter Ubuntu Linux entwickelt.

Derzeit ist das von Hewlett-Packard entwickelte Tesseract das einzige Erkennungsmodul, das OCRopus zur Verfügung steht, doch in Zukunft sollen auch andere sogenannte "Engines" eingebunden werden können (der Code dazu existiert schon und muss nur noch eingebaut werden), sodass OCRopus auch ohne Tesseract genutzt werden kann. So könnte beispielsweise, wenn dies benötigt wird, auf eine Engine für Handschrifterkennung umgeschaltet werden.

OCRopus liefert bereits bessere Analysen der Dokumentgliederung als Tesseract alleine. OCRopus hat bislang kein eigenes Sprachmodellsystem, sondern nutzt dasjenige von Tesseract, es soll jedoch durch ein System ersetzt werden, das auf dem OpenFST-Projekt basiert, sobald dieses die erste offizielle Veröffentlichung erreicht hat.

Geschichte[Bearbeiten]

2004 begann Google Inc. mit der Einführung von Google Book Search (damals noch Google Print), das die Online-Suche in herkömmlichen, gedruckt veröffentlichten Büchern ermöglichen soll. Für die dafür notwendige Retrodigitalisierung wurde OCRopus ins Leben gerufen.

Es basiert auf zwei Forschungsprojekten, einer Mitte der 90er entwickelten leistungsstarken Handschrifterkennung, die auch in der US-Volkszählungsbehörde eingesetzt wird, und neueren Methoden zur Gliederungsanalyse.

Das Projekt wurde in einer Pressemeldung am 9. April 2007 angekündigt und der Code für Entwickler über die Subversion-Versionsverwaltung zugänglich gemacht.[1]

Die erste Alpha-Version 0.1 wurde am 22. Oktober 2007 veröffentlicht. Diverse Vorabversionen erschienen zwischen Dezember 2007 und Oktober 2008, während die angekündigte Veröffentlichung der ersten stabilen Version mehrmals verschoben wurde[2].

Benutzung[Bearbeiten]

OCRopus ist in der aktuellen Vorabversion ein reines Kommandozeilenprogramm, während für die Veröffentlichung der ersten stabilen Version (Final) eine grafische Benutzeroberfläche geplant ist. Es wird primär für Linux-Plattformen entwickelt, sollte jedoch auf vielen Plattformen lauffähig sein, solange seine Abhängigkeiten erfüllt sind. Eingesetzt wird es, indem über die Kommandozeile das Eingabebild angegeben wird. Zur genaueren Steuerung können zusätzlich noch Optionen übergeben werden, um bestimmte Aktionen wie die Erkennung einer einzelnen Zeile auszuführen. Die Ergebnisse werden über die Standardausgabe (stdout) in HTML und CSS mit speziellen Formatierungen (hOCR) ausgegeben.

Siehe auch[Bearbeiten]

Weblinks[Bearbeiten]

Quellen und Einzelnachweise[Bearbeiten]

  1. Ankündigung des quelloffenen Systems zur optischen Zeichenerkennung OCRopusVorlage:Webarchiv/Wartung/Nummerierte_Parameter (englisch)
  2. Roadmap im Entwicklerwiki