Elektronische Texterkennung

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen (beispielsweise Einzelnachweisen) ausgestattet. Die fraglichen Angaben werden daher möglicherweise demnächst entfernt. Bitte hilf der Wikipedia, indem du die Angaben recherchierst und gute Belege einfügst. Näheres ist eventuell auf der Diskussionsseite oder in der Versionsgeschichte angegeben. Bitte entferne zuletzt diese Warnmarkierung.

Die Elektronische Texterkennung (ICR) ist eine Erweiterung der optischen Zeichenerkennung (OCR). Sie ist – grob gesprochen – ein Handschrift-Erkennungssystem, das mittels Computer verschiedene Ausprägungen des Mediums während der Verarbeitung erlernen kann. ICR-Software basiert häufig auf adaptiven Programmen, welche auf neuronale Netzwerke zurückgreifen. Neu erlernte Handschriften finden unmittelbare Entsprechungen in der programmeigenen Datenbank. Diese speziell ausgerichtete, elektronische Texterkennung vergrößert den Anwendungsbereich von bestehenden Abtastvorrichtungen um die Verarbeitung von handgeschriebenen Dokumenten. OCR deckte bislang nur den Bereich der Verarbeitung von gedruckten Schriftstücken in zufriedenstellender Weise ab. Da sich der Prozess der Erkennung von Handschriften sehr viel anspruchsvoller gestaltet, war jedoch die bislang hier erreichbare Genauigkeit unzureichend. Bei gut strukturieren Dokumenten sind mit ICR Trefferquoten von mehr als 97 % möglich, dazu benötigt die Software mehrere Durchgänge in alternierender Methodik. Jede von ihnen wird bei der Auswertung unterschiedlich stark gewichtet. Sogar getrennte Methoden für die Zahlen- und die Buchstabenerkennung kommen zur Anwendung. Ein wichtiger Schritt für die ICR war die Entwicklung des sogenannten automated forms processing im Jahr 1993. Diese beschreibt einen dreistufigen Prozess für die Aufnahme eines Zeichens bzw. eines Bildes durch die ICR-Software. Im ersten Schritt wird eine Aufnahme des Dokuments erstellt. Diese Aufnahme wird im zweiten Schritt von der ICR Software prozessiert und schließlich im letzten Schritt automatisch bewertet.

Elektronische Texterkennung erhöht die Effizienz der optischen Zeichenerkennung spürbar. ICR-Software findet in der Geschäftswelt zum Beispiel beim Verarbeiten von handschriftlich ausgefüllten Formularen Anwendung. ICR-Lösungen sind von folgenden Herstellern verfügbar:

Firma Produkt ICR unterstützte Sprachen
ABBYY ABBYY FlexiCapture

ABBYY FlexiCapture Engine

ABBYY FineReader Engine

Afrikaans , Albanisch, Aymara , Aserbaidschanisch ( Latein) , Baskisch, Bemba , Blackfoot , Bretonisch, Bugotu , Bulgarisch, Cebuano , Chamorro , Korsisch , Krim-Tataren , Kroatisch, Crow , Tschechisch, Dakota (Sioux ), Niederländisch ( Belgien ), Niederländisch ( Niederlande) , Englisch, Estnisch , Gerade, Ewenken , Fidschi , Finnisch, Französisch , Friesisch , friulanischen , Galizisch, Ganda , Deutsch , Deutsch ( Luxemburg ), Deutsch ( neue Rechtschreibung ) , Griechisch, Guarani , Hani, Hausa, Hawaiian , Ungarisch, Isländisch, Indonesisch, irisch, Italienisch, Jingpo , Karatschai- balkar , Kasub , Kawa , Kasachisch, Kirgisisch , Kongo , Kpelle , Kumykisch , Kurdisch, Latein, Lettisch, Litauisch, Luba , Malagasy , Malinke , Maori, Maya, Miao, Minangkabau , Mohawk , Moldawisch , Mongole, Mordvin , Nahuatl, Nivkh , Nogay , Nyanja , Ojibwa , OldFrench , OldGerman , OldItalian , OldSpanish , Papiamento , Polnisch, Quechua , Rätoromanisch , Rumänisch , Romani , Rundi , Russisch , Ruanda, Sami ( lappländischen ) , Samoa , Scottish Gaelic, Selkupisch , Serbisch (Lateinisch ) , Slowakisch, Slowenisch , Somali , Sotho , Spanisch, Swahili, Swazi , Tagalog, Tahiti , Tok Pisin , Tonga , Tswana , Tun , Türkisch, Uiguren (Latin) , Ukrainisch, Wolof , Xhosa , Zapoteken, Ido , Interlingua
Accusoft SmartZone ICR/OCR Deutsch, Englisch, Dänisch, Niederländisch, Finnisch, Französisch, Deutsch, Italienisch, Norwegisch, Portugiesisch, Spanisch und Schwedisch (.NET supports all listed, ActiveX nur englisch)
ExperVision TypeReader

OpenRTK

Englisch, Französisch, Deutsch, Italienisch, Spanisch, Portugiesisch, Dänisch, Niederländisch, Schwedisch, Norwegisch, Ungarisch, Polnisch, vereinfachtes Chinesisch, traditionelles Chinesisch, Russisch, Finnisch und Polyynesisch
I.R.I.S. Group IRISCapture Pro for Forms Latein basierende Sprachen
LEADTOOLS LEADTOOLS ICR SDK Module Katalanisch, Tschechisch, Dänisch, Niederländisch, Englisch, Finnisch, Französisch, Deutsch, Ungarisch, Italienisch, Norwegisch, Polnisch, Portugiesisch, Schwedisch, Spanisch
reRecognition Kadmos
Recogniform Recogniform
CharacTell SoftWriting

Siehe auch[Bearbeiten]