Elektronische Texterkennung

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Die Elektronische Texterkennung (ICR) ist eine Erweiterung der optischen Zeichenerkennung (OCR). Sie ist – grob gesprochen – ein Handschrift-Erkennungssystem, das mittels Computer verschiedene Ausprägungen des Mediums während der Verarbeitung erlernen kann. ICR-Software basiert häufig auf adaptiven Programmen, welche auf künstliche neuronale Netzwerke zurückgreifen. Neu erlernte Handschriften finden unmittelbare Entsprechungen in der programmeigenen Datenbank. Diese speziell ausgerichtete, elektronische Texterkennung vergrößert den Anwendungsbereich von bestehenden Abtastvorrichtungen um die Verarbeitung von handgeschriebenen Dokumenten. OCR deckte bislang nur den Bereich der Verarbeitung von gedruckten Schriftstücken in zufriedenstellender Weise ab. Da sich der Prozess der Erkennung von Handschriften sehr viel anspruchsvoller gestaltet, war jedoch die bislang hier erreichbare Genauigkeit unzureichend. Bei gut strukturierten Dokumenten sind mit ICR Trefferquoten von mehr als 97 % möglich, dazu benötigt die Software mehrere Durchgänge in alternierender Methodik. Jede von ihnen wird bei der Auswertung unterschiedlich stark gewichtet. Sogar getrennte Methoden für die Zahlen- und die Buchstabenerkennung kommen zur Anwendung. Ein wichtiger Schritt für die ICR war die Entwicklung des sogenannten automated forms processing im Jahr 1993. Diese beschreibt einen dreistufigen Prozess für die Aufnahme eines Zeichens bzw. eines Bildes durch die ICR-Software. Im ersten Schritt wird eine Aufnahme des Dokuments erstellt. Diese Aufnahme wird im zweiten Schritt von der ICR Software prozessiert und schließlich im letzten Schritt automatisch bewertet.

Elektronische Texterkennung erhöht die Effizienz der optischen Zeichenerkennung spürbar. ICR-Software findet in der Geschäftswelt zum Beispiel beim Verarbeiten von handschriftlich ausgefüllten Formularen Anwendung. ICR-Lösungen sind von folgenden Herstellern verfügbar:

Firma Produkt ICR-unterstützte Sprachen
ABBYY ABBYY FlexiCapture
ABBYY FlexiCapture Engine
ABBYY FineReader Engine
Afrikaans, Albanisch, Aymara, Aserbaidschanisch (Latein), Baskisch, Bemba, Blackfoot, Bretonisch, Bugotu, Bulgarisch, Cebuano, Chamorro, Korsisch, Krim-Tatarisch, Kroatisch, Crow, Tschechisch, Dakota (Sioux), Niederländisch (Belgien), Niederländisch (Niederlande), Englisch, Estnisch, Gerade, Ewenken, Fidschi, Finnisch, Französisch, Friesisch, Friulanisch, Galizisch, Ganda, Deutsch, Deutsch (Luxemburg), Deutsch (neue Rechtschreibung), Griechisch, Guarani, Hani, Hausa, Hawaiian, Ungarisch, Isländisch, Indonesisch, irisch, Italienisch, Jingpo, Karatschai-balkar, Kasub, Kawa, Kasachisch, Kirgisisch, Kongo, Kpelle, Kumykisch, Kurdisch, Latein, Lettisch, Litauisch, Luba, Malagasy, Malinke, Maori, Maya, Miao, Minangkabau, Mohawk, Moldawisch, Mongole, Mordvin, Nahuatl, Nivkh, Nogay, Nyanja, Ojibwa, OldFrench, OldGerman, OldItalian, OldSpanish, Papiamento, Polnisch, Quechua, Rätoromanisch, Rumänisch, Romani, Rundi, Russisch, Ruanda, Sami (lappländischen), Samoa, Schottisch-gälisch, Selkupisch, Serbisch (Lateinisch), Slowakisch, Slowenisch, Somali, Sotho, Spanisch, Swahili, Swazi, Tagalog, Tahiti, Tok Pisin, Tonga, Tswana, Tun, Türkisch, Uiguren (Latein), Ukrainisch, Wolof, Xhosa, Zapotekisch, Ido, Interlingua
Accusoft SmartZone ICR/OCR Deutsch, Englisch, Dänisch, Niederländisch, Finnisch, Französisch, Italienisch, Norwegisch, Portugiesisch, Spanisch und Schwedisch (.NET alle, ActiveX nur englisch)
ExperVision TypeReader
OpenRTK
Englisch, Französisch, Deutsch, Italienisch, Spanisch, Portugiesisch, Dänisch, Niederländisch, Schwedisch, Norwegisch, Ungarisch, Polnisch, vereinfachtes Chinesisch, traditionelles Chinesisch, Russisch, Finnisch und Polynesisch
I.R.I.S. Group IRISCapture Pro for Forms Latein basierende Sprachen
LEADTOOLS LEADTOOLS ICR SDK Module Katalanisch, Tschechisch, Dänisch, Niederländisch, Englisch, Finnisch, Französisch, Deutsch, Ungarisch, Italienisch, Norwegisch, Polnisch, Portugiesisch, Schwedisch, Spanisch
reRecognition Kadmos
Recogniform Recogniform
CharacTell SoftWriting

Siehe auch[Bearbeiten | Quelltext bearbeiten]