Textklassifikation

Die Textklassifikation ist ein sehr wichtiges Kriterium im Bereich der Informationsextraktion.

Bei unterschiedlich strukturierten Texten werden verschiedene Verfahren angewendet, die sich voneinander durch Merkmale wie Komplexität, Restriktionen oder den Ablauf der Extraktion unterscheiden. So gibt es z. B.: ein sprachbasiertes Verfahren (Perl) oder ein Wrapper-Induction-basiertes Verfahren. Daher ist es notwendig, die analysierten Texte zu klassifizieren.

Die Texte werden nach ihrer Strukturiertheit aufgeteilt:

Natürliche und unstrukturierte Plain-Texte,
Strukturierte Informationen,
Semi-strukturierte Texte.

Natürliche und unstrukturierte Plain-Texte[Bearbeiten | Quelltext bearbeiten]

Die natürlichen und unstrukturierten Plain-Texte werden mit Systemen bearbeitet, die eine morphologische und syntaktische Analyse ermöglichen. Dabei ist die Vorgehensweise sehr aufwendig und manchmal auch überflüssig, weil die gesuchten Informationen anhand einfacher Muster gefunden werden können.

Strukturierte Informationen[Bearbeiten | Quelltext bearbeiten]

Bei den strukturierten Informationen handelt es sich vor allem um Tabellen und relationale Datenbanken. Hierbei wird keine linguistische Analyse benötigt. Um die gesuchten Informationen zu finden, reicht es aus, nur die Struktur zu erkennen.

Semi-strukturierte Texte[Bearbeiten | Quelltext bearbeiten]

Die HTML-Dokumente werden als semi-strukturierte Texte bezeichnet und stellen eine große Herausforderung für die Informationsextraktion Systeme dar. Sie weisen eine uneinheitliche Struktur auf, teilweise sind durch die HTML-Tags markiert, teilweise sind das natürliche Texte. Um die Informationen zu extrahieren, müssen die Informationsextraktion Systeme die HTML-Struktur und die Textmuster erkennen. Dabei sind die HTML-Tags ein wichtiger Hinweis auf die Struktur.

Weblinks[Bearbeiten | Quelltext bearbeiten]

Wiktionary: Textklassifikation – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Textklassifikation

Inhaltsverzeichnis

Natürliche und unstrukturierte Plain-Texte[Bearbeiten | Quelltext bearbeiten]

Strukturierte Informationen[Bearbeiten | Quelltext bearbeiten]

Semi-strukturierte Texte[Bearbeiten | Quelltext bearbeiten]

Weblinks[Bearbeiten | Quelltext bearbeiten]

Navigationsmenü

Textklassifikation

Natürliche und unstrukturierte Plain-Texte[Bearbeiten | Quelltext bearbeiten]

Strukturierte Informationen[Bearbeiten | Quelltext bearbeiten]

Semi-strukturierte Texte[Bearbeiten | Quelltext bearbeiten]

Weblinks[Bearbeiten | Quelltext bearbeiten]

Navigationsmenü

Suche