„Text Mining“ – Versionsunterschied

Versionsgeschichte interaktiv durchsuchen

[gesichtete Version]

← Zum vorherigen Versionsunterschied Zum nächsten Versionsunterschied →

Inhalt gelöscht Inhalt hinzugefügt

Inline

Version vom 27. November 2009, 13:35 Uhr

Text Mining, seltener auch Textmining, Text Data Mining oder Textual Data Mining, ist ein Bündel von Analyseverfahren, die die algorithmusassistierte Entdeckung von Bedeutungsstrukturen aus un- oder schwachstrukturierten Textdaten ermöglichen soll. Mit statistischen und linguistischen Mitteln erschließt Text-Mining-Software aus Texten Strukturen, die die Benutzer in die Lage versetzen sollen, Kerninformationen aus den verarbeiteten Texten schnell zu erschließen. Text-Mining-Systeme liefern im Optimalfall Informationen, von denen Benutzer bisher nicht wussten, dass sie existieren. Im Zusammenspiel mit ihren Anwendern sind Werkzeuge des Text Minings außerdem dazu in der Lage, Hypothesen zu generieren, diese zu überprüfen und schrittweise zu verfeinern.

Konzept

Das 1995 von Ronen Feldman und Ido Dagan als „Knowledge Discovery from Text (KDT)“^[1] in die Forschungsterminologie eingeführte Text Mining^[2] ist kein klar definierter Begriff. In Analogie zu Data Mining in der Knowledge Discovery in Databases (KDD) ist Text Mining ein weitgehend automatisierter Prozess der Wissensentdeckung in textuellen Daten, der eine effektive und effiziente Nutzung verfügbarer Textarchive ermöglichen soll.^[3] Umfassender kann Text Mining als ein Prozess der Zusammenstellung, Organisation und Analyse großer Dokumentsammlungen zur bedarfsgerechten Extrahierung von Informationen und der Entdeckung versteckter Beziehungen zwischen Texten und Textfragmenten gesehen werden.

Typologien

Eine Reihe von Autoren hat versucht die unterschiedlichen Auffassungen von Text Mining in Typologien zu ordnen. Dabei werden Arten des Information Retrieval (IR),^[4] der Dokumentenclustering, des Text Data Mining und des KDD^[5] immer wieder als Unterformen des Text Mining genannt.

Beim IR ist dabei bekannt, dass die Textdaten bestimmte Fakten enthalten, die mittels geeigneter Suchanfragen gefunden werden sollen.

Data Mining-Perspektive: Text Mining als „Data Mining auf textuelle Daten“, Exploration von (interpretationsbedürftigen) Daten aus Texten.

Die weitestgehende Art des Text Mining ist dabei die KDD, bei der neue, zuvor unbekannte Information aus den Texten extrahiert werden sollen.^[6]

Anwendungsgebiete

Web Mining, insbesondere Web Content Mining, ist ein wichtiges Anwendungsgebiet für Text Mining.^[13] Noch relativ neu sind Versuche, Text Mining als Methode der sozialwissenschaftlichen Inhaltsanalyse zu etablieren.

Methodik

Text Mining geht in mehreren Standardschritten vor: Zunächst wird ein geeignetes Datenmaterial ausgewählt. In einem zweiten Schritt werden diese Daten so aufbereitet, dass sie im Folgenden mittels verschiedener Verfahren analysiert werden können. Schließlich nimmt die Ergebnispräsentation einen ungewöhnlich wichtigen Teil des Verfahrens ein. Alle Verfahrensschritte werden dabei softwareunterstützt.

Datenmaterial

Text Mining wird auf eine (meist sehr große) Menge von Textdokumenten angewandt, die gewisse Ähnlichkeiten hinsichtlich ihrer Größe, Sprache und Thematik aufweisen.^[14] In der Praxis stammen diese Daten meist aus umfangreichen Textdatenbanken wie PubMed oder LexisNexis.^[14] Die analysierten Dokumente sind unstrukturiert in dem Sinn, dass sie keine einheitliche Datenstruktur aufweisen, man spricht deshalb auch von „freiem Format“.^[15] Trotzdem weisen sie jedoch semantische, syntaktische, oft auch typographische und seltener auch markup-spezifische Strukturmerkmale auf, auf Text-Mining-Techniken zurückgreifen; man spricht deshalb auch von schwachstrukturierten oder halbstrukturierten Textdaten.^[16] Meist entstammen die zu analysierenden Dokumente aus einem gewissen Diskursuniversum (domain), das mehr (z. B. Genomanalyse) oder weniger (z. B. Soziologie) stark abgegrenzt sein kann.^[17]

Datenaufbereitung

Das eigentliche Text Mining setzt eine computerlinguistische Aufbereitung der Dokumente voraus. Diese basiert typischerweise auf den folgenden, nur zum Teil automatisierbaren Schritten.

Zunächst werden die Dokumente in ein einheitliches Format, heutzutage zumeist XML, überführt.^[18]

Zur Textrepräsentation werden die Dokumente dann zumeist anhand von Schriftzeichen, Wörtern, Begriffen (terms) und/oder so genannten concepts tokenisiert.^[19] Dabei steigt bei vorstehenden Einheiten die Stärke der semantischen Bedeutung, aber gleichzeitig auch die Komplexität ihrer Operationalisierung, oft werden deshalb Hybridverfahren zur Tokenisierung angewandt.^[20]

In der Folge müssen Worte in den meisten Sprachen lemmatisiert werden, das heißt, auf ihre morphologische Grundform reduziert werden, bei Verben also zum Beispiel der Infinitiv. Dies erfolgt durch Stemming.^[21]

Wörterbücher

Zur Lösung einiger Probleme werden digitale Wörterbücher benötigt. Ein Stoppwörterbuch entfernt diejenigen Wörter aus den zu analysierenden Daten, bei denen keine oder kaum Vorhersagekraft erwartet wird, wie dies zum Beispiel oft bei Artikeln wie „der“ oder „eine“ der Fall ist.^[22] Um Stoppwörter zu erkennen, werden oft Listen mit den am häufigsten im Textkorpus vorkommenden Wörter erstellt; diese enthalten zumeist neben Stoppwörtern auch die meisten domainspezifischen Ausdrücke, für die normalerweise ebenfalls Wörterbücher erstellt werden.^[23] Auch die wichtigen Probleme der Polysemie – die Mehrdeutigkeit von Wörtern – und Synonymie – die Gleichbedeutung verschiedener Worte – werden mittels Wörterbüchern gelöst.^[24] (Oft domainspezifische) Thesauri, die das Synonymproblem abschwächen, werden dabei zunehmend in großen Corpora automatisch generiert.^[25]

Je nach Analyseart kann es möglich sein, dass Phrasen und Wörter auch durch Part-of-speech Tagging linguistisch klassifiziert werden, häufig ist dies jedoch für Text Mining nicht notwendig.^[26]

Pronomen (er, sie) müssen den vorausgehenden oder folgenden Nominalphrasen (Goethe, die Polizisten), auf die sie verweisen, zugeordnet werden (Anaphernresolution).
Eigennamen für Personen, Orte, von Firmen, Staaten usw. müssen erkannt werden, da sie eine andere Rolle für die Konstitution der Textbedeutung haben als generische Substantive.
Mehrdeutigkeit von Wörtern und Phrasen wird dadurch aufgelöst, dass jedem Wort und jeder Phrase genau eine Bedeutung zugeschrieben wird (Bestimmung der Wortbedeutung, Disambiguierung).
Einige Wörter und Satz(teile) können einem Fachgebiet zugeordnet werden (Termextraktion).

Um die Semantik der analysierten Textdaten besser bestimmen zu können, wird meist auch auf themenspezifisches Wissen zurückgegriffen.^[17]

Analyseverfahren

Auf der Grundlage dieser partiell strukturierten Daten können die eigentlichen Text-Mining-Verfahren aufbauen, die vor allem auf der Entdeckung von Kookkurrenzen, idealiter zwischen concepts, basieren.^[27] Diese Verfahren sollen:

In Texten implizit vorhandene Informationen explizit machen
Beziehungen zwischen Informationen, die in verschiedenen Texten repräsentiert sind, sichtbar machen.

Kernoperationen der meisten Verfahren sind dabei die Identifizierung von (bedingten) Verteilungen, häufige Mengen und Abhängigkeiten.^[28] Eine große Rolle bei der Entwicklung solcher Verfahren spielt maschinelles Lernen, sowohl in seiner überwachten als auch in seiner unüberwachten Variante.

Clusterverfahren

Vorlage:Liste

Vektorenverfahren

Eine große Zahl von Text-Mining-Verfahren ist vektorenbasiert. Typischerweise werden dabei die in den untersuchten Dokumenten vorkommenden terms in einer zweidimensionalen Matrix $A_{td}$ repräsentiert, wobei t durch die Anzahl der terms und d durch die Anzahl der Dokumente definiert ist. Der Wert des Elements $a_{ij}$ wird dabei durch die Häufigkeit des terms $i$ im Dokument $j$ bestimmt, oft wird die Häufigkeitszahl dabei transformiert.^[29] Der so entstandene hochdimensionale Vektorraum wird in der Folge auf einen deutlich Niederdimensionaleren abgebildet. Dabei spielt seit 1990 zunehmend die Latent Semantic Analysis (LSA) eine bedeutende Rolle, die traditionell auf Singulärwertzerlegung zurückgreift.^[30]

Algorithmen, die auf LSA aufbauen sind allerdings sei rechenintensiv: Ein normaler Desktop-Computer des Jahrgangs 2004 kann so kaum mehr als einige hunderttausend Dokumente analysieren.^[31] Geringfügig schlechtere, aber weniger rechenaufwändige Ergebnisse als LSA erzielen auf Kovarianzanalysen basierende Vektorraumverfahren.^[31]

Die Auswertung von Beziehungen zwischen Dokumenten durch diese reduzierte Matrix ermöglicht es, Dokumente zu ermitteln, die sich auf denselben Sachverhalt beziehen, obwohl ihr Wortlaut verschieden ist. Auswertung von Beziehungen zwischen Termen in dieser Matrix ermöglicht es, assoziative Beziehungen zwischen Termen herzustellen, die oftmals semantischen Beziehungen entsprechen und in einer Ontologie repräsentiert werden können.

In Anlehnung an Verfahren des Datamining kann in Texten nach (lexikalischen) Assoziationen gesucht und diese nach ihrer Stärke bewertet werden. So lässt sich z. B. eine starke Assoziation zwischen dem Namen eines Medikaments und negativen Prädikationen schließen, das in dem durch die Texte repräsentierten Diskurs dieses Medikament in schlechtem Ruf steht. Die Erkennung von Assoziationen setzt voraus, dass die Probleme, die Synonymie und Polysemie in natürlichsprachlichen Texten einer solchen Datenanalyse bereiten, weitgehend gelöst sind.

Ergebnispräsentation

Einen ungewöhnlich wichtigen und komplexen Teil des Text Mining nimmt die Präsentation der Ergebnisse ein.^[32] Darunter fallen sowohl Werkzeuge zum Browsing als auch zur Visualisierung der Ergebnisse.^[32] So wird versucht, Fakten und Themen und deren Zusammenhänge landkartenähnlich zu präsentieren. So können Benutzer verdeckte Zusammenhänge besser erkennen.

Software

Eine Reihe von Anwendungsprogrammen für Text Mining existieren; manche davon sind Teil von Softwaresuiten zum Data Mining oder zur Inhaltsanalyse, andere sind auf Text Mining, oft im Hinblick auf bestimmte Wissensgebiete, spezialisiert. Wieder andere Programme begleiten nur Teilschritte des Text Mining.

Vorlage:Liste

Das in der Columbia University entwickelte GeneWays deckt zwar auch alle Verfahrensschritte des Text Mining ab, greift aber anders als die ClearForest vertriebenen Programme wesentlich stärker auf domainspezifisches Wissen zurück.^[33] Das Programm beschränkt sich dabei thematisch auf die Genforschung und widmet dabei den größten Teil seiner Werkzeuge der Datenaufbereitung und weniger dem eigentlichem Text Mining und der Ergebnispräsentation.^[33]

WebFountain

Linkanalyse

Vorlage:Liste

Einzelnachweise

↑ Ronen Feldman, Ido Dagan: Knowledge Discovery in Texts. S. 112–117 (biu.ac.il). .
↑ Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 22 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .
↑ Alexander Mehler, Christian Wollf: Einleitung: Perspektiven und Positionen des Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 1–18, S 2. .
↑ Z. B. Alexander Mehler, Christian Wollf: Einleitung: Perspektiven und Positionen des Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 1–18 , S. 3 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). ;
Sholom M Weiss, Nitin Indurkhya, Tong Zhang, Fred J. Damerau: Text Mining: Predictive Methods for Analyzing unstructured Information. Springer, New York, NY 2005, ISBN 0-387-95433-3, S. 85 ff. .
↑ z B. John Atkinson: Natural Language Processing and Text Mining. Springer, London, U.K. 2007, ISBN 978-1-84628-754-1, Evolving Explanatory Novel Patterns for Semantically-Based Text Mining, S. 145–169, S. 146. ;
Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 23 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .
↑ z B. John Atkinson: Natural Language Processing and Text Mining. Springer, London, U.K. 2007, ISBN 978-1-84628-754-1, Evolving Explanatory Novel Patterns for Semantically-Based Text Mining, S. 145–169, S. 146. ;
Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20, 23. Jahrgang, Nr. 1, 2005, S. 19–62, S. 23 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .
↑ Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 23 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .
↑ Max Bramer: Principles of Data Mining. Springer, London, U.K. 2007, ISBN 978-1-84628-765-7, S. 239 f.
↑ Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 23 f. (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .
↑ Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 24 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .
↑ Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 45 ff. (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .
↑ z. B. Fabrizio Sebastiani: Machine learning in automated text categorization. In: ACM Computing Surveys. 34. Jahrgang, Nr. 1, 2002, S. 1–47, S. 2 (cnr.it [PDF]). .
↑ Alexander Mehler, Christian Wollf: Einleitung: Perspektiven und Positionen des Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 1–18, S 7–9 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .
↑ ^a ^b Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5. .
↑ Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 3. .
↑ Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 3 f. .
↑ ^a ^b Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 8. .
↑ Sholom M Weiss, Nitin Indurkhya, Tong Zhang, Fred J. Damerau: Text Mining: Predictive Methods for Analyzing unstructured Information. Springer, New York, NY 2005, ISBN 0-387-95433-3, S. 18 f. .
↑ Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 6 f. .
↑ Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 7. .
↑ Sholom M Weiss, Nitin Indurkhya, Tong Zhang, Fred J. Damerau: Text Mining: Predictive Methods for Analyzing unstructured Information. Springer, New York, NY 2005, ISBN 0-387-95433-3, S. 21 ff. .
↑ Sholom M Weiss, Nitin Indurkhya, Tong Zhang, Fred J. Damerau: Text Mining: Predictive Methods for Analyzing unstructured Information. Springer, New York, NY 2005, ISBN 0-387-95433-3, S. 27 ff. .
↑ Sholom M Weiss, Nitin Indurkhya, Tong Zhang, Fred J. Damerau: Text Mining: Predictive Methods for Analyzing unstructured Information. Springer, New York, NY 2005, ISBN 0-387-95433-3, S. 27. .
↑ Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer: Indexing by latent semantic analysis. In: Journal of the American Society for Information Science. 41. Jahrgang, Nr. 6, 1990, S. 391–407, S. 391 f., doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. .
↑ Pierre Senellart, Vincent D. Blondel, Malu Castellanos: Survey of Text Mining II: Clustering, Classification and Retrieval. Springer, London, U.K. 2008, ISBN 978-0-387-95563-6, Automatic Discovery of SimilarWords, S. 25–44.
↑ Sholom M Weiss, Nitin Indurkhya, Tong Zhang, Fred J. Damerau: Text Mining: Predictive Methods for Analyzing unstructured Information. Springer, New York, NY 2005, ISBN 0-387-95433-3, S. 37 ff. .
↑ Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 8 f. .
↑ Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 19. .
↑ Anne Kao, Steve Poteet, Jason Wu, William Ferng, Rod Tjoelker, Lesley Quach: Handbook of Research on Text and Web Mining Technologies. Hrsg.: Min Song, Yi-Fang Brooke Wu. Information Science Reference, Hershey, PA 2009, ISBN 978-1-59904-990-8, Latent Semantic Analysis and Beyond, S. 546–570, S. 547. .
↑ Anne Kao, Steve Poteet, Jason Wu, William Ferng, Rod Tjoelker, Lesley Quach: Handbook of Research on Text and Web Mining Technologies. Hrsg.: Min Song, Yi-Fang Brooke Wu. Information Science Reference, Hershey, PA 2009, ISBN 978-1-59904-990-8, Latent Semantic Analysis and Beyond, S. 546–570, S. 551. .
↑ ^a ^b Mei Kobayashi, Masaki Aono: Survey of Text Mining: Clustering, Classification and Retrieval. Hrsg.: Michael W. Berry. Springer, New York, NY 2004, ISBN 978-0-387-95563-6, Vector Space Models for Search and Cluster Mining, S. 103–122, S. 108 f. .
↑ ^a ^b Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 10. .
↑ ^a ^b Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5. .

Literatur

Gerhard Heyer, Uwe Quasthof, Thomas Wittig: Text Mining: Wissensrohstoff Text -- Konzepte, Algorithmen, Ergebnisse, W3L Verlag, Herdecke, Bochum, 2006, ISBN 3-937137-30-0.
Mehler, Alexander und Wolff, Christian (2005), Einleitung: Perspektiven und Positionen des Text Mining, In: Zeitschrift für Computerlinguistik und Sprachtechnologie, Band 20, Heft 1, Seite 1-18, Regensburg, Deutschland.
Mehler, Alexander: Textmining in Lemnitzer, Lothar/Lobin, Henning (Hrsg.): Texttechnologie. Perspektiven und Anwendungen. Stauffenburg, Tübingen, 2004, S. 329-352 ISBN 3-8605-7287-3.
Franke, Jürgen und Nakhaeizadeh, Gholamreza und Renz, Ingrid (Editoren): Text Mining -- Theoretical Aspects and Applications, Physica-Verlag, Berlin, 2003.
Feldman, Ronen und Sanger, James: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data, Cambridge University Press, 2006, ISBN 0521836573.
Buch, Bastian: Text Mining zur automatischen Wissensextraktion aus unstrukturierten Textdokumenten, VDM Verlag, 2008, ISBN 3836495503

Weblinks

[1] Ronen Feldman, Ido Dagan: Knowledge Discovery in Texts. S. 112–117 (biu.ac.il). .

[2] Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 22 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .

[3] Alexander Mehler, Christian Wollf: Einleitung: Perspektiven und Positionen des Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 1–18, S 2. .

[4] Z. B. Alexander Mehler, Christian Wollf: Einleitung: Perspektiven und Positionen des Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 1–18 , S. 3 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). ;
Sholom M Weiss, Nitin Indurkhya, Tong Zhang, Fred J. Damerau: Text Mining: Predictive Methods for Analyzing unstructured Information. Springer, New York, NY 2005, ISBN 0-387-95433-3, S. 85 ff. .

[5] z B. John Atkinson: Natural Language Processing and Text Mining. Springer, London, U.K. 2007, ISBN 978-1-84628-754-1, Evolving Explanatory Novel Patterns for Semantically-Based Text Mining, S. 145–169, S. 146. ;
Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 23 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .

[6] z B. John Atkinson: Natural Language Processing and Text Mining. Springer, London, U.K. 2007, ISBN 978-1-84628-754-1, Evolving Explanatory Novel Patterns for Semantically-Based Text Mining, S. 145–169, S. 146. ;
Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20, 23. Jahrgang, Nr. 1, 2005, S. 19–62, S. 23 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .

[7] Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 23 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .

[8] Max Bramer: Principles of Data Mining. Springer, London, U.K. 2007, ISBN 978-1-84628-765-7, S. 239 f.

[9] Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 23 f. (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .

[10] Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 24 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .

[11] Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 45 ff. (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .

[12] z. B. Fabrizio Sebastiani: Machine learning in automated text categorization. In: ACM Computing Surveys. 34. Jahrgang, Nr. 1, 2002, S. 1–47, S. 2 (cnr.it [PDF]). .

[13] Alexander Mehler, Christian Wollf: Einleitung: Perspektiven und Positionen des Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 1–18, S 7–9 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .

[feldman_2007_2-14] Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5. .

[feldman_2007_3-15] Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 3. .

[feldman_2007_3f-16] Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 3 f. .

[feldman_2007_8-17] Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 8. .

[18] Sholom M Weiss, Nitin Indurkhya, Tong Zhang, Fred J. Damerau: Text Mining: Predictive Methods for Analyzing unstructured Information. Springer, New York, NY 2005, ISBN 0-387-95433-3, S. 18 f. .

[19] Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 6 f. .

[20] Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 7. .

[21] Sholom M Weiss, Nitin Indurkhya, Tong Zhang, Fred J. Damerau: Text Mining: Predictive Methods for Analyzing unstructured Information. Springer, New York, NY 2005, ISBN 0-387-95433-3, S. 21 ff. .

[22] Sholom M Weiss, Nitin Indurkhya, Tong Zhang, Fred J. Damerau: Text Mining: Predictive Methods for Analyzing unstructured Information. Springer, New York, NY 2005, ISBN 0-387-95433-3, S. 27 ff. .

[23] Sholom M Weiss, Nitin Indurkhya, Tong Zhang, Fred J. Damerau: Text Mining: Predictive Methods for Analyzing unstructured Information. Springer, New York, NY 2005, ISBN 0-387-95433-3, S. 27. .

[24] Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer: Indexing by latent semantic analysis. In: Journal of the American Society for Information Science. 41. Jahrgang, Nr. 6, 1990, S. 391–407, S. 391 f., doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. .

[25] Pierre Senellart, Vincent D. Blondel, Malu Castellanos: Survey of Text Mining II: Clustering, Classification and Retrieval. Springer, London, U.K. 2008, ISBN 978-0-387-95563-6, Automatic Discovery of SimilarWords, S. 25–44.

[26] Sholom M Weiss, Nitin Indurkhya, Tong Zhang, Fred J. Damerau: Text Mining: Predictive Methods for Analyzing unstructured Information. Springer, New York, NY 2005, ISBN 0-387-95433-3, S. 37 ff. .

[27] Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 8 f. .

[28] Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 19. .

[29] Anne Kao, Steve Poteet, Jason Wu, William Ferng, Rod Tjoelker, Lesley Quach: Handbook of Research on Text and Web Mining Technologies. Hrsg.: Min Song, Yi-Fang Brooke Wu. Information Science Reference, Hershey, PA 2009, ISBN 978-1-59904-990-8, Latent Semantic Analysis and Beyond, S. 546–570, S. 547. .

[30] Anne Kao, Steve Poteet, Jason Wu, William Ferng, Rod Tjoelker, Lesley Quach: Handbook of Research on Text and Web Mining Technologies. Hrsg.: Min Song, Yi-Fang Brooke Wu. Information Science Reference, Hershey, PA 2009, ISBN 978-1-59904-990-8, Latent Semantic Analysis and Beyond, S. 546–570, S. 551. .

[berry_2007_184f-31] Mei Kobayashi, Masaki Aono: Survey of Text Mining: Clustering, Classification and Retrieval. Hrsg.: Michael W. Berry. Springer, New York, NY 2004, ISBN 978-0-387-95563-6, Vector Space Models for Search and Cluster Mining, S. 103–122, S. 108 f. .

[Feldman_2007_10-32] Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 10. .

[Feldman_307f-33] Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5. .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

@@ Zeile 8: / Zeile 8: @@
 Eine Reihe von Autoren hat versucht die unterschiedlichen Auffassungen von Text Mining in Typologien zu ordnen. Dabei werden Arten des [[Information Retrieval]] (''IR''),<ref>Z.&nbsp;B. {{Cite journal
 | volume = 20 | issue = 1 | pages = 1-18 , S.&nbsp;3| last = Mehler | first = Alexander | coauthors = Christian Wollf | title = Einleitung: Perspektiven und Positionen des Text Mining | journal = Zeitschrift für Computerlinguistik und Sprachtechnologie | accessdate = 2009-11-11 | date = 2005
-| url = http://www.ldv-forum.org/2005_Heft1/LDV-Forum1.2005.pdf }};<br />{{Cite book | publisher = Springer | isbn = 0387954333 | last = Weiss | first = Sholom M | coauthors = Nitin Indurkhya, Tong Zhang, Fred J. Damerau | title = Text Mining: Predictive Methods for Analyzing unstructured Information | location = New York, NY | pages = 85ff | date = 2005 }}.</ref> der Dokumentenclustering, des Text Data Mining und des KDD<ref>{{Cite journal | volume = 20 | issue = 1 | pages = 19-62, S.&nbsp;23| last = Hotho| first = Andreas| coauthors = Andreas Nürnberger, Gerhard Paaß| title = A Brief Survey of Text Mining| journal = Zeitschrift für Computerlinguistik und Sprachtechnologie| accessdate = 2009-11-11| date = 2005| url = http://www.ldv-forum.org/2005_Heft1/19-62_HothoNuernbergerPaass.pdf}}.</ref> immer wieder als Unterformen des Text Mining genannt.
+| url = http://www.ldv-forum.org/2005_Heft1/LDV-Forum1.2005.pdf }};<br />{{Cite book | publisher = Springer | isbn = 0387954333 | last = Weiss | first = Sholom M | coauthors = Nitin Indurkhya, Tong Zhang, Fred J. Damerau | title = Text Mining: Predictive Methods for Analyzing unstructured Information | location = New York, NY | pages = 85ff | date = 2005 }}.</ref> der Dokumentenclustering, des Text Data Mining und des KDD<ref>z&nbsp;B. {{Cite book | publisher = Springer | isbn = 978-1-84628-754-1 | pages = 145-169, S.&nbsp;146 | editors = Anne Kao, Steve Poteet | last = Atkinson | first = John | title = Natural Language Processing and Text Mining | chapter = Evolving Explanatory Novel Patterns for Semantically-Based Text Mining | location = London, U.K.
+| date = 2007}};<br />{{Cite journal | volume = 20 | issue = 1 | pages = 19-62, S.&nbsp;23| last = Hotho| first = Andreas| coauthors = Andreas Nürnberger, Gerhard Paaß| title = A Brief Survey of Text Mining| journal = Zeitschrift für Computerlinguistik und Sprachtechnologie| accessdate = 2009-11-11| date = 2005| url = http://www.ldv-forum.org/2005_Heft1/19-62_HothoNuernbergerPaass.pdf}}.</ref> immer wieder als Unterformen des Text Mining genannt.
 Beim IR ist dabei bekannt, dass die Textdaten bestimmte Fakten enthalten, die mittels geeigneter Suchanfragen gefunden werden sollen.
@@ Zeile 14: / Zeile 15: @@
 * Data Mining-Perspektive: Text Mining als „Data Mining auf textuelle Daten“, Exploration von (interpretationsbedürftigen) Daten aus Texten.
-Die weitestgehende Art des Text Mining ist dabei die KDD, bei der neue, zuvor unbekannte Information aus den Texten extrahiert werden sollen.<ref>{{Cite journal | volume = 20, 23 | issue = 1 | pages = 19-62, S.&nbsp;23| last = Hotho| first = Andreas| coauthors = Andreas Nürnberger, Gerhard Paaß| title = A Brief Survey of Text Mining| journal = Zeitschrift für Computerlinguistik und Sprachtechnologie| accessdate = 2009-11-11| date = 2005| url = http://www.ldv-forum.org/2005_Heft1/19-62_HothoNuernbergerPaass.pdf}}.</ref>
+Die weitestgehende Art des Text Mining ist dabei die KDD, bei der neue, zuvor unbekannte Information aus den Texten extrahiert werden sollen.<ref>z&nbsp;B. {{Cite book | publisher = Springer | isbn = 978-1-84628-754-1 | pages = 145-169, S.&nbsp;146 | editors = Anne Kao, Steve Poteet | last = Atkinson | first = John | title = Natural Language Processing and Text Mining | chapter = Evolving Explanatory Novel Patterns for Semantically-Based Text Mining | location = London, U.K.
+| date = 2007}};<br />{{Cite journal | volume = 20, 23 | issue = 1 | pages = 19-62, S.&nbsp;23| last = Hotho| first = Andreas| coauthors = Andreas Nürnberger, Gerhard Paaß| title = A Brief Survey of Text Mining| journal = Zeitschrift für Computerlinguistik und Sprachtechnologie| accessdate = 2009-11-11| date = 2005| url = http://www.ldv-forum.org/2005_Heft1/19-62_HothoNuernbergerPaass.pdf}}.</ref>
 === Verwandte Verfahren ===

„Text Mining“ – Versionsunterschied

Version vom 27. November 2009, 13:35 Uhr

Inhaltsverzeichnis