„Text Mining“ – Versionsunterschied

Versionsgeschichte interaktiv durchsuchen

[gesichtete Version]

← Zum vorherigen Versionsunterschied Zum nächsten Versionsunterschied →

Inhalt gelöscht Inhalt hinzugefügt

Inline

Version vom 19. November 2009, 21:17 Uhr

Text Mining, seltener auch Textmining, Text Data Mining oder Textual Data Mining, ist ein Bündel von Datenanalyseverfahren, die die algorithmusassistierte Entdeckung von Bedeutungsstrukturen aus un- oder schwachstrukturierten Textdaten ermöglichen soll. Mit statistischen und linguistischen Mitteln erschließt Text-Mining-Software aus Texten Strukturen, die die Benutzer in die Lage versetzen sollen, Kerninformationen aus den verarbeiteten Texten schnell zu erschließen. Text-Mining-Systeme liefern im Optimalfall Informationen, von denen Benutzer bisher nicht wussten, dass sie existieren. Im Zusammenspiel mit ihren Anwendern sind Werkzeuge des Text Minings außerdem dazu in der Lage, Hypothesen zu generieren, diese zu überprüfen und schrittweise zu verfeinern.

Konzept

Das 1995 von Ronen Feldman und Ido Dagan als „Knowledge Discovery from Text (KDT)“^[1] in die Forschungsterminologie eingeführte Text Mining^[2] ist kein klar definierter Begriff. In Analogie zu Data Mining im KDD ist Text Mining ein weitgehend automatisierter Prozess der Wissensentdeckung in textuellen Daten, der eine effektive und effiziente Nutzung verfügbarer Textarchive ermöglichen soll.^[3] Umfassender kann Text Mining als ein Prozess der Zusammenstellung, Organisation und Analyse großer Dokumentsammlungen zur bedarfsgerechten Extrahierung von Informationen und der Entdeckung versteckter Beziehungen zwischen Texten und Textfragmenten gesehen werden.

Typologien

Aufgrund widersprüchlicher Literatur und nicht vereinheitlichtem Forschungsgegenstand entwickeln Mehler und Wolff vier Perspektiven auf das Text Mining:

Information Retrieval (IR) Perspektive: Verbesserung des IR durch Textzusammenfassung und Informationsextraktion
Data Mining-Perspektive: Text Mining als „Data Mining auf textuelle Daten“, Exploration von (interpretationsbedürftigen) Daten aus Texten.
Methodische Perspektive: Text Mining als „eine Menge von Methoden zur (halb-)automatischen Auswertung großer Mengen natürlich-sprachlicher Texte“
Wissensorientierte Perspektive: Abgrenzung der korpusanalytischen Computerlinguistik und des inhaltsbasierten IR vom Text Mining. Text Mining als textbasierte Datenanalyse zur Exploration von „bisher unbekannter“, „nie zuvor gesehenen“ Information.

Anwendungsgebiete

Web Mining, insbesondere Web Content Mining, ist ein wichtiges Anwendungsgebiet für Text Mining.^[10] Noch relativ neu sind Versuche, Text Mining als Methode der sozialwissenschaftlichen Inhaltsanalyse zu etablieren.

Methodik

Text Mining geht in mehreren Standardschritten vor: Zunächst wir ein geeignetes Datenmaterial ausgewählt. In einem zweiten Schritt werden diese Daten so aufbereitet, dass sie im Folgenden mittels verschiedener Verfahren analysiert werden können. Schließlich nimmt die Ergebnispräsentation einen ungewöhnlich wichtigen Teil des Verfahrens ein. Alle Verfahrensschritte werden dabei softwareunterstützt.

Datenmaterial

Text Mining wird auf eine (meist sehr große) Menge von Textdokumenten angewandt, die gewisse Ähnlichkeiten hinsichtlich ihrer Größe, Sprache und Thematik aufweisen.^[11] In der Praxis stammen diese Daten meist aus umfangreichen Textdatenbanken wie PubMed oder LexisNexis.^[11] Die analysierten Dokumente sind unstrukturiert in dem Sinn, dass sie keine keine einheitliche Datenstruktur vorliegt, man spricht deshalb auch von „freiem Format“.^[12] Trotzdem weisen sie jedoch semantische, syntaktische, oft auch typographische und seltener auch markup-spezifische Strukturmerkmale auf, auf Text-Mining-Techniken zurückgreifen; man spricht deshalb auch von schwachstrukturierten oder halbstrukturierten Textdaten.^[13] Meist entstammen die zu analysierenden Dokumente aus einem gewissen Diskursuniversum (domain), das mehr (z. B. Genomanalyse) oder weniger (z. B. Soziologie) stark abgegrenzt sein kann.^[14]

Datenaufbereitung

Text Mining setzt daher eine linguistische Aufbereitung der Dokumente voraus. Diese basiert typischerweise auf den folgenden, nur zum Teil automatisierbaren Schritten.

Zunächst werden die Dokumente in ein einheitliches Format, heutzutage zumeist XML, überführt.^[15]

Zur Textrepräsentation wird ein Dokument zumeist anhand von Schriftzeichen, Wörtern, Begriffen (terms) und/oder so genannten concepts tokenisiert.^[16] Dabei steigt bei vorstehenden Einheiten die Stärke der semantischen Bedeutung, aber gleichzeitig auch die Komplexität ihrer Operationalisierung, oft werden deshalb Hybridverfahren zur Tokenisierung angewandt.^[17]

Um Daten für das eigentliche Text Mining vorzubereiten, müssen eine Reihe linguistischer Probleme, insbesondere Polysemie – die Mehrdeutigkeit von Wörtern – und Synonymie – die Gleichbedeutung verschiedener Worte –, gelöst werden.^[18] Dazu werden digitalisierte Wörterbücher benötigt. (Oft domainspezifische) Thesauri, die das Synonymproblem abschwächen, werden dabei zunehmend in großen Corpora automatisch generiert.^[19]

Die Phrasen und Wörter müssen linguistisch klassifiziert werden (Part-of-speech Tagging; siehe auch Wortart).
Die grammatische Struktur von Sätzen muss ermittelt werden (mit einem Parser), was eine morphologische Analyse einschließen kann.
Pronomen (er, sie) müssen den vorausgehenden oder folgenden Nominalphrasen (Goethe, die Polizisten), auf die sie verweisen, zugeordnet werden (Anaphernresolution).
Eigennamen für Personen, Orte, von Firmen, Staaten usw. müssen erkannt werden, da sie eine andere Rolle für die Konstitution der Textbedeutung haben als generische Substantive.
Mehrdeutigkeit von Wörtern und Phrasen wird dadurch aufgelöst, dass jedem Wort und jeder Phrase genau eine Bedeutung zugeschrieben wird (Bestimmung der Wortbedeutung, Disambiguierung).
Einige Wörter und Satz(teile) können einem Fachgebiet zugeordnet werden (Termextraktion).

Um die Semantik der analysierten Textdaten besser bestimmen zu können, wird meist auch auf themenspezifisches Wissen zurückgegriffen.^[14] Computerlinguistische Verfahren, die diese Aufgaben lösen sollen, benötigen kodiertes Wissen verschiedener Art, z. B.

Ontologien, die darüber hinaus den spezifischen Wortschatz eines Fachgebiets und die Beziehungen zwischen den Fachwörtern kodieren,
Listen von Eigennamen, z. B. für Länder, Städte, Firmen,
Listen von häufig verwendeten Abkürzungen.

Diese Ressourcen sind für jede Sprache und teilweise für jedes Fachgebiet neu zu erstellen. Ihre Erstellung ist zeitaufwendig und kostenintensiv. Die Computerlinguistik ist deshalb bestrebt, den Bedarf an solchen externen Informationen so gering wie möglich zu halten und die vorhandenen Daten wiederzuverwenden.

Nach dem heutigen Stand der Technik werden die linguistisch analysierten Textdaten annotiert. Dies geschieht so, dass jeder textuellen Einheit die linguistischen Beschreibungen zugeordnet werden. XML ist eine hierfür besonders gut geeignete Annotationssprache. Den Texten als Ganzes können darüber hinaus Metadaten zugeordnet werden.

Analyseverfahren

Auf der Grundlage dieser partiell strukturierten Daten können die eigentlichen Text-Mining-Verfahren aufbauen, die vor allem auf der Entdeckung von Kookkurrenzen, idealiter zwischen concepts, basieren.^[20] Diese Verfahren sollen:

In Texten implizit vorhandene Informationen explizit machen
Beziehungen zwischen Informationen, die in verschiedenen Texten repräsentiert sind, sichtbar machen.

Kernoperationen der meisten Verfahren sind dabei die Identifizierung von (bedingten) Verteilungen, häufige Mengen und Abhängigkeiten.^[21] Eine große Rolle bei der Entwicklung solcher Verfahren spielt maschinelles Lernen, sowohl in seiner überwachten als auch in seiner unüberwachten Variante.

Clustervefahren

Vorlage:Liste

Vektorenverfahren

Eine große Zahl von Text-Mining-Verfahren ist vektorenbasiert. Typischerweise werden dabei die in den untersuchten Dokumenten vorkommenden terms in einer zweidimensionalen Matrix $A_{td}$ repräsentiert, wobei t durch die Anzahl der terms und d durch die Anzahl der Dokumente definiert ist. Der Wert des Elements $a_{ij}$ wird dabei durch die Häufigkeit des terms $i$ im Dokument $j$ bestimmt, oft wird die Häufigkeitszahl dabei transformiert.^[22] Der so entstandene hochdimensionale Vektorraum wird in der Folge auf einen deutlich Niederdimensionaleren abgebildet. Dabei spielt seit 1990 zunehmend die Latent Semantic Analysis (LSA) eine bedeutende Rolle, die traditionell auf Singulärwertzerlegung zurückgreift.^[23]

Algorithmen, die auf LSA aufbauen sind allerdings sei rechenintensiv: Ein normaler Desktop-Computer des Jahrgangs 2004 kann so kaum mehr als einige hunderttausend Dokumente analysieren.^[24] Geringfügig schlechtere, aber weniger rechenaufwändige Ergebnisse als LSA erzielen auf Kovarianzanalysen basierende Vektorraumverfahren.^[24]

Die Auswertung von Beziehungen zwischen Dokumenten durch diese reduzierte Matrix ermöglicht es, Dokumente zu ermitteln, die sich auf denselben Sachverhalt beziehen, obwohl ihr Wortlaut verschieden ist. Auswertung von Beziehungen zwischen Termen in dieser Matrix ermöglicht es, assoziative Beziehungen zwischen Termen herzustellen, die oftmals semantischen Beziehungen entsprechen und in einer Ontologie repräsentiert werden können.

In Anlehnung an Verfahren des Datamining kann in Texten nach (lexikalischen) Assoziationen gesucht und diese nach ihrer Stärke bewertet werden. So lässt sich z. B. eine starke Assoziation zwischen dem Namen eines Medikaments und negativen Prädikationen schließen, das in dem durch die Texte repräsentierten Diskurs dieses Medikament in schlechtem Ruf steht. Die Erkennung von Assoziationen setzt voraus, dass die Probleme, die Synonymie und Polysemie in natürlichsprachlichen Texten einer solchen Datenanalyse bereiten, weitgehend gelöst sind.

Ergebnispräsentation

Einen ungewöhnlich wichtigen und komplexen Teil des Text Mining nicmmt die Präsentatuon der Ergebnisse ein.^[25] Darunter fallen sowohl Werkzeuge zum Browsing als auch zur Visualisierung der Ergebnisse.^[25] So wird versucht, Fakten und Themen und deren Zusammenhänge landkartenähnlich zu präsentieren. So können Benutzer verdeckte Zusammenhänge besser erkennen.

Software

Eine Reihe von Anwendungsprogrammen für Text Mining existieren; manche davon sind Teil von Softwaresuiten zum Data Mining oder zur Inhaltsanalyse, andere sind auf Text Mining, oft im Hinblick auf bestimmte Wissensgebiete, spezialisiert. Wieder andere Programme begleiten nur Teilschritte des Text Mining.

Vorlage:Liste

Das in der Columbia University entwickelte GeneWays deckt zwar auch alle Verfahrensschritte des Text Mining ab, greift aber anders als die ClearForest vertriebenen Programme wesentlich stärker auf domainspezifisches Wissen zurück.^[26] Das Programm beschränkt sich dabei thematisch auf die Genforschung und widmet dabei den größten Teil seiner Werkzeuge der Datenaufbereitung und weniger dem eigentlichem Text Mining und der Ergebnispräsentation.^[26]

WebFountain

Linkanalyse

Vorlage:Liste

Einzelnachweise

↑ Ronen Feldman, Ido Dagan: Knowledge Discovery in Texts. S. 112–117 (biu.ac.il). .
↑ Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 22 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .
↑ Alexander Mehler, Christian Wollf: Einleitung: Perspektiven und Positionen des Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 1–18, S 2. .
↑ Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 23 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .
↑ Max Bramer: Principles of Data Mining. Springer, London, U.K. 2007, ISBN 978-1-84628-765-7, S. 239 f.
↑ Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 23 f. (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .
↑ Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 24 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .
↑ Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 45 ff. (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .
↑ z. B. Fabrizio Sebastiani: Machine learning in automated text categorization. In: ACM Computing Surveys. 34. Jahrgang, Nr. 1, 2002, S. 1–47, S. 2 (cnr.it [PDF]). .
↑ Alexander Mehler, Christian Wollf: Einleitung: Perspektiven und Positionen des Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 1–18, S 7–9 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .
↑ ^a ^b Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5. .
↑ Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 3. .
↑ Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 3 f. .
↑ ^a ^b Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 8. .
↑ Text Mining: Predictive Methods for Analyzing unstructured Information. Springer, New York, NY 2005, ISBN 0-387-95433-3, S. 18 f. .
↑ Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 6 f. .
↑ Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 7. .
↑ Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer: Indexing by latent semantic analysis. In: Journal of the American Society for Information Science. 41. Jahrgang, Nr. 6, 1990, S. 391–407, S. 391 f., doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. .
↑ Pierre Senellart, Vincent D. Blondel, Malu Castellanos: Survey of Text Mining II: Clustering, Classification and Retrieval. Springer, London, U.K. 2008, ISBN 978-0-387-95563-6, Automatic Discovery of SimilarWords, S. 25–44.
↑ Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 8 f. .
↑ Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 19. .
↑ Anne Kao, Steve Poteet, Jason Wu, William Ferng, Rod Tjoelker, Lesley Quach: Handbook of Research on Text and Web Mining Technologies. Hrsg.: Min Song, Yi-Fang Brooke Wu. Information Science Reference, Hershey, PA 2009, ISBN 978-1-59904-990-8, Latent Semantic Analysis and Beyond, S. 546–570, S. 547. .
↑ Anne Kao, Steve Poteet, Jason Wu, William Ferng, Rod Tjoelker, Lesley Quach: Handbook of Research on Text and Web Mining Technologies. Hrsg.: Min Song, Yi-Fang Brooke Wu. Information Science Reference, Hershey, PA 2009, ISBN 978-1-59904-990-8, Latent Semantic Analysis and Beyond, S. 546–570, S. 551. .
↑ ^a ^b Mei Kobayashi, Masaki Aono: Survey of Text Mining: Clustering, Classification and Retrieval. Hrsg.: Michael W. Berry. Springer, New York, NY 2004, ISBN 978-0-387-95563-6, Vector Space Models for Search and Cluster Mining, S. 103–122, S. 108 f. .
↑ ^a ^b Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 10. .
↑ ^a ^b Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5. .

Literatur

Gerhard Heyer, Uwe Quasthof, Thomas Wittig: Text Mining: Wissensrohstoff Text -- Konzepte, Algorithmen, Ergebnisse, W3L Verlag, Herdecke, Bochum, 2006, ISBN 3-937137-30-0.
Mehler, Alexander und Wolff, Christian (2005), Einleitung: Perspektiven und Positionen des Text Mining, In: Zeitschrift für Computerlinguistik und Sprachtechnologie, Band 20, Heft 1, Seite 1-18, Regensburg, Deutschland.
Mehler, Alexander: Textmining in Lemnitzer, Lothar/Lobin, Henning (Hrsg.): Texttechnologie. Perspektiven und Anwendungen. Stauffenburg, Tübingen, 2004, S. 329-352 ISBN 3-8605-7287-3.
Franke, Jürgen und Nakhaeizadeh, Gholamreza und Renz, Ingrid (Editoren): Text Mining -- Theoretical Aspects and Applications, Physica-Verlag, Berlin, 2003.
Feldman, Ronen und Sanger, James: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data, Cambridge University Press, 2006, ISBN 0521836573.
Buch, Bastian: Text Mining zur automatischen Wissensextraktion aus unstrukturierten Textdokumenten, VDM Verlag, 2008, ISBN 3836495503

Weblinks

[1] Ronen Feldman, Ido Dagan: Knowledge Discovery in Texts. S. 112–117 (biu.ac.il). .

[2] Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 22 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .

[3] Alexander Mehler, Christian Wollf: Einleitung: Perspektiven und Positionen des Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 1–18, S 2. .

[4] Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 23 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .

[5] Max Bramer: Principles of Data Mining. Springer, London, U.K. 2007, ISBN 978-1-84628-765-7, S. 239 f.

[6] Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 23 f. (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .

[7] Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 24 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .

[8] Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 19–62, S. 45 ff. (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .

[9] z. B. Fabrizio Sebastiani: Machine learning in automated text categorization. In: ACM Computing Surveys. 34. Jahrgang, Nr. 1, 2002, S. 1–47, S. 2 (cnr.it [PDF]). .

[10] Alexander Mehler, Christian Wollf: Einleitung: Perspektiven und Positionen des Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20. Jahrgang, Nr. 1, 2005, S. 1–18, S 7–9 (ldv-forum.org [PDF; abgerufen am 11. November 2009]). .

[feldman_2007_2-11] Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5. .

[feldman_2007_3-12] Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 3. .

[feldman_2007_3f-13] Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 3 f. .

[feldman_2007_8-14] Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 8. .

[15] Text Mining: Predictive Methods for Analyzing unstructured Information. Springer, New York, NY 2005, ISBN 0-387-95433-3, S. 18 f. .

[16] Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 6 f. .

[17] Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 7. .

[18] Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer: Indexing by latent semantic analysis. In: Journal of the American Society for Information Science. 41. Jahrgang, Nr. 6, 1990, S. 391–407, S. 391 f., doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. .

[19] Pierre Senellart, Vincent D. Blondel, Malu Castellanos: Survey of Text Mining II: Clustering, Classification and Retrieval. Springer, London, U.K. 2008, ISBN 978-0-387-95563-6, Automatic Discovery of SimilarWords, S. 25–44.

[20] Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 8 f. .

[21] Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 19. .

[22] Anne Kao, Steve Poteet, Jason Wu, William Ferng, Rod Tjoelker, Lesley Quach: Handbook of Research on Text and Web Mining Technologies. Hrsg.: Min Song, Yi-Fang Brooke Wu. Information Science Reference, Hershey, PA 2009, ISBN 978-1-59904-990-8, Latent Semantic Analysis and Beyond, S. 546–570, S. 547. .

[23] Anne Kao, Steve Poteet, Jason Wu, William Ferng, Rod Tjoelker, Lesley Quach: Handbook of Research on Text and Web Mining Technologies. Hrsg.: Min Song, Yi-Fang Brooke Wu. Information Science Reference, Hershey, PA 2009, ISBN 978-1-59904-990-8, Latent Semantic Analysis and Beyond, S. 546–570, S. 551. .

[berry_2007_184f-24] Mei Kobayashi, Masaki Aono: Survey of Text Mining: Clustering, Classification and Retrieval. Hrsg.: Michael W. Berry. Springer, New York, NY 2004, ISBN 978-0-387-95563-6, Vector Space Models for Search and Cluster Mining, S. 103–122, S. 108 f. .

[Feldman_2007_10-25] Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 10. .

[Feldman_307f-26] Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5. .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

@@ Zeile 37: / Zeile 37: @@
 === Datenaufbereitung ===
-Text Mining setzt daher eine linguistische Aufbereitung der Dokumente voraus. Diese basiert typischerweise auf den folgenden, nur zum Teil automatisierbaren Schritten:
+Text Mining setzt daher eine linguistische Aufbereitung der Dokumente voraus. Diese basiert typischerweise auf den folgenden, nur zum Teil automatisierbaren Schritten.
+Zunächst werden die Dokumente in ein einheitliches Format, heutzutage zumeist [[XML]], überführt.<ref>{{Cite book | publisher = Springer | isbn = 0387954333 | title = Text Mining: Predictive Methods for Analyzing unstructured Information | location = New York, NY | pages = 18f | date = 2005 }}.</ref>
 Zur Textrepräsentation wird ein Dokument zumeist anhand von [[Schriftzeichen]], [[Wort|Wörtern]], [[Begriff]]en (''terms'') und/oder so genannten ''concepts'' [[Tokenisierung|tokenisiert]].<ref>{{Cite book| publisher = Cambridge University Press | isbn = 978-0-511-33507-5 | last = Feldman | first = Ronan | coauthors = James Sanger | title = The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data| pages= 6f|date=2007| location = New York, NY}}.</ref> Dabei steigt bei vorstehenden Einheiten die Stärke der semantischen Bedeutung, aber gleichzeitig auch die Komplexität ihrer [[Operationalisierung]], oft werden deshalb Hybridverfahren zur Tokenisierung angewandt.<ref>{{Cite book| publisher = Cambridge University Press | isbn = 978-0-511-33507-5 | last = Feldman | first = Ronan | coauthors = James Sanger | title = The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data| pages= 7|date=2007| location = New York, NY}}.</ref>

„Text Mining“ – Versionsunterschied

Version vom 19. November 2009, 21:17 Uhr

Inhaltsverzeichnis