Text Mining - Definition und Anwendungsbeispiele

by Philipp Kremer
1 Woche ago
67 Views

Text Mining – Definition und Anwendungsbeispiele

Text Mining, auch bekannt als Text Analytics, ist ein Prozess der Wertschöpfung aus großen Mengen unstrukturierter Textdaten. Die meisten Unternehmen verfügen über eine große Menge an textbasierten Daten z.B. aus Memos, E-Mails, Berichten oder Kundendatensätzen und -kommunikation. Auch Texte und Kommentare auf Websites, Blogs und in Social Media Posts nehmen mit der gesteigerten Kundenkommunikation zu. Während der Text so strukturiert ist, dass er für einen Menschen Sinn ergibt, ist er aus analytischer Sicht unstrukturiert. Insbesondere weil er nicht in eine relationale Datenbank oder Zeilen und Spalten einer Tabellenkalkulation integrierbar ist.

Was bedeutet Text Mining?

Text Mining Verfahren sind heutzutage in der Lage, Informationen hervorzubringen, die Unternehmen vorher nicht erfassen konnten. Der Zugriff auf riesige Textdatensätze und die verbesserte technische Leistungsfähigkeit ermöglichen es, Texte zu analysieren, um zusätzliche hochwertige Informationen zu generieren. Mittels Machine Learning Verfahren und Algorithmen lassen sich Texte nach wiederkehrenden Mustern, Formulierungen und Schlagworten analysieren und kategorisieren. So kann beispielsweise Text auf kommerziell relevante Muster wie eine Zunahme oder Abnahme des positiven Feedbacks von Kunden untersucht werden. Daraus entstehen neue Erkenntnisse, die zu Produktoptimierungen oder anderen interessanten Maßnahmen führen könnten.

Wann wird Text Mining eingesetzt?

Im Wesentlichen gibt es vier wesentliche Prozesse bzw. Aufgaben, für die man Text Mining einsetzt:

  • Textkategorisierung
  • Textclustering
  • Sentimentanalyse (Stimmungsanalyse)
  • Dokumentenzusammenfassung

Bei der Textkategorisierung wird eine definierte Struktur auf den Text angewendet, die man dann für die Analyse oder Abfrage verwendet. Dies kann hilfreich sein, wenn Unternehmen über eine große Menge an Textdaten verfügen, die für einen einfacheren Zugriff und eine einfachere Bedienung klassifiziert werden müssen. Spamfilter verwenden solche Klassifizierungen, um den Text in eingehenden E-Mails zu bewerten und zu entscheiden, ob diese Spam sind oder nicht. Auch das E-Mail-Routing verwendet diese Technik, um eine an eine allgemeine Adresse eingehende E-Mail an einen geeigneteren Empfänger umzuleiten, basierend auf dem im Text behandelten Inhalt.

Textclustering bündelt automatisch riesige Textmengen zu sinnvollen Themen oder Kategorien für eine schnelle Informationsrecherche oder -filterung. Suchmaschinen verwenden Textclustering, um aussagekräftige Suchergebnisse zu liefern. Wenn man beispielsweise „Zelle“ in eine Suchmaschine eingibt, werden die Ergebnisse um die Themenbereiche „Biologie“, „Batterie“ und „Gefängnis“ gruppiert, da alle diese Begriffe eine andere Definition des Wortes „Zelle“ verwenden.

Unsere Leistungen im Bereich Data Mining

Die Sentimentanalyse ist besonders nützlich, wenn Unternehmen Trends, Muster und Meinungsbilder innerhalb verschiedener Textdateien erkennen wollen. Die Sentimentanalyse, auch als „Opinion Mining“ bekannt, versucht, die subjektive Meinung oder das Gefühl aus dem Text zu extrahieren. Die Analyse hilft Unternehmen herausfinden können, ob die darin enthaltenen Aussagen positiv, negativ oder neutral sind.

Die Dokumentenzusammenfassung ermöglicht es, Dokumente automatisch mit einem Computerprogramm zu verdichten, um die wichtigsten Punkte des Originaldokuments zu erhalten. Dies kann sehr nützlich sein, wenn die vorhandenen Textdateien sehr groß sind, die Zeit für eine manuelle Zusammenfassung allerdings nicht ausreicht. Suchmaschinen nutzen diese Technologie ebenfalls, um Websites in Ergebnislisten zusammenzufassen.

Welche Erkenntnisse fördert Text Mining?

Text Mining ist besonders nützlich für die Informationsbeschaffung und -extraktion, der Mustererkennung, der Stimmungsanalyse (Sentimentanalyse), beim Tagging und innerhalb der prädiktiven Analytik. Im Wesentlichen geht es darum, mehr Informationen aus dem Text zu erhalten.

Text Mining Verfahren beantworten dabei Fragen wie:

  • Was halten unsere Kunden/Mitarbeiter von unserem Produkt/Unternehmen?
  • Wie wird unser Employer Brand von Social Media Nutzern wahrgenommen?
  • Welche sind die wichtigsten Punkte, über die sich Kunden bei uns beschweren?
  • Was sind die wichtigsten Trends auf der Grundlage der Suchbegriffe, die Kunden auf unserer Website verwenden?

Wie wird Text Mining eingesetzt?

Die zu analysierende Textdatei muss nicht nur digitalisert, sondern auch editierbar sein. Das ist ein wichtiger Faktor. Wenn eine Seite aus einem Buch als JPEG-Datei kopiert oder ein Bild von einer Seite in einem Buch aufgenommen wird, existiert zwar technisch gesehen eine digitale Kopie des Textes. Diese wäre aber wertlos, wenn Text-Mining Verfahren durchgeführt werden sollen. Man benötigt für diese Verfahren einen bearbeitbare Datei, bei der beispielsweise der Text veränderbar ist oder nach bestimmten Wörtern durchsuchbar ist (z.B. PDF-Dateien & Word Dateien).

In vielen Unternehmen findet der Informationsaustausch bereits zu einem Großteil digital statt. Textdateien werden oftmals in universell verarbeitbaren Formaten wie dem PDF versendet. Ist das Ziel jedoch, Texte, die nur in Papierform vorliegen zu analysieren, dann müssen diese digitalisiert und bearbeitbar werden – das bedeutet nicht nur, eine elektronische Kopie des Dokuments zu anzufertigen, sondern es in digitaler Form neu zu generieren.

Um relevante Informationen in kurzer Zeit aus den entsprechenden Textdateien zu extrahieren, ist es von Vorteil, sogenannte „Stoppwörter“ aus den Texten zu entfernen. Zu den Stoppwörtern zählen Wörter wie „jedoch“, „da“, „von“ usw., die häufig in allen Texten vorkommen, aber keine eindeutigen Informationen über den Inhalt oder die Bedeutung des Textes vermitteln.

Text Mining mit KNIME umsetzen.

Praxisbeispiele

Ein klassisches Beispiel für eine unternehmensinterne Verwendung von Text Mining ist die Evaluation der Mitarbeiterzufriedenheit. Der einfachste Weg, für diesen Anwendungsfall Daten zu sammeln, wäre eine quantitative Umfrage durchzuführen, in der die Mitarbeiter auf verschiedene Fragen mit Hilfe einer Skala das Unternehmen bewerten können. Möchte man tiefgreifendere Einblicke bekommen, fügt man zusätzlich dazu offene Fragen ein, um so qualitative Ergebnisse zu bekommen.

Text Mining Verfahren würden es Unternehmen ermöglichen, diesen unstrukturierten Text zu bewerten und Trends- oder Meinungscluster im ganzen Unternehmen, in Abteilungen oder in bestimmten Teams festzustellen.

Die Umfrage könnten beispielsweise in eine Tag Cloud umgewandelt werden, die alle Textdaten aus den Fragebögen sammelt und verteilt, je nachdem, wie viele Personen ein bestimmtes Wort erwähnt haben. Das größte Wort in einer Tag Cloud bezieht sich daher auf das Wort, das von den meisten Mitarbeitern verwendet wurde. Wenn das größte Wort in einer Tag Cloud einer Mitarbeiterbefragung beispielsweise „unzufrieden“ ist, dann hat das Unternehmen eindeutig Probleme, und sollte anhand dieser Ergebnisse Maßnahmen ableiten.

Tipps & Fallstricke

Text Mining kann je nach Anwendungsfall einiges an Zeit in Anspruch nehmen. Insbesondere wenn es darum geht, physische Dokumente in digitale Dateien umzuwandeln. Unternehmen sollten sich daher im Klaren sein, welche Ziele sie mit Text Mining verfolgen und welche Erkenntnisse sie gewinnen möchten.

Bei der Ergebnisauswertung empfiehlt sich zudem eine manuelle Kontrolle, beispielsweise anhand von Stichproben im Ausgangsmaterial. Häufig muss man Verfahren neu justieren und anpassen, um sicherzustellen, dass das Richtige gemessen wird. Da Sprache immer kontextabhängig ist, kann die Konstruktion eins Nebensatzes die Sinnhaftigkeit oder Aussage des voran gegangenen Satzes diametral umkehren.