Von Dr. Lisa Wagner

Voraussichtliche Lesedauer: 4 Minuten

Techblog

Schlagwort-Liste und Vektoren

Im ersten Blogpost über Text Mining (Link) leite ich her, wie numerische Vektoren verwendet werden, um Textdokumente zu beschreiben. Um Dokumente inhaltlich zu analysieren, braucht man eine begrenzte Zahl an Schlagwörtern. Es gibt zwei Methoden, sie zu finden: Entweder gibt man Schlagwörter vor, die für das Analysethema wichtig sind. Oder die Schlagwort-Liste wird automatisiert aus allen Wörtern…

Techblog

Im ersten Blogpost über Text Mining (Link) leite ich her, wie numerische Vektoren verwendet werden, um Textdokumente zu beschreiben. Um Dokumente inhaltlich zu analysieren, braucht man eine begrenzte Zahl an Schlagwörtern. Es gibt zwei Methoden, sie zu finden: Entweder gibt man Schlagwörter vor, die für das Analysethema wichtig sind. Oder die Schlagwort-Liste wird automatisiert aus allen Wörtern in den Texten abgeleitet.

Schlagworte sammeln

Bei der ersten Methode werden Schlagwörter manuell zusammengestellt. In der Regel ist das viel Aufwand. Es besteht das Risiko, dass wichtige Schlagwörter vergessen werden, oder einfach nicht bekannt sind. Außerdem beeinflussen die Erwartungen an den Inhalt der Dokumente und den Fokus der Analyse die Wahl der Schlagwörter. Es ist also schwer, mit dieser Technik völlig unerwartete Phänomene aufzudecken. Andererseits erlaubt sie es, die Schlagwörter gezielt auf eine konkrete Fragestellung zuzuschneiden. Dadurch wird die Antwort nicht verfälscht durch häufige, aber für die Frage irrelevante Wörter. Man erhält ein genaueres und aussagekräftigeres Ergebnis.

Für die zweite Methode werden alle in den zu analysierenden Dokumenten vorkommenden Worte als potenzielle Schlagworte betrachtet. Häufige Wörter ohne thematischen Inhalt, zum Beispiel Artikel oder Pronomen, werden dabei ignoriert.

Häufigkeitsgrenzen steuern die Anzahl der Schlagwörter

Üblicherweise verbleiben danach noch weit mehr Wörter, als Dimensionen gewünscht sind. Allerdings sind auch nicht alle Wörter hilfreich: Ein Wort, das in fast jedem Dokument vorkommt, hilft nicht wirklich dabei, Dokumente voneinander unterscheidbar zu machen. Genauso sind Wörter, die nur ganz selten und nur in ein paar wenigen Dokumenten vorkommen, nicht hilfreich, um ähnliche Dokumente zu erkennen. Im Gegenteil: Sie können dazu führen, dass thematisch gleiche Dokumente als unterschiedlich angesehen werden.

Als Beispiel: Ein Dokument mit dem Sprichwort “Wie ein Elefant im Porzellanladen enthält mit “Elefant” und “Porzellanladen” Wörter, die vermutlich in keinem anderen Dokument vorkommen – dabei tragen beide Wörter nichts zum eigentlichen Inhalt bei. Wörter, die nur in wenigen Dokumenten vorkommen, sollten deshalb aussortiert werden.

Für jedes Wort wird also gezählt, wie oft es insgesamt vorkommt. Alternativ kann auch gezählt werden, in wie vielen verschiedenen Dokumenten ein Wort jeweils vorkommt. Über die Wahl der entsprechenden Häufigkeitsgrenzen lässt sich gut steuern, wie viele Wörter am Ende übrig bleiben. Abhängig davon, ob man eher häufige oder eher seltene Wörter behält, steigt die Wahrscheinlichkeit, dass bei der Gruppierung wenige große oder viele kleine Cluster entstehen.

… und dann Vektoren

Aus der Liste der Schlagwörter kann jetzt für jedes zu analysierende Dokument ein Vektor erstellt werden, der die Häufigkeiten der Schlagwörter enthält. Dokumente, die Null-Vektoren erzeugen, also keines der Schlagewörter enthalten, sollten immer als Outlier betrachtet und bei Bedarf gesondert behandelt werden. Sonst läuft man Gefahr, dass alle Texte, die vom Inhalt der Schlagwortliste abweichen, als inhaltlich „gleich“ betrachtet werden. Alle anderen Vektoren können nun mit allen üblichen Data-Mining-Verfahren analysiert werden. Die Dokumente können thematisch gruppiert werden, es können ähnliche Texte gefunden werden und neue Dateien sinnvoll in vordefinierte Themenbereiche einsortiert werden.


Über den Autor

Von Dr. Lisa Wagner