XOVI Glossar

Was ist WDF, Within Document Frequency (WDF*IDF)?

Die „Within Document Frequency“ (WDF) beschreibt die Gewichtung eines Wortes in einem Dokument. Für die Informationsstatistik ist die Erfassung von Worthäufigkeiten in Dokumenten sehr wichtig, weil daraus ein Ranking der Dokumente nach Relevanz erstellt werden kann. Mit der Inverse Document Frequency kann die WDF eine Formel aufstellen. Diese dient dann zur Ermittlung der Einzigartigkeit eines Textes im Zusammenhang mit einem Suchbegriff bzw. einer Keywordkombination.

Hintergrund zur WDF

Donna Harman hat in ihrem Beitrag „Ranking Algorithms“ die Berechnung dieser Häufigkeit dargelegt. Zu finden ist diese Artikel im Sammelband „Information Retrieval: Data Structures & Algorithms“ von 1992. Ihr ging es darum, wie man einem Begriff die nötige Gewichtung zukommen lassen kann. Bereits in den 80er Jahren hat die Forscherin das Information Retrieval betrieben und sich auf zahlreichen Konferenzen einen Namen gemacht.

Mit der WDF lassen sich Datenbestände für die Informationswissenschaft aufbereiten. Der Gewichtungswert P steht im Zusammenhang mit WDF und IDF, da deren Multiplikation die Gewichtungsformel ergeben. Es geht dabei immer um die Frage, wie einzigartig ein Text in Bezug auf bestimmte Begriffe ist. Je höher die WDF, desto öfter kommt der Begriff im Text vor. Vor allem Bibliotheken und Archive arbeiten mit dem WDF, sodass deren Nutzer Inhalte nach deren Relevanz leichter finden können. Es geht um die bestmöglichen Treffer für die gewünschte Suche. Doch geht es hierbei nicht nur um die Begriffsdichte, sondern auch einen sinnvollen Kontext.

Berechnung der WDF

Die Within Document Frequency – WDF berechnet sich so:

i=:Wort
j=:Dokument
L=:Gesamtzahl der Wörter in Dokument j
Freq(i,j)=:Häufigkeit des Wortes i im Dokument j

Erklärung zu „+1“: falls Freq(i,j) = 0 ist, erreicht man mit dem „+1“ dass im Zähler log2(1) = 0 steht.

Beispiel für WDF

Wir haben ein Dokument von 12.000 Wörtern und das gesuchte Wort kommt darin 23 mal vor. Annahme und Frequenz werden so eingesetzt:

Die WDF ist in diesem Fall 0,3 (gerundet), was auch als Gewichtungswert bezeichnet wird. Die relative Häufigkeit i beträgt dabei 0,001%.

WDF und Keyworddichte

Diese beiden Begriffe dürfen nicht als Synonym für einander verwendet werden. Die Within Document Frequency ermittelt die Termgewichtung. Die Berechnung der Keyworddichte erfolgt mit einem Dreisatz und nicht mit einer komplexeren Formel. Zwei Logarithmen verhindert beim WDF-Wert eine künstliche Manipulation durch das übertriebene Hinzufügen von Schlüsselbegriffen. Der WDF hilft dabei die besten Begriffe für einen Text zu bestimmten. Eric Kubitz hat es als „DANN des Textes“ beschrieben, was über die reine Keyworddichte hinausgeht.

WDF und SEO

Mit dem Artikel „SEO-Mythos Keyword Density“ hat Karl Kratz in 2010 schon wichtige Anhaltspunkte geliefert. Das Information Retrieval hat zuvor schon andere Methoden in den 90er Jahren entwickelt, sodass der Verwendungszweck von Schlüsselbegriffen neu definiert wurde. Durch die erneute Entdeckung der Formel WDF*IDF wurde die bislang favorisierte Keyworddichte verworfen und die Berechnung für die Suchmaschinenoptimierung neu aufgestellt.