Kostenloser Worthäufigkeitszähler
Analysieren Sie Text, um Wortfrequenzen zu zählen und zu erkennen, welche Wörter am häufigsten vorkommen. Ideal für Textanalysen, Inhaltsforschung und Mustererkennung.
Über die Wortfrequenzanalyse
Wortfrequenz ist die Zählung, wie oft jedes Wort in einem Text vorkommt, die einfachste mögliche statistische Analyse, die man an einem Schriftkörper machen kann, und doch die Quelle eines ganzen Feldes. Die empirische Untersuchung von Wortfrequenzen im Englischen beginnt mit George Kingsley Zipf, einem Harvard-Linguisten, dessen Buch von 1935 The Psycho-Biology of Language und Folgewerk von 1949 Human Behavior and the Principle of Least Effort dokumentierten, was heute als Zipfs Gesetz bekannt ist: die Frequenz eines Wortes ist grob umgekehrt proportional zu seinem Rang in der Frequenztabelle. Das häufigste Wort im Englischen („the") macht etwa 7 % aller Wort-Tokens in einem typischen englischen Korpus aus; das zweithäufigste („of") etwa 3,5 %; das dritte etwa 2,8 %. Die Beziehung gilt für fast alle natürlichen Sprachen und für fast alle Arten von Text, Bücher, Zeitungen, transkribierte Sprache, Code-Kommentare, soziale Medien. Sie gilt sogar umgekehrt: die meisten Wörter erscheinen nur ein- oder zweimal in jedem gegebenen Text, egal wie groß der Text wird. Zipf führte das auf ein Prinzip der geringsten Anstrengung zurück: Sprecher minimieren die Äußerungskosten, während Hörer die Verständniskosten minimieren, und das Gleichgewicht ist eine Potenzverteilung.
Das erste rechnergestützte Korpus, das speziell für Frequenzanalyse entworfen wurde, war das Brown Corpus, zusammengestellt von W. Nelson Francis und Henry Kučera an der Brown University und 1961 veröffentlicht. Es enthält 1.014.312 Wort-Tokens aus 500 Prosa-Stichproben über 15 Genres (Zeitungsreportagen, Belletristik, religiöses Schreiben, wissenschaftliche Artikel, populäres Wissen, Regierungsdokumente und mehr), jede Stichprobe 2.000 Wörter lang. Das Brown Corpus ist das Fundament empirischer englischer Linguistik, jede moderne Wortfrequenzstudie im Englischen baut direkt oder indirekt darauf auf. Das britische Pendant, das LOB Corpus (Lancaster-Oslo/Bergen), folgte 1976 mit der gleichen Struktur für britisches Englisch. Heutige Industrie-Skala-Korpora (Googles n-gram-Daten aus über 8 Millionen Büchern, das iWeb Corpus mit 14 Milliarden Wörtern, OSCARs Web-gecrawlte Korpora mit Hunderten von Milliarden Wörtern) führen ihre Methodologie alle auf das Brown zurück.
Stoppwörter: das Konzept und die Listen
Eine Frequenzanalyse ohne Stoppwort-Filterung wird von Funktionswörtern dominiert, Artikel, Präpositionen, Konjunktionen, Hilfswörter, die in jedem Satz vorkommen und wenig thematische Bedeutung tragen. Der Begriff „Stoppwörter" wurde von Hans Peter Luhn in seinem Papier von 1958 „The Automatic Creation of Literature Abstracts" geprägt, geschrieben bei IBM Research auf der IBM 704. Luhn nannte sie „Rauschwörter", Wörter so verbreitet, dass sie die thematisch informativeren Inhaltswörter maskierten. Moderne Stoppwortlisten sind immer noch recht klein. Die englische Stoppwortliste der Python-Bibliothek NLTK hat 179 Wörter; die von spaCy etwa 326. Die genaue Größe hängt von der Philosophie ab: NLTKs Liste ist konservativ (nur die universellsten Funktionswörter); spaCys ist aggressiver (einschließlich vieler häufiger Verben und Pronomen). Andere Sprachen brauchen eigene Listen, und die Listen selbst werden schwieriger zu komponieren. Deutsch hat viele zusammengesetzte Wörter, die sich in kürzere häufige Teile zerlegen. Chinesisch, Japanisch und Thai haben überhaupt keine Leerzeichen-Trenner, sodass man, bevor man fragen kann „was ist die Frequenz dieses Wortes", eine Segmentierung durchführen muss, entscheiden, wo die Wortgrenzen liegen, was ein tieferes Problem ist als Englischs simple Leerzeichen-Tokenisierung. Die Stoppwortliste dieses Tools deckt Englisch ab; für nicht-englischen Text wird die case-insensitive Rohfrequenz-Ausgabe nützlicher sein als die stoppwort-gefilterte Version.
Was als Wort zählt, das Tokenisierungsproblem
Wörter zählen klingt einfach, bis man versucht, genau zu spezifizieren, was eines ist. Ist „don't" ein Wort oder zwei (do + n't)? Ist „state-of-the-art" ein Wort oder vier? Ist die URL example.com ein Wort? Was ist mit U.S.A., drei Wörter, ein Wort, oder ein Wort, das zu USA normalisiert werden sollte? Die Penn-Treebank-Tokenisierungsregeln (entwickelt an der University of Pennsylvania für das Penn-Treebank-Korpus, ab 1989) wurden zum De-facto-Standard für englisches NLP und teilen Kontraktionen in separate Tokens (don't → do + n't). Der Unicode-Standard UAX #29 (Unicode Text Segmentation) definiert sprachbewusste Wortgrenzen, die über die meisten Schriften funktionieren. Die moderne Web-Plattform stellt das als Intl.Segmenter bereit, baseline in Chrome, Firefox und Safari seit 2024, geben Sie einen String und ein Locale, erhalten Sie einen Iterator über Wortgrenzen, der die Konventionen der Eingabesprache respektiert. Dieses Tool verwendet einen Regex-Ansatz ([\p{L}\p{N}][\p{L}\p{N}_'-]* mit dem Unicode-Flag), der die meisten Fälle gut handhabt, aber state-of-the-art als vier Wörter behandelt und mit gebogenen typografischen Apostrophen Probleme haben kann (das Zeichen U+2019, das Word standardmäßig produziert, der gerade ASCII-Apostroph U+0027 funktioniert korrekt).
Stemming und Lemmatisierung
Eine naive Frequenzzählung behandelt run, runs, running und ran als vier verschiedene Wörter. Für manche Fragen ist das die richtige Antwort (Sie wollen wirklich Oberflächenformen separat zählen); für viele andere wollen Sie sie zu einem einzelnen Konzept zusammenfassen. Stemming schneidet Suffixe per Regel ab, der berühmte Porter Stemmer von Martin Porter (1980) reduziert Wörter auf ihre Stämme über einen mehrstufigen Suffix-Entfernungsalgorithmus: running → run, cats → cat, generously → generous. Porter verfeinerte das System später zu Snowball (2001), einer kleinen Sprache zum Schreiben von Stemmern über mehrere Sprachen hinweg. Stemming ist schnell und sprachagnostisch, produziert aber Nicht-Wörter (argues, argued, arguing werden alle zu argu). Lemmatisierung ist die ausgefeiltere Alternative: sie verwendet ein Wörterbuch und grammatische Analyse, um jede Oberflächenform auf ihr kanonisches Lemma abzubilden und produziert echte Wörter (ran → run, nicht ra). Lemmatisierung ist langsamer, benötigt ein sprachspezifisches Wörterbuch und handhabt die unregelmäßigen Fälle, die Stemming falsch macht. NLTK und spaCy liefern beide Lemmatisierer; dieses Tool macht keines, by design, Frequenzanalyse auf Oberflächenformen ist für manche Anwendungen (Stilanalyse, Vokabular-Diversität) nützlicher als die lemmatisierte Version wäre.
TF-IDF: warum die Frequenz eines Wortes in einem Dokument nicht reicht
Eine Frequenzanalyse eines einzelnen Dokuments kann Ihnen sagen, welche Wörter in diesem bestimmten Text am häufigsten vorkommen, aber sie kann Ihnen nicht sagen, welche Wörter distinktiv für diesen Text sind. The kommt in jedem englischen Dokument am häufigsten vor, also sagt seine hohe Frequenz in Ihrem Dokument nichts. TF-IDF (Term Frequency-Inverse Document Frequency) ist die klassische Lösung: sie gewichtet die Frequenz jedes Begriffs in einem Dokument durch das Inverse, wie oft der Begriff im breiteren Korpus erscheint. Wörter, die überall häufig sind (the, of, and), erhalten kleine Gewichte; Wörter, die in Ihrem Dokument häufig, aber anderswo selten sind, erhalten große Gewichte. Das IDF-Konzept wurde von Karen Spärck Jones in ihrem Papier von 1972 „A Statistical Interpretation of Term Specificity and Its Application in Retrieval" im Journal of Documentation eingeführt, Jones ist eine der Gründungsfiguren der Computerlinguistik und Informationsbeschaffung, und ihr Beitrag zu Suchmaschinen (jeder Such-Ranking-Algorithmus von PageRank an verdankt TF-IDF etwas) ist weithin unter-anerkannt. Dieses Tool berechnet Rohfrequenz, nicht TF-IDF, TF-IDF erfordert ein Korpus zum Vergleich, und es gibt kein einziges richtiges Korpus für beliebige Nutzereingaben.
N-grams und der Google Books Ngram Viewer
Einzelwort-Frequenz ist der Sonderfall der 1-gram-Analyse. Bigrams (Zwei-Wort-Sequenzen) und Trigrams (Drei-Wort-Sequenzen) erfassen Multi-Wort-Phrasen, „machine learning" ist ein Bigram, das in einer Einzelwort-Frequenzanalyse niemals erscheinen würde, aber informativer ist als die separaten Zählungen von machine und learning. Der größte öffentlich verfügbare n-gram-Datensatz ist der Google Books Ngram Viewer, gestartet am 16. Dezember 2010 und erstellt aus optisch zeichenerkanntem Text von etwa 8 Millionen Büchern, etwa 6 % jedes je veröffentlichten Buches. Der Viewer lässt Sie die Frequenz jedes 1-, 2-, 3-, 4- oder 5-grams im Englischen (und mehreren anderen Sprachen) vom Jahr 1500 bis zur Gegenwart plotten. Er wurde für alles verwendet, vom Verfolgen des Aufstiegs und Falls von Slang über das Datieren undatierter Manuskripte bis zur Dokumentation des Gender-Bias im historischen englischen Sprachgebrauch. Markov-Ketten-Textgenerierung, der Vorläufer moderner Sprachmodelle, wurde auf n-gram-Statistiken gebaut, das nächste Wort aus den vorhergehenden N Wörtern vorherzusagen ist genau das, was eine n-gram-Frequenztabelle Ihnen sagt. Dieses Tool zählt einzelne Wörter; Bigram- und Trigram-Analyse steht auf der zukünftigen Feature-Liste.
Vokabulargröße und Heaps' Gesetz
Ein erwachsener englischer Muttersprachler kennt etwa 20.000 bis 35.000 Wortfamilien (eine „Wortfamilie" ist ein Basiswort plus seine Flexionen, run, runs, running, ran als eine Familie). Brysbaert et al.s Studie von 2016 in Frontiers in Psychology setzte den Median für hochschulgebildete amerikanische Erwachsene bei etwa 42.000 Basiswörtern. Heaps' Gesetz (Heaps 1978; die zugrundeliegende Beobachtung geht in die 1950er Jahre zurück) beschreibt, wie das Vokabular mit der Korpusgröße wächst: V ∝ K · Nβ, wobei V die Anzahl einzigartiger Wörter (Vokabular) ist, N die Gesamtzahl der Tokens (Korpusgröße), K eine Konstante im Bereich 10-100 und β zwischen 0,4 und 0,6 für Englisch. Im Klartext: je länger ein Text wird, desto mehr neue Wörter begegnen Ihnen, aber jedes folgende Wort ist weniger wahrscheinlich neu. Ein Essay von 1.000 Wörtern führt vielleicht 400 einzigartige Wörter ein; ein Essay von 10.000 Wörtern führt etwa 1.300 einzigartige Wörter ein; ein Roman von 100.000 Wörtern etwa 4.500. Die Beziehung ist sublinear, aber unbegrenzt, es gibt keine theoretische „Vokabular-Obergrenze" für natürliche Sprache. Die Faustregel für Content-Autoren: ein typischer Blog-Post von 1.500 Wörtern enthält etwa 500-600 einzigartige Wörter, und die 20 häufigsten (meist Stoppwörter) decken etwa die Hälfte der Gesamtvorkommen ab.
Wann Wortfrequenzanalyse tatsächlich nützlich ist
- SEO-Optimierung: Verteilung und Dichte von Schlüsselwörtern in Webinhalten analysieren
- Schreibstil: Übermäßige Nutzung bestimmter Wörter erkennen und Wortschatzvielfalt steigern
- Stilometrie und Autorschaftsattribution. Die ursprüngliche quantitative Studie war Thomas Mendenhalls Papier von 1887 zu Wortlängenverteilungen in den Werken verschiedener Autoren. Die berühmteste moderne Anwendung ist Mosteller und Wallaces Analyse von 1964 der umstrittenen Federalist Papers, mit bayesianischer Wortfrequenzanalyse zur Bestimmung, dass die 12 Papiere strittiger Autorschaft fast sicher von James Madison statt Alexander Hamilton geschrieben wurden. Die Technik wurde seither verwendet, um Shakespeare-Kollaborationen zuzuschreiben, ghostwriting-politische Reden zu identifizieren und anonyme Online-Autoren zu enttarnen.
- Sprachenlernen. Frequenz-basierte Vokabellisten sagen Ihnen, welche Wörter zuerst zu lernen sind. Die Top-1.000-Wörter einer beliebigen größeren Sprache zu beherrschen gibt Ihnen Verständnis von etwa 80 % laufenden Texts; die Top-3.000 bringen Sie auf ~95 %. Die New General Service Lists, die COCA-Liste und andere korpus-abgeleitete Wortlisten basieren auf diesem Prinzip.
- Inhaltsforschung: Die häufigsten Themen in einem Dokument oder Korpus erkennen
- Plagiats- und Ähnlichkeitserkennung. Wortfrequenzvektoren sind die zugrundeliegende Darstellung in vielen Ähnlichkeits-Erkennungswerkzeugen, Jaccard-Distanz, Kosinus-Ähnlichkeit über Wortfrequenzvektoren und TF-IDF-gewichtete Varianten sind das tägliche Brot der textuellen Ähnlichkeitsbewertung.
- Stoppwort-Identifikation für nachgelagertes NLP. Wenn Sie ein domänenspezifisches Suchsystem bauen, sind die hochfrequenten Wörter, die für Ihre Domäne spezifisch sind (nicht in Standard-Stoppwortlisten), gute Kandidaten, um in Ihre benutzerdefinierte Stoppwortliste hinzugefügt zu werden.
Wie dieses Tool in Ihrem Browser funktioniert
Die Implementierung ist geradlinig. Der Text läuft durch eine Unicode-bewusste Regex ([\p{L}\p{N}][\p{L}\p{N}_'-]*/gu), die Sequenzen von Buchstaben und Zahlen als Wörter matcht; Übereinstimmungen werden zu Kleinbuchstaben normalisiert, wenn die Case-insensitive-Option an ist; jedes Wort wird in einer JavaScript-Map inkrementiert; die Einträge werden dann nach absteigender Anzahl sortiert und als Diagramm und Tabelle gerendert. Die Gesamtzeit auf einem 100.000-Wörter-Dokument liegt unter einer Sekunde auf einem typischen Laptop. Map ist hier die richtige Datenstruktur, sie bewahrt die Einfügereihenfolge, hat O(1)-Lookup und -Update und serialisiert sauber zu einem 2D-Array für den Export. Eine ausgefeiltere Implementierung würde Intl.Segmenter (die Unicode-bewusste Segmentierungs-API, baseline seit April 2024) für Sprachen mit nicht-trivialen Wortgrenzen verwenden, besonders CJK; der Regex-Ansatz funktioniert gut für europäische Sprachen und bricht für Chinesisch, Japanisch und Thai zusammen, die keine Leerzeichen-Worttrenner haben.
Datenschutz: warum Browser-only hier zählt
Entwürfe unveröffentlichten Schreibens, Blog-Posts, interne Memos, Kundenlieferungen, Manuskriptkapitel, akademische Papiere in Arbeit, sind genau die Art von Text, bei der Hochladen zu einem Drittdienst unerwünscht ist. Serverseitige Wortfrequenz-Tools erfordern das Senden des gesamten Textes an einen Remote-Endpoint, was bedeutet, dass er in den Server-Logs sitzt, möglicherweise in einem CDN-Cache, möglicherweise in einer Analytik-Pipeline, möglicherweise in einem Backup. Für veröffentlichten Text ist die Frage strittig. Für Entwurfsarbeit, Kunden-Copy unter NDA oder jedes Manuskript, das Sie noch nicht jenseits Ihres Teams sehen lassen wollen, zählt die Architektur. Dieses Tool führt die gesamte Pipeline in Ihrem Browser per JavaScript aus. Der Text überquert niemals das Netz, prüfen Sie im Network-Tab der DevTools beim Klick auf Analyze, oder schalten Sie die Seite nach dem Laden offline (Flugmodus) und bestätigen Sie, dass die Analyse weiter funktioniert. Sicher für vertrauliche Entwürfe, Kundenlieferungen und jeden Text, den Sie nicht auf der Festplatte eines Fremden kopiert sehen wollen.
Häufig gestellte Fragen
Was sind Füllwörter?
Füllwörter sind häufige Wörter wie „der", „ein", „ist", „und", „oder", die in den meisten Texten häufig vorkommen, aber wenig Bedeutung tragen. Das Filtern hilft, die Analyse auf inhaltlich tragende Wörter zu konzentrieren.
Wie wird der Prozentsatz berechnet?
Der Prozentsatz wird so berechnet: (Wortanzahl ÷ Gesamtwortanzahl) × 100. Beispiel: Erscheint ein Wort 5-mal in einem Text mit 100 Wörtern, beträgt seine Frequenz 5 %.
Behandelt dieser Zähler Phrasen (n-grams)?
Nur einzelne Wörter, derzeit. Bigrams (Zwei-Wort-Sequenzen wie „machine learning"), Trigrams und längere n-grams stehen auf der Liste zukünftiger Funktionen. Der Google Books Ngram Viewer (gestartet am 16. Dezember 2010) ist die öffentliche Referenz für n-gram-Analyse im Maßstab; für persönlichen Text liefern NLTK und spaCy n-gram-Extraktion in wenigen Zeilen Python.
Kann ich sehr große Texte analysieren?
Ja, dieses Tool läuft vollständig in Ihrem Browser und kann Texte bis zu mehreren MB verarbeiten. Sehr große Texte benötigen möglicherweise einige Sekunden zur Verarbeitung. Ihre Daten verlassen Ihr Gerät nie.
Funktioniert es für nicht-englischen Text?
Teilweise. Die Unicode-bewusste Regex identifiziert Wortzeichen in jeder Sprache mit lateinischer, kyrillischer, griechischer, hebräischer oder arabischer Schrift korrekt. Für Chinesisch, Japanisch und Thai, die keine Leerzeichen-Worttrenner haben, wird Rohfrequenz pro Zeichen funktionieren, aber das ist nicht wirklich „Wortfrequenz" im linguistischen Sinn, Sie brauchen zuerst Wortsegmentierung (jieba für Chinesisch, MeCab für Japanisch, ICUs Intl.Segmenter für browserseitige Unterstützung). Der Stoppwort-Filter ist nur Englisch.
Werden meine Texte hochgeladen?
Nein. Die Analyse läuft vollständig in Ihrem Browser per JavaScript. Eingefügter Text überquert niemals das Netz, prüfen Sie im Network-Tab der DevTools beim Klick auf Analyze, oder schalten Sie die Seite nach dem Laden offline (Flugmodus) und das Tool wird weiter funktionieren. Sicher für vertrauliche Entwürfe, Kundenlieferungen, Manuskriptkapitel unter NDA, interne Memos oder alles andere, was Sie nicht auf der Festplatte eines Fremden kopiert sehen wollen.