0251 / 590 837 15
info@a-coding-project.de

Content-Analyse des deutschen Web

Der Durchschnittstext

Der Durchschnittstext

Es gibt viele Arten von Websites. Einige haben viele Inhalte, andere wenige. Doch wie sieht die Durchschnitts-Seite im Deutschen Web aus? Der Frage bin ich auf dem Grund gegangen und habe eine Content-Analyse fürs deutsche Web durchgeführt.

Durch meinen eigenen Crawler habe ich diesmal die Inhalte von 90.871 Seiten aus 8.291 Domains analysiert (Vom Crawler wurden allgemein noch mehr Seiten indexiert, bei einigen wurden jedoch die Wörter noch nicht extraiert).

Durchschnittsgröße

Wer meinen Twitter-Account verfolgt, hat gestern vielleicht von meiner Quizfrage mitbekommen Darum ging es, wie viele Wörter eine Seite im deutschen Web durchschnittlich hat.

Dabei kamen Schätzungen zwischen 40 und 2.000 Wörtern. Die richtige Lösung wäre gewesen: 994 Wörter / Seite.

Wortschatz

Wie viele Wärter kennen wir Webmaster denn alle zusammen? Die Antwort lautet: 2.050.839 unterschiedliche Wörter. Die Antwort ist natürlich nicht ganz ernst zu nehmen, da natürlich auch Namen und Wörter mit Rechtschreibfehlern dazu zählen. Interessanter ist auch der Wert, wie oft ein Wort im Schnitt in einem Text vorkommt. Es sind 44 Mal pro Wort.

Fazit

Es gibt noch einige mehr Sachen, die man am Content analysieren kann. Mich würde interessieren, für was für Faktoren ihr euch noch interessiert (egal ob realisierbar oder nicht).
Bild von RainerSturm auf pixelio.de

Kommentare

tetra schrieb am 29.05.2011:

Es würden mich ein paar technische Daten zu deinem Web Crawler interessieren. Wie lange dauert es bis mehrere tausend Seiten analysiert werden? Wo läuft dein Web Crawler (eigener Server, Amazon Cloud etc)?

Stefan Wienströer schrieb am 30.05.2011:

Vielleicht mach ich dazu bald mal einen Artikel ;-)

tetra schrieb am 30.05.2011:

sehr schön!!!!!

TheEagle schrieb am 25.06.2011:

994 Wörter / Seite je Einzelseite oder je Webseite?

Stefan Wienströer schrieb am 25.06.2011:

pro Einzelseite.