Projekt die Perfekte Websuche

Das KiesRank verfahren

Ziel des Projekts
  • Eine bessere Suchmaschiene als Google entwickeln!
Projektleiter
Copyright
  • Dieser Text gehört ausschliesslich den oben genannten Personen! Weder die hier erläuterten Prozeduren noch der Text selber dürfen Kopiert oder verwendet werden! Sie können allerdings dieses ganze Projekt kaufen der Preis beläuft sich momentan auf 1 240 000 Euro.
Project Zeitraum
  • ab dem 25.04.2006
  • bis zum ....

Vorwort

Ich beginne dieses Projekt da ich nicht mit dem Google Pagerank System einverstanden bin. Warum? Dieses System setzt zu sehr auf die Links die zu Webseiten verweisen. Dieses kann auf dauer nicht funktionieren, denn eine kleine neue Homepage auf die nicht viele andere Internet Seiten linken, kann einen genau so relevanten Inhalt aufweisen wie eine Grosse Homepage auf die schon Tausende von Internet Seiten linken. Stellen Sie sich das z.B. bei einem Onlineshop vor. In einiger Zeit werden es nur noch einige Grosse bekannte Shops geben und die kleinen neuen haben keine Chance. Denn Sie werden einfach nicht gefunden, obwohl Sie das selbe Produkt verkaufen, vieleicht sogar noch zu besseren Preisen.

Ich will ein System entwickeln bei dem jede Homepage, ob alt oder gerade online gestellt, die selben Chancen haben an 1ster Stelle zu stehen. Dieses System soll sich einen dreck um Globale Links kümmern sondern die Relevanz einer Internet Seite durch Ihren Inhalt erkennen.

Eine Suchanfrage soll nicht länger als 2 Sekunden dauern und das bei millionen von gespeicherten Homepages.

Zur Programmierung eines solchen Systems werde ich PHP und HTML für die Homepage und Suchoberfläche benutzen. Für den Suchrobotter und die Suchsoftware werde ich Purebasic verwenden.

Die Grundlagen

Ich habe mich schon früher an Suchmaschienen versucht, leider habe ich dort immer 2 Wichtige Punkte falsch gemacht. 1. Habe ich alle Daten in eine MySQL Datenbank gespeichert, dadurch konnte ich nur versuchen mit Query`s relevante Resultate zu erzielen. 2. Ich habe nie einen Algorithmus in betracht gezogen. Dies werde ich nun anders angehen.

Ich werde die Daten der Indexierten Homepages direckt auf der Festplatte speichern, ich habe zwar für diese Tests keine massen an Speicherplatz wie Google aber es wird schon reichen. Ein Algorithmus muss auch noch her, er soll jeder Homepage eine Note geben (0-X), vergleichbar mit einer Schulnote. Wichtige Faktoren für diese Note, die ich hier übrigens KiesRank taufe sind:
  • Inhalt, nicht was da steht sonder wie! Dies werde ich später verdeutlichen.
  • Schlüsselwörter, wie oft und welche kommen im Inhalt vor? Spam wird gefiltert.
  • Aktualität, ist die Seite Aktuel? Wie oft kommen Updates?
  • Rarität, gibt es bereits 100derte änliche Seiten?
Diese Faktoren können folgende Werte besitzen:
  • Inhalt - 1 bis 999
  • Schlüsselwörter - 1 bis 99
  • Aktualität - 1 bis 99
  • Rarität - 1 bis 99
Den KiesRank einer einzelnen Homepage wird dann durch diese Formel gerechnet:
    KR = I / S * (A * R) / 10000
    KiesRank = Inhalt / Schlüsselwörter * (Aktualität * Rarität) / 10000*
    * Es wird durch 10000 dividiert um die Zahlen klein zu halten
Beispielrechnung 1:

In diesem Beispiel berechnen wir den KiesRank einer nicht ganz Aktuellen Homepage aber mit gutem Inhalt und vielen Schlüsselwörtern.
    Inhalt ergab den Wert: 589,88
    Schlüsselwörter ergab: 154
    Aktualität ergab: 10
    Rarität ergab: 10

    KR = 589,88 / 54 * (10 * 10) / 10000
    KR = 10,92 * (10 * 10) / 10000
    KR = 10,92 * (100) / 10000
    KR = 1092 / 10000
    KR = 0,10
Beispielrechnung 2:

In diesem Beispiel berechnen wir den KiesRank einer nicht ganz Aktuellen Homepage aber mit gutem Inhalt und wenigen Schlüsselwörtern.
    Inhalt ergab den Wert: 589,88
    Schlüsselwörter ergab: 15
    Aktualität ergab: 10
    Rarität ergab: 10

    KR = 589,88 / 15 * (10 * 10) / 10000
    KR = 39,32 * (10 * 10) / 10000
    KR = 39,32 * (100) / 10000
    KR = 3932 / 10000
    KR = 0,39
Beispielrechnung 3:

In diesem Beispiel berechnen wir den KiesRank einer sehr Aktuellen Homepage mit gutem Inhalt und wenigen Schlüsselwörtern.
    Inhalt ergab den Wert: 589,88
    Schlüsselwörter ergab: 15
    Aktualität ergab: 87
    Rarität ergab: 10

    KR = 589,88 / 15 * (10 * 87) / 10000
    KR = 39,32 * (10 * 87) / 10000
    KR = 39,32 * (870) / 10000
    KR = 34208,4 / 10000
    KR = 3,42
Schlussfolgerung:

Bei einem Guten Inhalt und weniger Schlüsselwörtern ist der KiesRank höher als bei selbem Inhalt und vielen Schlüsselwörtern. Desweiteren gilt je aktueller und je rarer der Inhalt der Internetseite ist umso höher ist dann auch der KiesRank.

Der höchst mögliche direkte KiesRank ist 999 / 1 * (99 * 99) / 1000 also 979,11. Welche Seite würde eine solch hohe Bewertung bekommen können? Diese Seite müsste einen sehr guten Inhalt zu nur einem Thema beinhalten, sie müsste top aktuel sein und es müsste die einzige Seite zu dem Thema sein.

Der KiesRank Algorithmus

Oben wurde nun der KiesRank einer Internetseite ausgerechnet, wobei diese Prozedur nur Korrekt wäre wenn die Suchmaschiene nur eine Seite im Index hätte. Ein sehr wichtiger Faktor der nun hinzukommt ist dass der KiesRank vererbt werden kann, dies aber nur unter den Internetseiten einer Internetpresenz. Also nur Lokal und nicht Global. Dies dient dazu herauszufinden welche der vielen Seiten einer Homepage die wichtigste ist.

Beispiel 1:

In diesem Beispiel besteht der Index der Suchmaschiene aus 3 Internet Seiten die zu der gleichen Internetpresenz gehören. Die Seiten A - B und C.
  • A sezt einen Link zu B
  • B sezt einen Link zu A und zu C
  • C sezt einen Link zu A
Nun gilt folgende Regel:
  • 15% des KiesRank einer Seite wird durch einen Link vererbt.
  • Wird von einer Seite auf mehrere Seiten gelinkt so teilen sich diese die 15%.
Nun gilt also folgende Formel:
    KR(A) = KR(A) + (KR(B) * 15% / 2) + (KR(C) * 15%)
    KiesRank A = KiesRank A + (KiesRank B * 15% / 2) + (KiesRank C * 15%)
Rechnen wir nun den KiesRank der einzelnen Seiten:

Nehmen wir an jede der drei Seiten hat bereits einen KiesRank von 10 durch die Rechnung KR = I / S * (A * R) / 10000 erhalten. Dann ergeben sich folgende Rechnungen:
    KR(A) = 10 + (10 * 15% / 2) + (10 * 15%)
    KR(A) = 10 + (0,75) + (1,5)
    KR(A) = 12,25

    KR(B) = 10 + (12,25 * 15%)
    KR(B) = 10 + (1,83)
    KR(B) = 11,83

    KR(C) = 10 + (11,83 * 15%)
    KR(C) = 10 + 1,77
    KR(C) = 11,77
Diese Rechnung wird 21 mal wiederholt um ein genaues Resultat zu erziehlen.

Die Homepageinterne Hierarchie wäre also A - B - C. Dies dient aber nicht nur dazu herauszufinden welche Seite einer Homepage am wichtigsten ist, sondern führt auch dazu dass Internetauftritte, die aus vielen Seiten bestehen die laut der KR = I / S * (A * R) / 10000 Formel einen hohen KiesRank haben, ihren gesamten KiesRank erhöhen.

Also wird eine Homepage die aus vielen "guten" Seiten besteht besser bewertet als eine Homepage aus einer einzigen Seite.

Die Praxis

Genug von der Theorie nun fangen wir an die Suchmaschine zu erstellen. Das Theoretische wird sich ja wärend den Tests noch ändern, denn es werden sicherlich neue Ideen hinzukommen. Was brauchen wir nun alles?
  • Einen Suchrobotter der das Internet durchsucht und Links verfolgt.
  • Ein Programm das den KiesRank für jede Seite ausrechnet.
  • Ein Programm das die Suchanfragen der Homepage bearbeitet.
  • Die Homepage selbst, ohne die geht nichts.

Der Suchrobotter

Das ist wohl noch das einfachste was mich hier erwartet. Ich werde nun die nächsten Tage einen Suchrobotter programmieren und dann hier fortsetzen!

Fortsetzung folgt ....