SEO-Suchmaschinenoptimierung-Geschichte

 

 

1.Definition SEO (Suchmaschinenoptimierung)

Mit SEO (Suchmaschinenoptimierung) meint man nichts anderes als veraltetet oder neu erzeugte Webseiten Suchmaschinen gerecht zu programmieren. Das Ziel der SEO (Suchmaschinenoptimierung) ist nach bestimmten Suchbegriffen in den Topranking des Google Indexes zu gelangen, welches beim erfolgreichen positionieren in den Google Suchergebnisse ersichtlich wird.[1]

Es existieren einige Unternehmen und einzelne bis mehrere Webdesigner die SEO (Suchmaschinenoptimierung) anbieten. Jedoch gibt es hier in diesem Bereich recht wenige die diese Tätigkeit professionell darbieten und betreiben. Der Kostenfaktor für eine SEO (Suchmaschinenoptimierung) kann von unter 100€ bis zu mehreren tausend Euro betragen und hängt vom gewünschten Suchbegriff und der Konkurrenz zwischen den anderen Webseiten ab. [2]

1.1 Geschichte der Suchmaschinen

Die erste Suchmaschine hieß Archie und wurde bereits 1990 in Montreal an der Universität McGill entwickelt. Ihre Aufgabe bestand darin alle FTP-Verzeichnisse nach dem gewünschten Suchbegriff zu durchsuchen, wie zum Beispiel in Datei- und Verzeichnisnamen. Das Problem der Suchmaschine bestand jedoch darin, dass sie, obwohl sie ab 1992 zu den meist genutzten Internet-Diensten zählte, keine Texte durchsuchen konnte, sondern lediglich Dateien und Ordner. Dies war auch der Grund dafür, weshalb Sie für den gewöhnlichen Internet-User bedeutungslos war, jedoch nicht für die Anwender die aus dem Universitätsbereich kommen.

Als die Gopher Software 1991 entwickelt wurde, bestand ihre Aufgabe darin das Informationssystem der Universität von Minnesota zu vernetzen. Hierbei sollte die Software die Verzeichnisse katalogisiert und über eine Benutzeroberfläche mit Hilfe von AND, OR und NOT die Datenmenge durchsuchen.

Im Jahre 1993 wurde das WWW zur Nutzung freigegeben, damit ent­stand auch der erste Webcrawler, welcher “The Wanderer“ hieß. Daraufhin wurden immer mehr Spider und Webcrawler-Systeme entwickelt, welche dass stetig anwachsende Internet durchsuchten um die Webseiten auf­zulisten.

Lycos legte 1994 den Startschuss für die Suchmaschine, die nach den Suchbegriffen und Worthäufigkeit in Dokumenten suchte.[3]

1.1.1 Geschichte der Suchmaschine Google

An der Stanford University begegneten sich 1995 die beiden Informatik Studenten Sergey Brin und Larry Page. Jene entwickelten die Suchmaschine namens BackRub, die die Links einer Webseite untersucht und somit die Wichtigkeit der dieser bestimmt.[4] Etwa drei Jahre Später, am 7. September 1998, gründeten sie dann mit Hilfe eines Startkapitals von ca. 810.000 €, und das sie hauptsächlich von Familienmitgliedern, Freunde und vor allem dem Mitbegründer von Sun Microsystems Andreas von Bechtolsheim erhielten, die Firma Google Inc..

Google verzeichnete bereits im Februar 1999 über 500.000 Suchanfragen pro Tag in ihrem Büro in Palo Alto. Die Suchanfragen versechsfachten sich nach der Zusammenarbeit mit AOL und Netscape und dies bereits im September des selben Jahres. Am 21. September 1999 beendete Google seine Testphase und entfernte den Beta – Status.

Im Juni 2000 verzeichnete Google mehr als eine Milliarde Seiten im Google Index und wurde somit zum Marktführer unter den Suchmaschinen. Die darauf folgenden Jahre baute Google seine Dominanz, Besucherzahlen und Umsätze stetig aus, dies erfolgte meist durch Aufkäufe anderer IT – Unternehmen. Dadurch stärkte Google seine Marktposition und erweiterte ständig seine Produktpalette an Angeboten, wie zum Beispiel Googlemail, Googlemap, Youtube und so weiter.[5]

Markforschungsunternehmen Comscore behauptete das im März dieses Jahres Google erstmalig mehr Besucherzahlen als Microsoft verzeichnen wird und legte zum Vorjahr, mit einen Wachstum von 13%, zu, wobei Microsoft nur um 4% gewachsen ist. Obwohl die Besucherzahlen nicht sehr stark voneinander abweichen konnte Google mit 1 Millionen Besucher mehr Microsoft schlagen. Diesen Erfolg verdankte Google dem Aufkauf des so populären und beliebten  Videoportals Youtube.[6]

1.1.2 Geschichte der Suchmaschine Yahoo

Yahoo begann 1994 nicht als eine Suchmaschine sondern als ein Webkatalog welches die beiden Studenten David Filo und Jerry Yang an der Stanford Universität in einem Wohnwagen gegründet haben. Die Idee war es ein Verzeichnis zu erstellen, welches die Lieblingsseiten der beiden Studenten auflistet. Als die Webseite anfing unübersichtlich zu werden, fingen sie an diese zu kategorisieren. Die Webseite hieß anfangs „Jerry’s Guide to the World Wide Web“ und wurde erst später in Yahoo geändert. Als der Name der Webseite, Yahoo, feststand, sowie die verbesserte übersicht und Struktur entstand, verzeichnete die Webseite immer mehr Besucher.

Der Startschuss für Ihren Erfolg begann jedoch erst 1995 als sie von Marc von Andreesen, zu einer Zusammenarbeit mit Netscape kontaktiert wurden.

Im selben Jahr wurde das Unternehmen Yahoo gegründet, dies wurde dank des Geldes der Risikokapitalgeber Sequoia Capital ermöglicht. Daraufhin wurde ein kompetentes Managementteam in das Unternehmen Yahoo eingegliedert, um im darauf folgenden Jahr an die Börse gehen zu können, dies ist Yahoo auch erfolgreich gelungen.

Zur gleichen Zeit, entstanden mehrere konkurrenzfähige Suchmaschinen die diesen neuen und hartumkämpften Technologiemarkt für sich Gewinnen wollten.

Dies zeigte sich auch in den Aufkäufen mehrerer Suchmaschinenbetreiber, wie zum Beispiel Inktomi, AltaVista, Overture und Alltheweb, durch Yahoo im Jahre 2003.[7]

1.1.3 Geschichte der Suchmaschine MSN

Microsoft gründete 1995 MSN, welches als reiner Internet Service Provider geplant war, jedoch zum Guide eines Internet Users verwendet wurde. Außerhalb der USA war MSN kaum erfolgreich. Dies änderte sich jedoch als Microsoft gegen den Browserkonkurrenten Netscape erfolgreich gewann. Schließlich hatten plötzlich alle durch das Windowsbetriebsystem integrierte MSN auf Ihrer Startseite des Internet Explorer, was sehr dazu beitrug das MSN sehr bekannt wurde und dies nicht nur in den USA sondern weltweit.

Es besteht jedoch ein kleiner Unterschied zu den anderen Diensten der Suchmaschinenbetreiber, und zwar hat MSN über Jahre hinweg keinen eigenen Suchdienst gehabt, sondern die Suchergebnisse anderer Suchmaschinenanbieter übernommen. Dies geschah noch bis vor kurzem. Trotz alledem hat es Microsoft mit MSN nicht geschafft eine weltberühmte Marke auf die Beine zu stellen, wie zum Beispiel Amazon oder Google.

Inzwischen hat Microsoft MSN einen eigenen Suchdienst mit eigener Suchmaschine und ca. 5 Milliarden Webseiten im Index.

MSN gehört zu den weltweit größten populären Internetportalen neben Yahoo und bietet viele Dienste an, wie sein weltweit erfolgreich implementierter Emaildienst Hotmail beweist.[8]

1.2 Meta-Suchmaschinen

Eine Meta-Suchmaschine ist eine Auflistung und Ansammlung von verlinkten Informationen, welche von den Suchmaschinenbetreiber wie z.B. Google, Yahoo und weiteren nicht zur Verfügung gestellt werden.

Diese Daten oder Informationen werden von den Suchmaschinenbetreiber nach bestimmten Kriterien ausgewählt, beispielsweise nach Themen die von allgemeinem Interesse sind oder aktuelle Nachrichten und Schlagzeilen. Aus diesen Gründen werden nur 1/3 des World Wide Web erfasst.[9]

1.2.1 Einsatzgebiet

Die Meta-Suchmaschinen kommen erst zum Einsatz, wenn spezielle Informationsbedürfnisse vorhanden sind (spezielle Suchanfragen nach Büchern, Pkw´s, usw.). Die Bedeutung dieser Meta-Suchmaschinen nimmt ständig zu, da hier viel mehr auf die Informationsbedürfnisse des Users eingegangen werden kann. Meta-Suchmaschinen bieten eine Informationsdienstleistung für bestimmte Usergruppen die Interesse an diesem Fachgebiet haben.[10]

1.3 Erklärung der Funktionsweisen der Suchmaschinen

Das Funktionsprinzip ist bei allen Suchmaschinen Identisch. Zunächst werden die Informationen einer Webseite herunter geladen. Diese Aufgabe wird vom Webcrawler-System übernommen, der wie ein Internetsurfer die ganzen Informationen sammelt. Anschließend werden die gesammelten Informationen Indexiert und dem Query Server als Abfragemodul den Nutzern der jeweiligen Suchmaschine ( Google, Yahoo, MSN, etc. ) zur Verfügung gestellt. Die Nutzer sehen dann die Suchergebnisse die vom Webcrawler-System gesammelt und von Index bereitgestellt als schematisch strukturierter Index.[11]

1.3.1 Google Funktionsweise

Der Erfolg von Google resultiert aus der Einbeziehung der Links in die Berechnung des Rankings. Denn desto beliebter eine Webseite ist, desto häufiger wird Sie verlinkt. Nach diesem Prinzip wurde der Pagerank-Algorithmus von Larry Page, dem Google-Mitbegründer, erfunden der die Qualität der Suchergebnisse bei Google um ein vielfaches verbesserte.[12]

1.3.2 Yahoo Funktionsweise

Der Yahoo slurp ( Yahoo Crawler ) benutzt den Linkpopularitäts­algorithmus auf der selben Art und Weise wie Google, jedoch besteht ein kleiner Unterschied zu ihm, und zwar hat der Yahoo slurp keinen Pagerank wie Google, dennoch ist er häufiger am Crawlen manchmal sogar beständiger als der GoogleBot.[13]

1.3.3 Probleme bei der Analyse einer Suchmaschine

Das Geheimhaltungsprinzip der großen Suchmaschinen stellt sich als eines der größten Probleme dar, weil sich die Analyse dadurch um ein vielfaches erschwert und es nur ersichtlich wird, wenn man in den Ergebnisausgaben der Suchmaschinenbetreiber von Google oder Yahoo seine Seite indexiert sieht.

Der Grund für das Geheimhaltungsprinzip ist vermutlich, dass die Gefahr zu groß ist und die Konkurrenten Einblicke in das System oder Konzept der Suchmaschinenbetreiber haben könnten.

1.4 Dokumentgewinnung mit dem Webcrawler-System

Das Webcrawler-System ist zuständig für die Datenbeschaffung und die Aktualisierung der beschafften Daten. Sie dient sozusagen als Schnittstelle zum WWW und umfasst drei Arten von Modulen.

  1. Protokollmodule (Protocol Modules)

Das Protokollmodul steht als Client in direktem Kontakt zu den Servern des WWW und ist sozusagen die Schnittstelle zwischen WWW und den Crawlern.

  1. Verarbeitungsmodule (Processing Modules)

Sie sind zuständig für das Verarbeiten und Speichern der neu eingetroffenen Daten / Informationen. Diese werden durch den Scheduler und Storeserver bearbeitet, wobei der Storeserver auch noch zu den Protokollmodulen gezählt  werden kann, da er teilweise die Aus­wertung der HTTP – Daten übernimmt.

  1. Datenspeicherungsmodule

Zu dem Datenspeicherungsmodulen zählen das Depot ( Repository ) und der Dokumentenindex ( Document index ).[14]

1.4.1 Dokumentenindex

Der Dokumentenindex enthält zu jedem Dokument Informationen in der Datenbank. Dies erfolgt mit Hilfe der Kennzeichnung eines Identifikationsmerkmals, welches in der Kurzschreibweise auch als DocID bezeichnet wird. Die DocID hilft bei der Sortierung der Dokumente nach welcher sie der Reihe nach abgelegt werden. Das Ziel des Dokumentenstatus im Dokumentenindex ist, möglichst viel platz für das Depot (Repository) zu sparen. Der Dokumentenstatus überprüft im Dokumentenindex ob diese URL schon vorhanden ist oder nicht und arbeitet somit sehr effizient und automatisiert.[15]

Die Checksumme dient lediglich dazu Aufgaben effizienter abzuarbeiten und wird mit Hilfe eines Algorithmus berechnet. Sie besitzt den Vorteil, dass sie aus einer Zeichenfolge von Ziffern und Buchstaben den erzeugten Code erschweren soll.

Eine weit bekannte Checksummenberechnung ist der MD5Algorithmus, jedoch verwenden die Suchmaschinenbetreiber einen selbst entwickelten Algorithmus. Der selbst entwickelte Algorithmus der Suchmaschinenbetreiber dient lediglich dazu, um zwei unterschiedliche Dokumente vergleichen zu können. Falls man die gleiche Checksumme für 2 Dokumente hat, handelt es sich zu meist um das gleiche Dokument.

Der Dokumentenindex enthält z. B. statische Daten wie

§         Typ

§         Zeitstempel

§         Seitentitel

§         Daten aus der robot.txt bzw. dem robot – Meta – Tag

§         Statusinformationen über den Server

§         Hostname und IP – Adresse des Hosts

Die IP – Adresse wird dazu benötigt, um bei rechtswidrigen Verstößen  gegen das Gesetz die Zielperson schnell ermitteln zu können. Das Dokumentenindex erfasst alle URL’s im Internet, es gibt aber unterschiedliche Wege zum erfassen der URL, dies kann automatisiert oder durch die Anmeldung der Autoren über das Webinterface erfolgen. Dokumentenindex wird auch als URL-Datenbank eines Suchmaschinenbetreibers bezeichnet.[16] 

1.4.2 Scheduler

Der Scheduler dient als zentrale Instanz welcher den ausgewählten Crawler die Aufträge verteilt und koordiniert. Alle notwendigen Informationen werden vom Dokumentenindex an den Scheduler weitergeleitet. Jedoch ist die Vorgehensweise der einzelnen Suchmaschinenbetreiber anders, da sie die Art und Weise des Erfassens der URL’s festlegen. Es werden hierfür mehrere Crawler benötigt, um die Lastenverteilung besser regeln zu können und dass erfassen der Imensen Anzahl an Webseiten ermöglichen zu können. Die Lastenverteilung ist auch nur möglich, weil der Scheduler ständig mit den Crawler kommuniziert und anhand eines Status den er vom Crawler erhält weiß der Scheduler ob dieser Crawler verfügbar ist oder nicht. Ein Vorteil am Crawler ist, dass er selbständig die Ergebnisse an den Storeserver weiterleitet. Jedoch erkennt der Crawler erst die Fehlermeldung einer URL beim aktualisieren der Daten. Da der Storeserver die Daten automatisiert vom Crawler bekommt leitet er sie weiter an den Dokumentenindex welche die ausgewählte URL aus der Datenbank entfernt.

Die Gewichtung der URL geschieht mit Hilfe des Dokuments welches von  Scheduler bestimmt wird und diese dann weiter an den Crawler leitet. Eine hohe Gewichtung bekommen die Dokumente die häufiger aktualisiert werden als andere. Damit kann der Crawler festlegen welche Dokumente er häufiger besucht und welche nicht.  

Weitere bedeutende Gewichtung der Kriterien ist die Verzeichnungstiefe eines Dokuments z. B.

www.domain.de/inhalt/sonstiges/datei.html

Der Scheduler würde dem Dokument datei.html die Tiefe 2 geben dies würde bedeuten, dass das Verzeichnis Inhalt die Tiefe 0 bekommt. Der Grund für diese explizite Unterscheidung ist, dass tiefer liegende Dokumente eine geringere Bewertung von den Robots der Suchmaschinen erhalten,  als Dokumente die höher in der Verzeichnisstruktur liegen. Der Vorteil bei dieser Unterscheidung ist das Informationen die höher liegen in unserem Fall wäre dies die Tiefe 0, häufiger von den Crawler besucht werden als Tiefer liegende Dokumente.

            Tiefe ?  0      Hoch

            Tiefe ?  10   Niedrig

Ein weiteres Unterscheidungsmerkmal wäre hier nach IP – Adressen zu gruppieren, jedoch ist die Methode der Gruppierung bei jedem Suchmaschinenbetreiber anders.[17]

1.5 Crawler

Ein Crawler ist die einzige Komponente welche außerhalb der Suchmaschine arbeitet. Sie ist auch bekannt unter der Bezeichnung Webwanderer, Webcrawler, Robots oder Spider. Der Crawler kommuniziert ständig mit dem Web- und den DNS-Server. Aufträge werden dem Crawler vom Scheduler erteilt und werden dann in der URL-Datenbank verglichen, um bei bedarf entweder gelöscht, aktualisiert oder umbenannt zu werden.

Crawler werden in Form eines Zusammenschluss von mehreren Crawler-Prozesse vernetzt, um Ausfälle zu verringern und effizienter die Prozesse zu bearbeiten. Sie werden mit Linux – Rechnern betrieben, um geringere Anschaffungskosten, Hardwareausstattung und Wartung zu haben. Der Vorteil dieser vernetzen Crawler-Prozesse ist, dass ausgefallene Crawler keinen Auftrag mehr vom Scheduler bekommen.

Alle Crawler besitzen einen temporären DNS – Cache der die IP-Adresse umwandelt in eine DNS-Adresse. Der DNS – Cache wird hier benötigt um die Bandbreite zu verringern, welches durch wiederholte DNS – Abfragen unnötig belastet werden kann. Somit erfolgen nur noch DNS – Abfragen, wenn die URL nicht im DNS – Cache zu finden ist. DNS – Anfragen werden mit einer so genannten TTL ( Time to Live ) in den DNS – Cache rein geschrieben. Der Scheduler überwacht und verteilt die Aufträge an die DNS – Sektoren vollautomatisiert.

Der DNS – Cache wird benötigt um einen HTTP – Request an die gewünschte IP – Adresse zu senden, wodurch er die angeforderte Ressource mit Hilfe der GET – Methode erhält.

Durch die steigende Multimediatechnologie im Internet sind einzelne darauf spezialisierte Webcrawler entwickelt worden, die die Flash – Animationen erfassen und analysieren können. Jedoch sind die Funktionalitäten dieser spezialisierten Webcrawler aus Kosten und Speicher gründen noch nicht auf alle anderen Webcrawler vorhanden, denn dies würde die Effizienz der Crawler erheblich beeinflussen.[18]

1.6 Storeserver

Der Storeserver dient zur Sicherung der Daten die er vom Webcrawler erhält. Er besteht im Detail aus den http – Request, Dokumenttyp, Dublettenerkennung, URL-Filter und weiteren Komponenten.

Storeserver hat folgende Aufgaben

1. Die HTTP – Response – Header Information die er vom Crawler erhält auszuwerten.

            2. Den Dokumentenindex auf den neusten Stand updaten.

3. Alle erfolgreich übermittelten Informationen werden mit Hilfe bestimmter Filter einer Aufnahmeprüfung unterzogen.

Für fehlerhafte HTML-Dokumente erhält der Crawler in der HTTP – Response einen Statuscode zurück der die Ursache des Fehlers beschreibt. Statuscode und Header – Informationen wertet der Storeserver aus. Zur Überprüfung der Aktualität des Datenbestandes wird der If – Modified – Since – Header verwendet.[19]

Es gibt unterschiedliche Statuscode die der Storeserver verarbeiten muss, diese sind z. B.

Statuscode 200 ( ok )

Bedeutet die URL existiert, weshalb die Anfrage des Dokuments vom Storeserver verarbeitet werden kann. Der Dokumentenindex aktualisiert die Header – Informationen aus der HTTP – Response.  

Statuscode 301 ( Moved Permanently )

Bedeutet dass kein Dokument mehr unter der abgefragten URL zu finden ist. Es wird die neue URL im Dokumentenindex aktualisiert und die alte überschrieben. Die Aktualisierung der URL erfolgt im Google-Index der Suchergebnisse alle 6 – 8 Wochen.  

Statuscode 302 ( Moved temporarily )

Bedeutet nichts anderes als das diese URL nicht erreichbar ist, die URL ist unter einer anderen URL erreichbar, welche in der Response angegeben wird.  

Statuscode 304 ( Not Modified )

Bedeutet dass die HTTP – Request dem Storeserver mitteilt dass seit der letzten Aktualisierung keine änderung stattgefunden hat. Dies hat zur Folge, dass diese URL weniger von den Crawlern besucht wird. 

Statuscode 401 ( Unauthorized )

Bedeutet das die URL bestimmte Zugriffsrechte nicht erfüllt und die Suchmaschine somit glaubt keine für die Allgemeinheit relevanten Informationen zu findet. Aus diesem Grund löscht der Storeserver auch diese URL. äquivalent hierzu ist auch der Statuscode 403 ( Forbidden ). 

Statuscode 404 ( Not Found )

Bedeutet dass die URL und die dazu beigefügten Daten nicht mehr vorhanden sind, was zur Löschung der URL im Dokumentenindex führt, dies geschieht durch die Anweisung des Storeserver.  

Statuscode 414 ( Request URL too long )

Bedeutet nichts anderes als dass die URL zu lang ist und der Eintrag gelöscht wird, da dieser nicht ordnungsgemäß verarbeitet werden kann.  

Statuscode 500 ( Internal Server Error )

Bedeutet dass der Storeserver bei angefragten URL’s, die durch einen Fehler häufig nicht antworten, entweder aus dem Dokumentenindex entfernt oder markiert.  

Statuscode 503 ( Service Unavailable )

Das bedeutet, dass falls der Server auf eine Anfrage nicht antwortet, dies vom Storeserver markiert wird, um die betroffene URL zu einem späteren Zeitpunkt wieder zu besuchen.  

 

Die Datenkonsistent wird im Dokumentenindex vom http-Response-Header entnommen und, durch das Auswerten und anschließende Aktualisieren der Daten im Dokumentenindex, gesichert. Mit Hilfe des Statuscode wird auf die einzelnen, unterschiedlichen Fehler eingegangen, womit man die Art des Fehlers im Storeserver erkennt. Im Storeserver wird nochmals eine Prüfung durchgeführt, welches das Dokument nach den Kriterien der Speicherungswürdigkeit und Verarbeitbarkeit analysiert, um dieses Dokument bei bestandener Prüfung an den Storeserver weiterzuleiten. Dies sind wichtige Kriterien für Webdesigner, weil an diesen Punkten die Suchmaschine entscheidet, ob die Informationen der Webseite an­genommen wird oder nicht. Es erweist sich als sehr hilfreich die Regeln der Suchmaschinenbetreiber zu befolgen, da bei Anzeichen dafür, dass man mit nicht fairen Mitteln arbeite, damit zu rechnen ist, dass man aus dem Index der Suchmaschinenbetreiber entfernt wird.

1.6.1 Dokumenttyp

Automatisierte Informationen aus Audio- und Videoressourcen zu erhalten ist derzeit noch nicht möglich. Es werden nur die Medientypen ausgewählt die, in der HTTP – Response der MIME – bzw. Content – Type – Header, Suchmaschinenorientierte Angaben eingefügt haben.[20]

1.6.2 Dublettenerkennung

Ihre Aufgabe besteht darin einen Vergleich zwischen 2 URL’s durchzuführen und Ähnlichkeiten beim Inhalt der Webseite aufzudecken. Ein Beispiel hierfür wären diese beiden (diese folgenden Domains existieren nicht; dienen nur als Beispiel) URL´s, mit dem gleichen Unterverzeichnis.

            1.  www.digob.com/si/merih.html

            2.  www.digob.com/hallo/merih.html

Wie sie am folgenden Beispiel erkennen können, kann die gleiche IP-Adresse im DNS-Server mit dem gleichen Unterverzeichnis zu unterschiedlichen Inhalten führen. Jedoch können auch unterschiedliche IP-Adressen mit demselben Unterverzeichnis zu unterschiedlichen Dokumenten führen. Dies sind die Gründe warum neben der URL auch der Inhalt überprüft wird. Bei einem ähnlichen Inhalt kann es zu einer Ablehnung der URL kommen, da die Suchmaschine den Inhalt in ihrer Datenbank überprüft.

Jedoch gilt nicht das gleiche für Dokumente die den gleichen Inhalt besitzen, aber auf verschiedenen IP-Adressen liegen. Hier gibt es dafür die Checksumme die jedem Dokument ein eindeutiges Identifikationsmerkmal vergibt. So können nämlich die Dokumente eindeutig auf ihren Inhalt identifiziert werden.[21]

1.6.3 URL – Filter

Es gibt mehrere Kriterien zur Überprüfung der URL und vor der Aufnahme in das Repository, wie Sie an den folgenden Beispielen erkennen können. Ein Beispiel hierfür wäre die Black List.

Dies ist ein Verzeichnis in denen sich alle nicht zulässigen Wörter befinden die entweder als unmoralisch, rassistisch oder sexistisch gelten. Falls diese Wörter im In­halt einer URL im Internet vorhanden sind, werden diese unerwünschten URL’s  aus dem Index der Suchmaschinenbetreiber gelöscht.

Weitere Zulassungsbeschränkungen für URL sind dass festlegen einer maximalen Anzahl an Subdomains für eine Domain. Mit Hilfe von Sonderzeichen können auch dynamisch erzeugte Dokumente erkannt werden, da hier bei einer gleichen Anfrage einer URL unterschiedliche Dokumente entstehen können. Jedoch gelten hier auch Beschränkungen, falls die Anzahl der URL’s und Dokumente überschritten wird, sowie die Verzeichnistiefe als zu tief bewertet wird.[22] 

1.7 Repository

Die Daten einer Webseite kommen erst in das Repository, dies aber auch nur wenn alle notwendigen Kriterien dafür erfüllt sind. Die Daten werden im Repository mit einer DocID versehen und als Lokale Kopie gespeichert. Hier wird meistens der HTML-Code abgespeichert der sich auf einer Webseite befindet.

Damit der Speicherplatz des Repository effektiv genutzt wird, werden die Daten komprimiert, dies kann entweder vom Storeserver oder vom Repository durchgeführt werden. Falls sich jedoch im Laufe der Zeit aktuellere Daten auf einer Webseite befinden, werden automatisch die alten Daten ersetzt. Grundsätzlich wird das Resultat von der Arbeit des Webcrawler-Systems im Repository erfasst und abgelegt. Diese Daten liegen zum Abruf bereit, was an den beigefügten Cache bei Eingabe eines Suchwortes in Google ersichtlich wird.[23]

2. SEO(Suchmaschinenoptimierung) an der Webseite

2.1 Optimierung oder Neu-Design

Zur Suchmaschinenoptimierung müssen folgende Kriterien vorhanden sein, wie z.B. die Auswahl des Suchbegriffs und der Quellcode der zu bearbeitenden Seite.

Bevor man mit der Bearbeitung der Webseite anfängt sollte man sich vorher Gedanken machen, ob man die Seite Optimiert oder neu gestaltet. Hierzu wäre es von Vorteil wenn man  ein Konzept entwickelt, welches die Vor- und Nachteile sowie den Aufwand einer Suchmaschinenoptimierung oder eines neu Designs einschätzt. Die Gründe einer umfassenden Überlegung sind, eine Suchmaschinenoptimierung oder ein neu Design der Webseite anzustreben, dies jedoch nicht zum Nachteil der Suchmaschinen zu gestalten. Schließlich würde sich das am Pagerank oder an der Position der Webseite bei den Suchmaschinen bemerkbar machen. Ein weiterer Grund wäre, die Struktur der Webseite nicht zu verändern, da eine Neugestaltung für die User gewöhnungsbedürftig werden würde. Es soll auch kein Imageverlust der Webseite entstehen, was durch eine Unzufriedenheit der User herbeigerufen werden könnte.[24]

2.2 Ranking – Kriterien der wichtigsten Suchmaschinen

Um unter den ersten 10 Plätzen bei den Suchmaschinen zu stehen, ist es wichtig die Kriterien der Suchmaschinenbetreiber zu kennen. Diese sind jedoch nicht einfach zu ermitteln, da man hier nur durch Spekulation, Erfahrungswerte und Analyse der Position, entweder durch die eigene oder anderen Mitbewerber-Webseiten, die sich eventuell auch auf der ersten Seite bei bestimmten Suchergebnissen befinden, weiter kommt. Als Empfehlenswert gilt jedoch das Zusammenspiel der einzelnen Kriterien; dies würde nämlich ein positives Ergebnis herbeiführen was sie an den folgenden Abbildungen 6-8 erkennen können.[25]

Die größten Suchmaschinen in Deutschland, mit den meisten Suchanfragen, sind an erster Stelle Google, zweiter und dritter Stelle Yahoo und MSN, sowie T-online und lycos, die jedoch nur einen kleinen Anteil haben von 2%.[26]

2.2.1 Googles Kriterien für SEO(Suchmaschinenoptimierung)

Google setzt auf hochwertige qualitative Webseiten die in Ihrem Umfang ausreichende Backlinks haben. Falls diese Backlinks noch die erfüllten Keywords enthalten führt das höchstwahrscheinlich zu einer besseren Bewertung der Webseite. Außerdem spielen der PageRank, als auch viele Indexseiten, wie es zum Beispiel bei wikipedia.de, amazon.de oder ebay.de der Fall ist, eine große Rolle. Dies ist in den meisten Fällen auch der Grund für Ihre Top Positionen bei den vielen Suchanfragen auf den Suchmaschinen. Weitere wichtige Kriterien sind auch noch die URL und die Titelleiste, wobei die Meta-Angaben von Google eher weniger Beachtung findet. Google bewertet gute Backlinks mit der gesuchten Suchanfrage und einer höheren Gewichtung, als ein Keyword in einer Webseite.[27]

2.2.2 Yahoo Kriterien für SEO(Suchmaschinenoptimierung)

Yahoo achtet mehr auf die Meta-Angaben, Titel und Überschriften, was sich auch an der Platzierung meines Wissenschaftlichen Projektes bemerkbar macht, wobei ich in Yahoo unter den Suchbegriffen Tigrinja ( Platz 5), Tigrigna ( Platz 13 ) und Tigrinya ( Platz 22 ) wieder zu finden bin, was jedoch nicht heißt das die Bewertung bei Google sich verbessert hat.

Die internen Faktoren einer Webseite spielen für Yahoo eine größere Rolle als für Google.[28]

Abbildung 1  : Tigrinja – Yahoo

Quelle: Yahoo – Suchbegriff Tigrinja,

Ort: Frankfurt am Main

Datum: 10.06.07

Platz: 5 von 31900 Suchbegriffen  

Abbildung  2: Tigrigna – Yahoo

Quelle: Yahoo – Suchbegriff Tigrigna,

Ort: Frankfurt am Main

Datum: 10.06.07

Platz: 13 von 82100 Webseiten mit dem gleichen Suchbegriff  

Abbildung  3:  Suchbegriff Tigrinya – Yahoo

Quelle: Yahoo – Suchbegriff Tigrinya,

Ort: Frankfurt am Main

Datum: 10.06.07

Platz: 22 von 556 000 Webseiten mit dem gleichen Schlüsselwort  

2.3 Kriterienvorraussetzungen für Webseiten

Die Kriterien für die Webseiten müssen im Folgenden gut konzipiert werden. Dies erfolgt schon bei der Auswahl des Suchbegriffs und dem Webseitennamen. Der Grund hierfür ist Suchmaschinengerechte Webseiten zu gestalten um die Kriterien der Suchmaschinen zu erfüllen.[29]

Ein Vorteil wäre hier einen Suchbegriff zu definieren, welches im www noch nicht existiert aber von vielen Usern verwendet wird. Hierzu gibt es verschiedene Möglichkeiten der Überprüfung; eine davon ist die Enzyklopädie Wikipedia die fast zu jedem Suchbegriff ein Webseite enthält.[30]

2.3.1 Wichtige Punkte bei der Suchmaschinenoptimierung

Dabei ist es erforderlich, dem Suchmaschinen Robot verständlich zu machen was an einer Seite zu optimieren ist und was als Inhalt zu verstehen ist. Der Inhalt einer Webseite besteht aus den folgenden Komponenten wie z. B. Text, Bilder, Tabellen, Filme und vieles weitere. Erst wenn diese erfüllt sind wird es für die User und auch für den Robot der Suchmaschinen interessant.

Weitere Punkte, die eine große Rolle spielen, sind die Struktur des HTML-Codes einer Webseite sowie die Verlinkung innerhalb der Webseite. Es ist hierbei von Vorteil, sich zunächst mit der Struktur beschäftigt, daraufhin mit dem HTML-Code und schließlich mit dem Inhalt einer Webseite.[31]

2.3.2 Inhaltsoptimierung

Ein sehr wichtiger Punkt ist es sich Gedanken über den Inhalt einer Webseite zu machen und diesen nicht zu Kopieren, vor allem wegen des Copyright und weil die Suchmaschinen mittlerweile erkennen ob es sich um einen selbst verfassten oder kopierten Inhalt handelt.[32]

2.3.3 Inhaltprofil

Der Inhalt einer Webseite sollte sich auf eine Gruppe fokussieren und nicht versuchen alle Bereiche abzudecken, denn dies führt häufig zu einer negativen Bewertung der User und auch der Suchmaschinenbetreiber, die hierfür bestimmte Algorithmen dagegen programmiert haben.[33]

2.3.4 Seiteninhalt

Die Webseite und der Inhalt sollten zueinander passen, sowie die richtige Eingliederung der Keywords in den Inhalt der Webseite. Außerdem sollte der Inhalt die Zielgruppe nicht verfehlen, wobei auch hier Bilder und Tabellen keine negative Bewertung bei den Suchmaschinen hervorrufen.[34]

2.3.5 Seitenlänge

Die Seite sollte zwischen 2 – 5 Seiten betragen, da dies besser bei der Bewertung der Webseite ausfallen würde. Bei einer Webseite die diese länge überschreitet sollte man sich überlegen Sie in mehreren Menü – Punkten zu untergliedern.[35]

2.3.6 Keyword-Dichte und Keyword-Spam

Keyword-Dichte bedeutet das Verhältnis eines Keywords im Inhalt einer Webseite. Als nicht empfehlenswert gilt es ein Keyword mehrmals in einer Textpassage zu benennen, welches man auch als Keyword-Spam bezeichnet. Die Häufigkeit eines Keywords in einem Text sollte nicht mehr als 5% bis 10% betragen.[36]

2.3.7 Keyword-Nähe und Position

Nach denen Suchmaschinenbetreiber zur Folge sollte man das Keyword soweit wie nur möglich ganz weit vorne in einem Text platzieren. Hierbei spielt auch noch die Entfernung zu einen anderem Keyword eine große Rolle. Neben den Keyword sollten auch noch andere Wörter mit einbezogen werden die der User möglicherweise mit dem Keyword zusammen in Betracht ziehen könnte. Ein Beispiel hierfür wäre das Keyword ( = Eritrea ) und die zusätzlichen Suchbegriffe ( = Party, Community, Parks, Disco ). Falls die Reihenfolge der Suchbegriffe stimmen, werden diese Texte oder Wortansammlungen ein kleines bisschen besser bewertet.[37]

2.3.8 Aktualität

Häufigeres aktualisieren der Webseite führt zu einer besseren Be­wertung beim Ranking der Webseite. Das ständige Aktualisieren der Inhalte und Texte sollte als Hauptziel gesetzt werden, dies geschieht häufig bei Webseiten die Nachrichten beinhalten. Jedoch sollte man die Zielgruppe seines Interessengebietes hierdurch nicht vernachlässigen, was auf Dauer gesehen schädlich für das Image der Webseite ist, man kann sozusagen nicht Informationen über Partys auf einer religiösen Webseite bringen, da hier die Zielgruppe verfehlt wird.[38]

2.3.9 Duplicate Content

Google und Co., der größte unter den Suchmaschinenbetreiber sieht es nicht gerne, wenn dieselben Inhalte mehrfach auf der gleichen oder auch auf verschiedenen Webseitenadressen auftauchen. Dies kann für Google und Co. ein Grund sein die Webseite schlechter beim Ranking zu bewerten. Jedoch gilt dies nicht für einzelne Sätze oder Zitate.[39] 

Die wichtige Seite für die Robots der Suchmaschinen ist die Startseite, genau aus diesem Grund ist es sehr wichtig diese Seite möglichst gut strukturiert mit sinnvollem Inhalt zu versorgen. Damit ist gemeint dass die Verlinkung innerhalb und außerhalb der Webseite stimmen muss, als auch, dass keine Flash-Animationen für die Hauptseite zu benutzen sind. Das Problem bei Flash-Animationen ist das sie sehr wenig Berücksichtigung bekommen beim Ranking und dies eher einen negativen Einfluss auf die Position bei den Suchergebnissen hat.[40]

2.3.10 Poison Words

Bei den Suchmaschinen gibt es so was wie eine Schwarze Liste, wobei die Wörter die in dieser Liste registriert sind als Verboten oder schlecht gelten. Ein Beispiel hierfür wäre zum Beispiel die Benutzung der Wörter Sex, Viagra, Poker und so weiter. Falls ein Suchmaschinenbetreiber merkt, dass diese Wörter in Ihrer Webseite auftauchen kann sich das negativ auf die Position der Webseite in den Suchergebnissen auswirken.[41]

2.4 Code-Optimierung

Bei einer Code – Optimierung sollte man gute bis sehr gute HTML – Kenntnisse besitzen, um Fehler bei der Programmierung zu verhindern. Ein Fehler hätte fatale Folgen, da hierdurch die Robots der Suchmaschine den Inhalt der Webseite nicht ordnungsgemäß erfassen können.[42]

2.4.1 Titeloptimierung

Der allerwichtigste Bereich im HTML – Element für die Suchmaschinen ist der <title> – Bereich, welche sich im <head> – Bereich einer jeden HTML – Datei befindet. Im Title – Bereich einer HTML – Datei sollte der Webseitenname und die 2 bis 3 wichtigsten Keywords enthalten sein. Der Grund für diese Maßnahme ist, dass die Suchmaschinen alle diese Bereich als sehr hoch bewerten und bei der Ausgabe in den Suchergebnissen Fett und größer (z.B. zdf.de sollte als ZDF im Title bereich auftauchen) darstellen, um ihre Wichtigkeit zu unterstreichen. Hier ist es noch empfehlenswert zwischen statischen und dynamischen Webseiten zu unterscheiden, damit auch die Suchmaschine erkennt dass es dynamische Webseiten gibt und nicht nur die statischen Webseiten berücksichtigt.[43]

2.4.2 Überschriften

Die Überschriften <h1> bis <h6> sind für alle Suchmaschinen relevant, da hier die Überschriften sehr gut von den Suchmaschinen analysiert werden. Auf jeden fall sollte man eine Gliederung einbauen und die Relevanz der Überschriften von <h1> auf <h6> stufenweise in die Webseite einbauen. Es ist jedoch nicht ratsam diese noch kursiv oder fettgedruckt Anzeigen zu lassen. Da hier die Bewertung bei den Suchmaschinen negativ ausfällt und die Seite beim Ranking schlechter positioniert wird. Jedoch sollte man auch nicht überall Keywords einbauen, weil die Suchmaschinen dies als Keyword – Spam auffassen, was gerade nicht positive für die Positionierung der Webseite bei den Suchergebnissen ist.[44]

2.4.3 Meta-Angaben

Meta-Angaben finden heutzutage nicht mehr so einen hohen Stellenwert bei Google jedoch bei Yahoo, was die Platzierung der Suchbegriffe Tigrinja, Tigrinya und Tigrigna in den obigen Abbildungen 6-8  deutlich macht. Die Meta-Angaben sind im Head – Bereich einer HTML – Datei zu finden und sehen wie folgt aus.

Abbildung 4: Meta-Angaben in einer HTML – Datei

<html>

            <head>

            <title> ……………</title>

            <meta name = “revisit – after“ content = “30 days“>

            <meta name = “robots” content = “index, follow”>

            <meta name = “language” content = “de”>

            <meta name = “description” content = “….”>

            <meta name = “Keywords” content = “….”>

            ……….

            </head>

            <body>

            ………..

            </body>

</html>  

Die Meta-Angaben “revisit after” bedeutet das der Robot sich möglichst alle 30 Tage blicken lassen sollte. Die Meta-Angabenlanguage“ soll dabei helfen die richtigen User anzusprechen, um bei einem französischem Produkt keine englischen User zu bekommen. Hierzu gibt es noch einige Meta-Angaben die eine Webseite beschreiben wie zum Beispiel “keywords“, welche die wichtigsten Suchbegriffe einer Webseite beinhalten oder auch “description“, welche die Webseite inhaltlich kurz und mit den wichtigsten Keywords beschreibt.[45]

2.4.4 Bilder optimieren

Es besteht eine Möglichkeit die Bilder einer Webseite mit einem Keyword zu versehen. Dies ist das so genannte alt – Attribut was zum Bild hinzugefügt werden kann. Eine Beschreibung kann mit Hilfe des title – Attribut noch zusätzlich angehängt werden. Ein alt – Attribut ist meist bei Bildern ersichtlich, was man an der weißen erscheinenden Textfläche oberhalb des Bildes sieht. An der folgenden Abbildung 9 ist dies am besten zu sehen, wo man das alt – Attribut als “Google in Tigrinja“ lesen kann.[46]

Abbildung 5: Bilder nach dem alt – Attribut optimieren

Quelle: www.tigrinja.com

2.4.5 Frames

Bei Frames besteht das Problem, dass sie von den Crawler der Suchmaschinen nicht erfasst werden können. Es sollten genauere Überlegungen darüber vorgenommen werden, ob nicht der Verzicht auf Frames im HTML-Code eventuell ratsamer wäre, um negative Bewertungen der Webseite beim Ranking zu vermeiden. Falls es doch notwendig ist und die Webseite unbedingt Frames benötigt, sollte man wissen wie man die Frames einsetzt. Damit der Robot weiß, wo genau er den Inhalt der Frames findet, sollte man den <noframe> – Bereich im HTML – Code mit dem Inhalt versehen, welche dem Robot zum wichtigen Inhalt der Webseite führt.[47]

2.4.6 CSS, JavaScript und Flash

Bei CSS, JavaScript und Flash besteht ein ähnliches Problem wie bei Frames; die Robots erhalten hierbei nicht nur Informationen mit denen sie nichts anfangen können, vielmehr verstecken sie sogar die Informationen, womit sich dies als größeres Problem darstellt als bei den  Frames. Es ist sehr vorteilhaft wenn man CSS und Javascript in eine externe Datei abspeichert. Diese Maßnahmen haben 2 Vorteile zum einen wird Speicherplatz gespart, andererseits erkennt der Robot die Informationen die sich auf der Seite befinden. Falls jedoch im Javascript wichtige Informationen enthalten sind, kann man dies im <noscript> – Bereich einer HTML – Datei eingeben und diese mit den relevanten Informationen füllen. Bei Flash sieht dies jedoch anders aus; es gibt hier kein <noflash> Element, welches in eine HTML – Datei eingebaut werden könnte um fehlende Informationen mit zu berücksichtigen. Also ist es ratsam kein Flash zu benutzen, falls Sie wichtige Informationen für die Robots der Suchmaschinen enthalten.[48]

2.4.7 Hervorhebungen in einem Webseiteninhalt

Mit Hervorhebungen ist gemeint, gezielt Wörter eines Text in einer Webseite Kursiv oder Fett darzustellen. Dies gefällt auch den Robots der Suchmaschinen, trotzdem sollte man nicht alles hervorheben sondern nur für wichtig erachtete Stellen. Die Hervorhebungen geschehen mit den folgenden HTML – Befehlen <strong>, <i>, <b> und <em>.[49]

2.4.8 Positionierung des Inhalts und des Keywords

Alle Suchmaschinen bevorzugen es wenn der Suchbegriff schon zu beginn des Inhaltes auftaucht. Hierfür gibt es bestimmte Vorgehensweisen wie zum Beispiel in der folgenden Abbildung 6 dargestellt ist.

Abbildung 6: Typischer Aufbau eines Quellcodes für eine Webseite

<table cellpadding = “0“ cellspacing = “0“>

            <tr>

              <td> Navigation </td>

              <td> …. Inhalt (Suchbegriff)…. </td>

            </tr>

</table>

Quelle: Jan Winkler, Suchmaschinenoptimierung, 2007 Franzis Verlag GmbH, S. 73  

Nun kann man mit einer kleinen änderung des Quellcodes vor der Navigation den Inhalt zufügen, so dass die Suchmaschine nicht die Navigation als erstes liest sondern den Inhalt. Dies geschieht wie Sie in der folgenden Abbildung 7 sehen können.

Abbildung 7: Suchmaschinenoptimierter Aufbau eines Quellcodes

<table cellpadding = “0“ cellspacing = “0“>

            <tr>

              <td style = “font-size“:1px; height: 1px;“>

                        &nbsp;

              </td>

              <td rowspan=”2”>

                        ….. Inhalt …..

              </td>

            </tr>

            <tr>

              <td>

                        Navigation

              </td>

            </tr>

</table>

Quelle: Jan Winkler, Suchmaschinenoptimierung, 2007 Franzis Verlag GmbH, S. 73  

In der Abbildung 7 passiert folgendes; der Abschnitt des Inhalts wird für die Suchmaschinen vor die Navigation gestellt, jedoch sieht es in der Homepage so aus als wäre der Abschnitt Navigation vor dem Inhalt. Der Gründ hierfür liegt darin, den Robots der Suchmaschinen die Wichtigkeit des Inhaltes darzustellen, da hier die Navigation einen geringeren Stellenwert hat als der Inhalt. Ein Robot einer Suchmaschine bevorzugt es, wenn eine Seite sauber und korrekt aufgebaut ist. Um prüfen zu können ob Ihre Seite ordnungsgemäß gestaltet wurde, gehen Sie auf die Homepage des W3C Markup Validation Service, hier können Sie Ihre Webseite überprüfen und gegebenenfalls verbessern.[50]

2.5 Interne Linkoptimierung

Zwar werden Links die innerhalb der Seite erfolgen nicht so hoch bewertet wie Links die auf Seiten außerhalb erfolgen, dennoch sollte man dies nicht vernachlässigen, da hier die Robots der Suchmaschinen dies auch berücksichtigen.[51]

2.5.1 Interne Verlinkung

Bei der Internen Verlinkung spielt die Verzweigung und Tiefe eines Links eine sehr große Rolle. Jedenfalls sollte man hier darauf achten, dass von der Startseite aus nach 5 Klicks jede Seite erreichbar ist, weil die Robots einen großen Wert auf eine gute Verzweigung und Tiefe legen, sollte man dies hier nicht vernachlässigen. Ein weiteres Problem hier ist dass man die Unterseiten nicht zu sehr verzweigt, denn es könnte die Relevanz der Webseite schmälern. Zur Analyse der Webseite kann man bei Verwendung eines JavaScripts beim Browser FireFox überprüfen inwieweit die Seiten verlinkt und erreichbar sind. Man geht einfach auf die Optionen und schaltet JavaScript aus, alles was daraufhin zu erreichen ist, erreicht dann auch der Robot einer Suchmaschine. Um die nicht Erreichbarkeit zu verhindern sollte man im <noscript>Bereich einer HTML – Datei eingeben welche Seiten im JavaScript Dokument zu erreichen sein sollten.[52]

2.5.2 Linktexte

Die Auswahl des Textes für interne und externe Links besitzt eine hohe Gewichtung bei der Bewertung der Webseite. Aus diesen Gründen ist es wichtige sich genau zu überlegen welche Wörter oder Texte man auswählt, damit die Zielgruppe erreicht wird, die man für die jeweilige Webseite vorgesehen hat. Ein Beispiel wäre beim suchen eines Urlaubsortes die Auswahl des Textes mit “Urlaub im Sommer “.[53]

2.5.3 Absolute oder relative Links

Ein absoluter Link ist ein Link der die Zieladresse bezeichnet, dagegen ist ein relativer Link ein Link der nicht die ganze Zieladresse sondern nur ein Teil der Zieladresse darstellt, wie sie in folgenden Beispielen sehen können.

Absoluter Link:

            http://www.mein-name.de/Bilder/Klasse/index.php

Relativer Link:

            ../Bilder/Klasse/index.php

Man vermutet sogar dass Google eher absolute Links bevorzugt. Obwohl hierfür kein eindeutiger Beweis existiert, sollte man dies trotzdem berücksichtigen. Auch wenn hier keine Verschlechterung jener Webseiten bekannt ist, die relative Links für die Struktur Ihrer Webseiten verwenden.[54] 

3. Wichtige Vorraussetzung um eine Webseite zu erstellen

Zuerst sollte ein Konzept entwickelt werden, welches das Ziel der Webseite beschreibt und nach welchen Suchbegriffen die Webseite ausgerichtet werden soll.[55] Daraufhin bestimmt man die Vorgehensweise der Zielerreichung; ob man dies durch ein einzelnes Wort oder durch eine Wortkombination von 2 bis 3 zusammengesetzten Wörtern erreichen will, was hier von großen Vorteil wäre, da der Anteil der Suchenden nach 2 oder 3 Wörtern viel höher ist als beim einzelnen.[56]

3.1 Offpage Optimierung

Die Auswahl des Dateinamens und der Linkstrukturen spielen eine große Rolle bei der Bewertung der Webseite für das Ranking. Hier werden meist die Fehler gemacht die zu einer schlechteren Bewertung führen. Dies sind meist Dateinamen die der Webseite nicht entsprechen oder Fehlentscheidungen die zur Abstufung beim Ranking der Webseite führen.[57]

3.1.1 Auswahl des Webhosters

Einen großen Einfluss auf die Auswahl des Webservers hat hier meist der Geldbeutel. Nach diesem Kriterium sollte man jedoch keine Webserver anmieten. Dies kann zu einem Problem führen wenn alle Kunden des gleichen Webserver eine identische IP-Adresse besitzen und diese möglicherweise seitens des GoogleBot gesperrt ist. Man sollte auf jeden fall einen eigenen Domain Namen besitzen, welche keine lange Verzeichnisstruktur hat. Dies wird auch von den Robots der Suchmaschinen bevorzugt und ist jedem zu empfehlen.[58]

3.1.2 Beachtung der Einschränkung

Es sollte immer eine Verfügbarkeit der Webseite vorhanden sein sonst könnte die Löschung aus dem Google – Index erfolgen, was schwerwiegende folgen für das Ranking hätte. Außerdem ist es auch von Vorteil seine eigene IP – Adresse und Server zu besitzen, um bei eventuellen Verstößen einer IP – Adresse eines Webserver nicht in Mitleidenschaft gezogen zu werden.[59]

3.1.3 Domainname und Verzeichnisse

Zu beginn der Überlegung eines Domainnamens sollte man sich zu erst Gedanken über die zu erreichende Zielgruppe machen, um später bei der Gewichtung der Webseite eine höhere Relevanz bei den Suchergebnissen des Google – Indexes zu erhalten. Suchmaschinen legen nämlich einen großen Wert auf den Namen der Domain, dabei ist es am besten wenn man einen Kombinationsnamen festlegt der die Webseite inhaltlich Widerspiegelt, wie zum Beispiel www.meier-wurst-fabrik.de.

Diese Webseite soll den Herrn Meier der eine Wurst Fabrik besitzt darstellen, jedoch benötigt die Webseite auch noch in der URL diese Informationen was hier von Vorteil ist. Ein weiterer Vorteil ist hier auch die Bezeichnung des Verzeichnisses nach den gesuchten Wörtern was bei der Gewichtung des Ranking positiv ausfällt, wie in unserem Beispiel Meier-kontakt.html oder Meier-impressum.html. Jedoch können die Verzeichnisse der Webseite auch wurst-kontakt.html oder wurst-impressum.html, was auch ein positives Ergebnis beim Ranking einer Webseite herbeiführt, heißen. Dies kommt aber immer auf den Begriff an, nach welchem gesucht wird. Man darf dabei jedoch nicht vergessen, dass dies auch im Titel – Bereich des HTML – Code vorhanden sein sollte. Dies gilt jedoch nicht nur für URL und Verzeichnisse sondern auch für Bilder, Flash – Animationen und PDF – Dokumente.[60]

3.2 Onpage Optimierung

Die Aneignung von Lektüren ist nicht ausreichend, um eine Seite in die Höhere Rangposition von Google zu bringen. Man benötigt vielmehr die praktische Erfahrung welches mit der Onpage Optimierung leicht verständlich eingeführt werden soll.

Bei der Webseiten Gestaltung wird mehr auf das Design Wert gelegt, als auf die Optimierung der Webseite nach den Kriterien der Suchmaschine. Man sollte das Ziel verfolgen, den Inhalt auf die Struktur und das Design einer Webseite so anzupassen, dass diese einfach und leicht von den GoogleBot erfasst werden können um eine gute Rangposition bei den Google – Ergebnissen zu erlangen.[61]

3.2.1 Relaunch einer Webseite

Als Relaunch einer Webseite versteht man, dass umgestalten einer Webseite. Hierfür gibt es 2 Möglichkeiten, erstens wird die Webseite komplett neugestaltet oder zweitens bereits bestehende in Inhalt oder Struktur leicht verändert, an die Suchmaschinen angepasst. Außerdem sollte man zur Überprüfung der Indexierten Domainnamen bei Google oder Yahoo am besten einer der beiden Methoden verwenden, die zum Suchergebnis der Unterseiten der ausgewählten Domain führen.

1. Möglichkeit

Eingabe des Schlüsselbegriffs in die Google Suchmaske:

            Site: www.tigrinja.com

2. Möglichkeit

Eingabe des Schlüsselbegriffs in die Google Suchmaske ohne “www“:

            Site: tigrinja.com

Die 2. Möglichkeit sollte man verwenden, wenn die 1. Möglichkeit zu keinem Suchergebnis bei Google führt.[62]

3.2.2 Korrekter Einsatz vom HTML-Code

Der fehlerfreie Einsatz des HTML-Codes ist sehr wichtig und spielt eine sehr große Rolle für die Webcrawler-Systeme der Suchmaschinenbetreiber. Bei nur einem kleinen Fehler des HTML-Codes könnte dies fatale Folgen für die Webseite bei den Google Suchergebnissen haben und führt zu einem syntaktische Fehler(Code 404 [Webseite nicht erreichbar]). Zur Überprüfung gibt es einige Online – Tools die ihnen behilflich sein können, wie zum Beispiel der W3C – Validator.[63]

Die Optimierung durch die Tags erfolgt meist über den Standard – HTML Befehl <title> ……. </title>. Der Title – Tag ist wohl der wichtigste HTML – Befehl im Head Bereich um Suchmaschinengerecht die Webseite zu programmieren. Im Titel – Bereich sollte man nicht zu viele Wörter benutzen, weil sonst die Bedeutsamkeit der einzelnen Begriffe abnimmt. Die Empfohlene Anzahl der Wörter liegt bei Minimum 40 bis Maximal 100 Zeichen.[64]

Um den Title – Bereich Suchmaschinenfreundlich inhaltlich zu beschreiben benötigt man den Body – Bereich. In diesem Bereich wird das ausgedrückt was im Title – Bereich stand, als auch die Hervorhebungen, überschriften und Aufzählungen mit den HTML – Befehlen in der folgenden Abbildung 8.

Abbildung 8: HTML Befehle

            <li>

            <ul>

            <strong>

            <b>

            <i>

            <cite>

            <sup>

            <sub>

            <s>

            <h1> …..<h6>

Es ist jedoch empfehlenswert das verwendete Keyword nicht zu häufig zu verwenden, da sonst hier ein zu hohes Keyword – Stuffing entstehen kann.[65]

4.(SEM) Suchmaschinenmarketing

4.1 Werbeformen auf Suchmaschinen

4.1.1 Banner

Die Bannerwerbung auf Webseiten ist eine Möglichkeit um Einnahmen für eine viel besuchte Webseite zu bekommen. Jedoch ist die Bannerwerbung auf herkömmlichen Webseiten niemals so erfolgreich wie bei einer Suchmaschine, denn hier wird erstmal der Suchbegriff eingegeben und daraufhin erscheint die Werbung in der Linken Spalte bei Google und gelegentlich auch oberhalb der Suchergebnisse als Sponsored markiert und in einer anderen Hintergrundfarbe ( meist blaulich ) gekennzeichnet. Der Erfolg von solcher Online Werbung ist klar und deutlich, der User sucht nämlich die Werbung bei den Suchmaschinen, jedoch weiß man nicht ob die Werbung bei Webseiten die keine Vorgehensweise wie Suchmaschinen haben erwünscht ist oder nicht.[66]

4.1.2 Abrechnungsarten der Suchmaschine für Werbung

Online – Werbung auf Suchmaschinen und die verschiedenen Arten dies zu betreiben. Dies wären zum Beispiel Paid Placement, Pay for Performance oder auch Bidded Listings. Bei Paid Placement wird eine Textanzeige bei einer Suchmaschine für Online – Werbung gebucht. Diese Werbemaßnahme hat den Vorteil dass man eine Übersicht der Kosten für Online – Werbung hat. Hinzu kommend entstehen hier keine Wartezeiten wie bei Suchmaschinen – Crawlern und man bestimmt den Suchbegriff für die Zielgruppe der Webseite. Die Suchergebnisse werden getrennt in Werbeorientierte und nicht Werbeorientierte Links unterschieden. Die Werbeorientierten Links des Paid Placement werden in Paid Listings oder Sponsored Links getrennt von den organischen Suchergebnissen aufgelistet.

Die Abrechnungsweise erfolgt wie bei den sogenannten Pay for Performance, Cost per Click(CPC) oder Pay per Click(PPC) nicht pro Einblendung eines Banner, sondern erst wenn ein Benutzer auf den  Banner draufklickt.

Das Bidded Listing wird hauptsächlich in Amerika verwendet, hierbei handelt es sich um ein Verfahren bei dem derjenige, der die höchste Summe für einen Klick bezahlt auf den ersten Platz der Liste landet. Derjenige der die zweithöchste Summe für einen Klick bezahlt erhält den zweiten Platz auf der Liste und so weiter.

Jedoch gibt es auch Programme die der  Klickpopularität mehr Beachtung schenken, wodurch ein Paid Placement der hohen Klicks in eine höhere Position aufgelistet wird, obwohl hierfür weniger bezahlt worden ist.

Die Erfolgsversprechende suchbegriffsabhängige Bannereinblendung des Paid Placement für bestimmte Suchbegriffe hat den Vorteil, dass der Benutzer schon auf die Textanzeige der Werbung eingestellt ist. Schließlich erwartet er die Ergebnisse, die oberhalb der organischen Suchergebnisse in einer anderen Farbe als Sponsored Links gekennzeichnet, in die Sichtweise des Benutzers aufgelistet dargestellt wird. Dies wird Ihnen an der folgenden Abbildung 9 am besten verdeutlicht.[67]

Abbildung 9: Suchbegriff – Krankenversicherung

Quelle: Google – Suchergebnisse vom 17.08.2007 um 21:23

5. Google-Gerüchte, Theorien und Fakten

Google ist eines der größten Suchmaschine der Welt, mit einem Anteil von 86% Beteiligung der Suchanfragen in Deutschland ist Google auf Platz 1 der Suchmaschinenbetreiber.[68] Googles Kriterien für die Webseiten sind wohl das bestgehütete Geheimnis der virtuellen Welt. Aus diesen Gründen muss man sich als Suchmaschinenoptimierer grundsätzlich mit den Theorien und der Funktionsweise der Google Kriterien auseinandersetzen.[69]

5.1 Gerüchtequellen und Gerüchteküchen

Google spricht also so gut wie nie über algorithmische oder technische Details. Jedoch erfolgt eine Kommunikation zu den Nutzern der virtuellen Welt in dem Google wichtige Informationen verbreitet, um unseriöse Gerüchte zu vermeiden. Hierfür ist Matt Cutts, Leiter der Webspam – Gruppe die Informationen aus dem Hause Google regelmäßig auf seiner Webseite  http://www.mattcutts.com/blog postet, verantwortlich. Sie finden dort auch die aktuellsten Nachrichten über Google. Es gibt jedoch auch noch eine andere Webseite in der sich ein weiterer „GoogleGuy“, welcher anonym ist, regelmäßig äußert und falsche Behauptung oder auch Vermutungen klarstellen. Die Webseite in dem die regelmäßigen Beiträge des unbekannten „GoogleGuy“ stehen lautet http://www.webmasterworld.com. Für den unbekannten „GoogleGuy“ wird hier Matt Cutts, Paul Haahr oder ein Google-Mitarbeiter vermutet.[70]

5.2 Googles Crawling-Strategien

Google – Index Update erfolgte lange Zeit alle 4 Wochen und führte bis 2002 in verschiedenen Regionen zu verschiedenen Suchergebnissen bei der Eingabe eines gleichen Wortes. Dies wurde auch in der IT – Welt als Google Dance bezeichnet, jedoch hat man seit 2002 das Problem schnell behoben um die Qualität der Suchergebnisse zu verbessern.[71]

6. Fazit

Vor dem Programmieren einer Webseite sollte man sich seine Vorgehensweise sehr gut überlegen, weil hier mehrere Faktoren auf einander Treffen die nicht unbedingt harmonieren müssen. Es ist ratsam sich einen Berater zu holen und sich mehr Gedanken zu machen bevor man eine Webseite anfängt zu programmieren, dies wurde Ihnen hier auch unter dem Kapitel 3.1 Offpage Optimierung erläutert.

Mein Ziel ist eine Plattform für die Tigrinja / Tigrinya / Tigrigna Volksgruppe aus Eritrea und Nordäthiopien zu schaffen, wodurch die Betroffenen eine Möglichkeit erhalten Informationen über Ihre Kultur und Geschichte zu bekommen. Des Weiteren soll die Geschichte und Kultur der Tigrinja / Tigrinya / Tigrigna leicht in Google wiederzufinden sein. Dies erreicht man jedoch nur durch  SEO (Suchmaschinenoptimierung), was in Zukunft vermehrt der Fall sein sollte und für die nächstkommende Generationen bereitgestellt werden soll.

Somit kam mir die Idee, dies mit Hilfe der SEO (Suchmaschinenoptimierung) ins richtige Licht zu rücken.

Das Ziel meiner Bachelorearbeit ist es, dass Thema “SEO (Suchmaschinenoptimierung) “ zu beschreiben und mit Hilfe wissenschaftlicher Tests zu erklären, als auch die geschichtliche, politische und wirtschaftliche Entwicklung der Suchmaschinenbetreiber mit einzubeziehen. Dies wird Ihnen anhand einiger Suchmaschinenbetreiber wie google oder yahoo verdeutlicht. Es wird auch noch die Funktionsweise, Vorgehensweise und der Aufbau der Suchmaschinenbetreiber dargestellt und beschrieben.

SEO (Suchmaschinenoptimierung) spielt in der heutigen Informationspolitik eine sehr grosse Rolle, da die Verbreitung der Informationen in der Zukunft hauptsächlich im Internet stattfinden wird, was die Zahlen der jüngeren Generationen deutlich zeigen. Dies ist schon alleine an den Usern sogenannter Kontaktbörsen zu sehen die hauptsächlich jüngerer Generationen sind.  

SEO (Suchmaschinenoptimierung) ist jedoch auch für die Wirtschaft ein sehr großer Erfolgsfaktor geworden, wenn man die Anzahl der möglichen Kunden zählt. Dies ist mit unter ein Grund, weshalb in der heutigen Zeit eine Webseite die genau die User anspricht eine sehr große Rolle, vor allem in wirtschaftlicher Hinsicht, spielt. Wobei es nur dann funktionieren kann wenn die Webseite auch nach den Kriterien der Suchmaschine programmiert wurde.

Es ist sehr empfehlenswert mit fairen mitteln zu programmieren, da die Mitarbeiter von Google ständig an Entwicklungen arbeiten die Ihre Suchergebnisse verbessern, und so genanntes Keyword-Spam, Duplicate Content und vielen weiteren Tricks entgegen wirken, um qualitative Suchergebnisse der Webseiten zu erzielen.

Ein weiterer Punkt hierfür wäre, dass die Webseiten aus dem Google Index entfernt werden, was für einen Webseiten-Betreiber keine neuen User mehr bedeuten würde. Für den Betreiber der Webseite würden durch die Löschung fatale Folgen entstehen, die nur durch eine ausführlich begründete E-mail an Google wieder in Ordnung gebracht werden könnten.

English

SEO-Search-Engine-Optimization-Company

The company seo-online-marketing.org offers as a service Online marketing, SEO(Search engine optimization), SEM (Search engine marketing), as well as and the care of Google Analytics, Google Adsense and Goolge Adwords.

Our strengths lie in the development of dynamic web application like Online advertisement tools, SEO(Search engine optimization) measures, SEM(Search engine marketing) measures and to invent new channel for sales distribution over the Internet. Experiences with static and dynamically optimized web pages are us familiar already for 3 years.

Online Marketing Consulting for Company:

Online marketing is using advertisement over the online media. For this purpose the are different marketing measure like email-marketing, Google Adwords, advertisement on different websites, affiliate-marketing, the search engine yahoo, google, msn and etc.. Our online marketing strategy to occur mainly over the search engines, but we could also implement other strategy’s on request.

Other services is to give effective and successful consulting, if you are interested on buying or new foundation of websites. As well as consulting for existings websites, where we gladly show you new ideas and improvement possibilities of your website.

Online Marketing Consulting of new website:

  • Selected keywords
  • Target group
  • Development of an website name
  • Design the websites-content
  • Implementation of new strategy

Online Marketing Consulting of existings websites:

·        Statistic evaluation of your website

o       Pagerank evaluation

o       Worldwide rank of your website

o       Externe Links

o       Interne Links

o       Google

§         Interne Links

§         Externe Links

o       Yahoo

§         Interne Links

§         Externe Links

o       MSN

§         Interne Links

§         Externe Links

·        Online marketing strategy

·        Improvements

·        Linkstructur

In order to clarify our work, we have a couple of examples, which you can look at the SEO-Reference links on the left side. You can reach us per telephone or email.

You find our contact data under the left link SEO-Contact or SEO-Imprint where you can send us also an email.

SEO-Search-Engine-Optimization-Service

Responsibilities of our SEO-Service

  • SEO (Search Engine Optimization) Keyword Analyse
  • Implementation of SEO-measures into CMS-Systems (Joomla or Typo3)
  • Creation of a login (with PHP, HTML and MYSQL
  • Creation of an SEO (Search Engine Optimization) dynamical guestbook
  • Development of SEO (Search Engine Optimization) Websites
  • Creation of multilingual SEO (Search Engine Optimization) Websites
  • Development of an dynamical SEO (Search Engine Optimization) optimised Content Management System(CMS)
  • Dynamical picture gallery (Search Engine Optimization [SEO] for Image Google Result)
  • Development of Online-Marketing-Measures
  • Implementing of an Google-Account, Google Adsense, Google Mail and Google Adwords
  •  
    •  
      •  
        • SEO Consulting Services

        • SEO Training Services

  • PPC Campaign Management Services

Advance by the optimization strategy of our SEO-Service:

  • Keyword Research
  • Onpage Optimierung
  • Offpage Optimierung
  • Link building

Target of our SEO-Service

  • Increasing the traffics
  • Improving the position of the search engine result in Google

Implementing “Keywords or signs” in the  map result pages of Google

  • for example the keyword “Search engine optimization”

SEO-Search-Engine-Optimization-Consulting

The consulting of the SEO-ONLINE-MARKETING.ORG starts by the wish of clients. First of all we begin to check the knowledge of our clients, to give them the right search engine optimization consulting. In our SEO-Consulting you will get professional search engine optimization and fair conditions. Our benefit will be appointed in Google index with an fix quota and a variable quota. The conditions of our success is to work in a period of minimum 3 month till maximum of 6 month. We need this time period to show you our success in ranking your website in a better position.

Google Analytics and SEO – Search Engine Optimization

The open source Software Google Analytics will help you to understand in which way the users are landing on your page and how long they stay on this page. For that reason we prefer to implement Google Analytics for all our clients to be prepared for future plans of your Website.

Provision of a contract for SEO – Search Engine Optimization

SEO-Contract should be dynamical developed and oriented to the success, this is our philosophy. We have different models for example a fix small part and a variable high part. The variable part will be paid if we position your website to the first or second page of the Google Index. There are possibilities to cancel our contract after 3 month, if you are not happy with the service of SEO-ONLINE-MARKETING.ORG. Our goal is it to create a friendly environment between our SEO-Company and our clients.

Our opinion is that every company must show some success of a webpage after 3 month until maximum 6 month. But only under the condition of the Google Crawler cached the webpage frequently. Every time the Google Crawler visit your website it will be shown in the date at the top, if you click on the cache link.

Problems of the SEO – Search Engine Optimization

They are many SEO-Companies or SEO-Freelancers who offers SEO and they believe that they can do it. Although most of them are only talking about SEO, but a professional SEO-Optimiser have some good SEO-Reference links, where you can see his experience and skills.

For example if a company optimise keywords which are high demanded in the search engline like car, travel, trade, Online Marketing, Online Shopping etc..

SEO-Search-Engine-Optimization-History

1. Definition SEO (Search Engine Optimization)

SEO (Search Engine Optimization) is to redesign or develope new website in the direction of the search engines. The goal of the SEO (Search Engine Optimization) is it, to be found after requested keywords in the top position of the Google-Ranking, which you will see at the end of the successful position in the google results.[1]

There are few groups of companies and some webdesigners which offer SEO (Search engine optimization). The cost of SEO (Search engine optimization) could be under 100$ till to few thousands dollar it depends on the keyword and how strong the competitive website are and how the website is optimise.[2]

1.1 History of the Search engine

The first search engine was created in the University of McGill Montreal in 1990 and was called Archie. Their task was it to search in all FTP-directory after the desired concept, like for example in file name and index name.  The problem of the search engine existed however therein that it counted, although it from 1992 to most used Internet-services, no texts search could, but rather solely files and file.  This was also the reason why it was meaningless for the usual Internet-user, however only user from the university area used it.

The Gopher Software were developed in 1991, their task was it to build a network for the University of Minnesota. Gopher Software cataloged the directory with the help of an user interface and search with the instruction AND, OR and NOT in the amount of data. After that more spider and webcrawler-system become developed, which list the websites in the constantly increased internet.

Lycos start 1994 with the search engine, which search after Keywords and words frequency in documents.[3]

1.1.1 History of the Search Engine Google

At the Stanford University, 1995 of both information technology student met themselves Sergey Brin and Larry page.  Those developed the search engine by the name of BackRub that examines that to the left of a web page and determines therefore the importance of that this. [4] About three years later, on the 7 September 1998, established it then by means of a starting capital of approximately 810,000 €, and that it mainly of members of the family, friends and above all the co-founder of Sun Microsystems Andreas of Bechtolsheim received, the firm Google inc. 

Google indicated already in February 1999 over 500,000 search queries per day in its office in Palo Alto.  The search queries increased sixfold themselves after the collaboration with AOL and netscape and this already in September the same year.  Googles concluded on the 21 September 1999 its test phase and removed the betas – status. 

In June 2000 indicated Googles more than a billion sides in the Google index and became therefore the market leader under the search engines.  Google expanded the years following on that its dominance, numbers of visitors and revenues steadily, this resulted usually by up purchases of other IT – business.  Through it Google strengthened its market position and expanded permanently its product range at offer, such as for example Google mail, Googlemap, Youtube and so further. [5]

Comscore mark research enterprising maintained that in March this year Google for the first time more numbers of visitors than Microsoft indicate becomes and put the preceding year, with a growth of 13%, to whereby Microsoft grew only by 4%.  Although the numbers of visitors not very strongly from one another deviate could Google with 1 million visitors more Microsoft strike.  Google owed this success the up purchase of the so popular and popular video portal Youtube. [6]

1.1.2 History of the Search Engine Yahoo

Yahoo did not begin separate established have 1994 as a search engine as a Web catalogue of which of both student David Filo and Jerry Yang at the Stanford university in a trailer.  The idea was to be generated it an index, which lists the favourite websites of both student.  As the web page began to become tangled, caught to categorize it at this.  The web page was named would widen originally “Jerry’s it Guide to the world Web” and was changed first later in Yahoo.  As the name of the web page, Yahoo, was certain emerged, as well as the improved survey and structure, indicated the web page more and more visitor. 

The starting shot for your success began contacted became however first 1995 as it by Marc of Andreesen, a collaboration with netscape

In the same year, the business Yahoo was established, was enabled this thanks to the money of the risk investor Sequoia Capital.  Thereupon a competent management team was inserted is also successfully arrive into the business Yahoo in order to be able to go in the year following on that at the stock exchange, this Yahoo. 

To the same time, several competitive search engines emerged wanted that this new and hartumkämpften technology market for itself profits. 

This appeared also in the Aufkäufen of several search engine operators, such as for example Inktomi, AltaVista, Overture and Alltheweb, through Yahoo in the year 2003.[7]

1.1.3 History of the Search Engine MSN

Microsoft established used became 1995 MSN, which as pure Internet service provider was planned, however the Guide of an Internet user.  Outside of the USA, MSN was hardly successful.  This changed successfully won however as Microsoft against the browser competitor netscape.  In the end all MSN integrated by the Windowsbetriebsystem had contributed became suddenly on your home of the Internet Explorer, what very in addition the MSN very well known and separate this not only in the USA worldwide. 

A small difference to the other services of the search engine operators exists however, and to be sure MSN had no own search service for years, but rather the search results of other search engine bidders received.  This happened yet until recently.  In spite of all that, it did not create Microsoft with MSN to place a world-famous sign on the legs, like for example Amazon or Google. 

In the mean time Microsoft MSN has an own search service with own search engine and ca.  5 billions of web pages in the index. 

MSN belongs to the Internet portals largest popular worldwide next to Yahoo and offers many services on how its enamel service successfully implemented worldwide proves Hotmail. [8]

1.2 Meta search engine 

A Meta search engine is a listing and aggregation of linked information which are not made available by the search engine operators e.g. Google, Yahoo and further. 

These data or information are selected of the search engine operators after certain criteria, are for example after subjects that of general interest or current messages and headline.  For these reasons, only 1/3 of the world become would widen grasped Web. [9] 

1.2.1 Field of application 

The Meta search engine come first to the use if special information needs are available (special search queries after books, automobile´s, etc.).  The meaning of these Meta search engine increases permanently because here much can be gone in more on the information needs of the user.  Meta search engine offer have an information service for certain user groups the interests in this specialty. [10]

1.3 Explanation of the functional methods of the search engines 

The function principle is identical in all search engines.  First of all the information of a web page is loaded down.  This task is received of the Webcrawler-system, that like an Internet surfer the entire information gathers.  Subsequently the gathered information will index and made available the Query server as a query module the users of the respective search engine (Google, Yahoo, MSN, etc.).  The users see gathered then the search results that of the Webcrawler-system and allocated of index as a schematically structured index. [11]

1.3.1 Google functional method 

That follow from results Google out of the inclusion of that to the left into the calculation of the Rankings.  For the more popular a web page is, is linked the more frequent you.  After this principle, the Pagerank-algorithm became of Larry page, the Google co-founder, invented that the quality of the search results in Google around a multiple improved. [12]

1.3.2 Yahoo functional method 

The Yahoo slurp (Yahoo Crawler) uses the left popularity algorithm on the same type and manner such as Google, however a small difference to it exists, and to be sure the Yahoo slurp has no Pagerank such as Google, nevertheless it is more frequently at the Crawl sometimes even more steadily than the GoogleBot. [13]  

1.3.3 problems in the analysis of a search engine 

The secrecy principle of the large search engines represents itself as one of the largest problems because the analysis impedes itself through it around a multiple and becomes it only evident if one sees its side in the result editions of the search engine operators of Google or Yahoo indexed.   

The reason for the secrecy principle is probable that the danger is to largely and the competitors could have insights into the system or draft of the search engine operators. 

1.4 Document winning with the Webcrawler-system

The Webcrawler-system is responsible for the data procurement and the update of the procured data.  It serves so to speak as an interface to the WWW and comprises three types of modules. 

 1. Protocol module

The protocol module stands as a client in direct contact to the servers of the WWW and is so to speak the interface between WWW and the Crawler

 2. Processing module

They are responsible for the processing and storage of the newly arrived data / information.  These are processed through the Scheduler and Storeserver whereby the Storeserver can be been also yet among the protocol modules, because it receives partially the analysis of the HTTP-data. 

 3. Data save module

To the data storage modules, the depot (Repository) and the document index (Document index ).[14]

1.4.1 Document index 

The document index contains information in the database to every document.  This results by means of the marking of an identification feature, which is designated in the short letter manner also as a DocID.  The DocID helps discarded become in the sorting of the documents after which it according to the row.  The goal of the document status in the document index is, to save if possible much place for the depot (Repository).  The document status reviewed in the document index whether these URLS is already available or not and works therefore very efficiently and automates. [15] 

The Checksumme serves work off solely in addition tasks more efficiently and is calculated by means of an algorithm.  It possesses the advantage that it should impede the produced code out of a character string of figures and letter.   

A far well known checksumm calculations is the MD5 – algorithm, however the search engine operators use developed one even algorithm.  That itself developed serves algorithm of the search engine operators solely in addition in order to be able to compare two different documents.  If one has the same checksumm for 2 documents, it concerns too usually the same document. 

The document index contains for example static data such as

Type

Time stamp

Side title

Data out of the robot. txt and/or the robot – Meta – day

Status information over the server

Host name and IP – address of the host

The IP – address is required in addition in order quickly to be able to determine the goal person in illegal offences against the law.  The document index it grasps gives grasp all URLs on the Internet, however different ways to that the URL, this can automated or through the registration of the authors over the Web interface result.  Document index is designated also as an URL-database of a search engine operator. [16]