|
|
seo-online-marketing.orgSEO, SEM, Google Analytics, Google Adsense, Google Adwords und Online Marketing |
| SEO Unternehmen SEO Dienstleistung SEO Beratung SEO Referenzen SEO Geschichte SEO Kontakt SEO Impressum |
SEO-Suchmaschinenoptimierung-Geschichte1.Definition SEO (Suchmaschinenoptimierung)Mit
SEO (Suchmaschinenoptimierung) meint man nichts anderes als
veraltetet oder neu erzeugte Webseiten Suchmaschinen gerecht zu
programmieren. Das Ziel der SEO (Suchmaschinenoptimierung)
ist nach bestimmten Suchbegriffen in den Topranking des Google Indexes zu
gelangen, welches beim erfolgreichen positionieren in den Google
Suchergebnisse ersichtlich wird.[1] Es existieren einige Unternehmen und einzelne bis mehrere Webdesigner die SEO (Suchmaschinenoptimierung) anbieten. Jedoch gibt es hier in diesem Bereich recht wenige die diese Tätigkeit professionell darbieten und betreiben. Der Kostenfaktor für eine SEO (Suchmaschinenoptimierung) kann von unter 100€ bis zu mehreren tausend Euro betragen und hängt vom gewünschten Suchbegriff und der Konkurrenz zwischen den anderen Webseiten ab. [2] 1.1 Geschichte der SuchmaschinenDie
erste Suchmaschine hieß Archie und wurde bereits 1990 in Montreal
an der Universität McGill entwickelt. Ihre Aufgabe bestand darin alle
FTP-Verzeichnisse nach dem gewünschten Suchbegriff zu durchsuchen, wie
zum Beispiel in Datei- und Verzeichnisnamen. Das Problem der Suchmaschine
bestand jedoch darin, dass sie, obwohl sie ab 1992 zu den meist genutzten
Internet-Diensten zählte, keine Texte durchsuchen konnte, sondern
lediglich Dateien und Ordner. Dies war auch der Grund dafür, weshalb Sie
für den gewöhnlichen Internet-User bedeutungslos war, jedoch nicht für
die Anwender die aus dem Universitätsbereich kommen. Als
die Gopher Software 1991 entwickelt wurde, bestand ihre Aufgabe darin das
Informationssystem der Universität von Minnesota zu vernetzen. Hierbei
sollte die Software die Verzeichnisse katalogisiert und über eine
Benutzeroberfläche mit Hilfe von AND, OR und NOT die Datenmenge
durchsuchen. Im
Jahre 1993 wurde das WWW zur Nutzung freigegeben, damit entstand auch
der erste Webcrawler, welcher “The Wanderer“ hieß. Daraufhin
wurden immer mehr Spider und Webcrawler-Systeme entwickelt,
welche dass stetig anwachsende Internet durchsuchten um die Webseiten aufzulisten.
Lycos
legte 1994 den Startschuss für die Suchmaschine, die nach den
Suchbegriffen und Worthäufigkeit in Dokumenten suchte.[3] 1.1.1 Geschichte der Suchmaschine GoogleAn
der Stanford University begegneten sich 1995 die beiden Informatik
Studenten Sergey Brin und Larry Page. Jene
entwickelten die Suchmaschine namens BackRub, die die Links
einer Webseite untersucht und somit die Wichtigkeit der dieser
bestimmt.[4] Etwa drei Jahre Später, am 7. September 1998, gründeten sie
dann mit Hilfe eines Startkapitals von ca. 810.000 €, und das sie hauptsächlich
von Familienmitgliedern, Freunde und vor allem dem Mitbegründer von Sun
Microsystems Andreas von Bechtolsheim erhielten, die Firma Google
Inc.. Google
verzeichnete bereits im Februar 1999 über 500.000
Suchanfragen pro Tag in ihrem Büro in Palo Alto. Die Suchanfragen
versechsfachten sich nach der Zusammenarbeit mit AOL und Netscape
und dies bereits im September des selben Jahres. Am 21. September 1999
beendete Google seine Testphase und entfernte den Beta –
Status. Im
Juni 2000 verzeichnete Google mehr als eine Milliarde Seiten
im Google Index und wurde somit zum Marktführer unter den Suchmaschinen.
Die darauf folgenden Jahre baute Google seine Dominanz,
Besucherzahlen und Umsätze stetig aus, dies erfolgte meist durch Aufkäufe
anderer IT – Unternehmen. Dadurch stärkte Google seine
Marktposition und erweiterte ständig seine Produktpalette an Angeboten,
wie zum Beispiel Googlemail, Googlemap, Youtube und so weiter.[5]
Markforschungsunternehmen
Comscore behauptete das im März dieses Jahres Google
erstmalig mehr Besucherzahlen als Microsoft verzeichnen wird und legte zum
Vorjahr, mit einen Wachstum von 13%, zu, wobei Microsoft nur um 4%
gewachsen ist. Obwohl die Besucherzahlen nicht sehr stark voneinander
abweichen konnte Google mit 1 Millionen Besucher mehr
Microsoft schlagen. Diesen Erfolg verdankte Google dem
Aufkauf des so populären und beliebten
Videoportals Youtube.[6] 1.1.2 Geschichte der Suchmaschine YahooYahoo
begann 1994 nicht als eine Suchmaschine sondern als ein Webkatalog
welches die beiden Studenten David Filo und Jerry Yang an
der Stanford Universität in einem Wohnwagen gegründet haben. Die Idee
war es ein Verzeichnis zu erstellen, welches die Lieblingsseiten der
beiden Studenten auflistet. Als die Webseite anfing unübersichtlich zu
werden, fingen sie an diese zu kategorisieren. Die Webseite hieß anfangs
„Jerry’s Guide to the World Wide Web“ und wurde erst später in
Yahoo geändert. Als der Name der Webseite, Yahoo, feststand, sowie
die verbesserte übersicht und Struktur entstand, verzeichnete die
Webseite immer mehr Besucher. Der
Startschuss für Ihren Erfolg begann jedoch erst 1995 als sie von Marc von
Andreesen, zu einer Zusammenarbeit mit Netscape kontaktiert wurden. Im
selben Jahr wurde das Unternehmen Yahoo gegründet, dies wurde dank
des Geldes der Risikokapitalgeber Sequoia Capital ermöglicht. Daraufhin
wurde ein kompetentes Managementteam in das Unternehmen Yahoo
eingegliedert, um im darauf folgenden Jahr an die Börse gehen zu können,
dies ist Yahoo auch erfolgreich gelungen. Zur
gleichen Zeit, entstanden mehrere konkurrenzfähige Suchmaschinen
die diesen neuen und hartumkämpften Technologiemarkt für sich Gewinnen
wollten. Dies
zeigte sich auch in den Aufkäufen mehrerer Suchmaschinenbetreiber,
wie zum Beispiel Inktomi, AltaVista, Overture und
Alltheweb, durch Yahoo
im Jahre 2003.[7] 1.1.3 Geschichte der Suchmaschine MSNMicrosoft
gründete 1995 MSN, welches als reiner Internet Service Provider geplant
war, jedoch zum Guide eines Internet Users verwendet wurde. Außerhalb der
USA war MSN kaum erfolgreich. Dies änderte sich jedoch als Microsoft
gegen den Browserkonkurrenten Netscape erfolgreich gewann. Schließlich
hatten plötzlich alle durch das Windowsbetriebsystem integrierte MSN auf
Ihrer Startseite des Internet Explorer, was sehr dazu beitrug das MSN sehr
bekannt wurde und dies nicht nur in den USA sondern weltweit. Es
besteht jedoch ein kleiner Unterschied zu den anderen Diensten der Suchmaschinenbetreiber,
und zwar hat MSN über Jahre hinweg keinen eigenen Suchdienst gehabt,
sondern die Suchergebnisse anderer Suchmaschinenanbieter übernommen. Dies
geschah noch bis vor kurzem. Trotz alledem hat es Microsoft mit MSN nicht
geschafft eine weltberühmte Marke auf die Beine zu stellen, wie zum
Beispiel Amazon oder Google. Inzwischen
hat Microsoft MSN einen eigenen Suchdienst mit eigener Suchmaschine und
ca. 5 Milliarden Webseiten im Index. MSN gehört zu den weltweit größten populären Internetportalen neben Yahoo und bietet viele Dienste an, wie sein weltweit erfolgreich implementierter Emaildienst Hotmail beweist.[8] 1.2 Meta-SuchmaschinenEine
Meta-Suchmaschine ist eine Auflistung und Ansammlung von verlinkten
Informationen, welche von den Suchmaschinenbetreiber wie z.B. Google,
Yahoo und weiteren nicht zur Verfügung gestellt werden. Diese
Daten oder Informationen werden von den Suchmaschinenbetreiber nach bestimmten Kriterien ausgewählt, beispielsweise nach Themen die von
allgemeinem Interesse sind oder aktuelle Nachrichten und Schlagzeilen. Aus
diesen Gründen werden nur 1/3 des World Wide Web erfasst.[9] 1.2.1 EinsatzgebietDie Meta-Suchmaschinen kommen erst zum Einsatz, wenn spezielle Informationsbedürfnisse vorhanden sind (spezielle Suchanfragen nach Büchern, Pkw´s, usw.). Die Bedeutung dieser Meta-Suchmaschinen nimmt ständig zu, da hier viel mehr auf die Informationsbedürfnisse des Users eingegangen werden kann. Meta-Suchmaschinen bieten eine Informationsdienstleistung für bestimmte Usergruppen die Interesse an diesem Fachgebiet haben.[10] 1.3 Erklärung der Funktionsweisen der SuchmaschinenDas
Funktionsprinzip ist bei allen Suchmaschinen Identisch. Zunächst
werden die Informationen einer Webseite herunter geladen. Diese Aufgabe
wird vom Webcrawler-System übernommen, der wie ein Internetsurfer
die ganzen Informationen sammelt. Anschließend werden die gesammelten
Informationen Indexiert und dem Query Server als Abfragemodul den Nutzern
der jeweiligen Suchmaschine ( Google, Yahoo,
MSN, etc. ) zur Verfügung gestellt. Die Nutzer sehen dann
die Suchergebnisse die vom Webcrawler-System gesammelt und von
Index bereitgestellt als schematisch strukturierter Index.[11] 1.3.1 Google FunktionsweiseDer
Erfolg von Google resultiert aus der Einbeziehung der Links
in die Berechnung des Rankings. Denn desto beliebter eine Webseite ist,
desto häufiger wird Sie verlinkt. Nach diesem Prinzip wurde der Pagerank-Algorithmus
von Larry Page, dem Google-Mitbegründer, erfunden
der die Qualität der Suchergebnisse bei Google um ein
vielfaches verbesserte.[12] 1.3.2 Yahoo FunktionsweiseDer
Yahoo slurp ( Yahoo Crawler ) benutzt den Linkpopularitätsalgorithmus
auf der selben Art und Weise wie Google, jedoch besteht ein
kleiner Unterschied zu ihm, und zwar hat der Yahoo slurp keinen Pagerank
wie Google, dennoch ist er häufiger am Crawlen manchmal
sogar beständiger als der GoogleBot.[13] 1.3.3 Probleme bei der Analyse einer SuchmaschineDas
Geheimhaltungsprinzip der großen Suchmaschinen stellt sich als eines der
größten Probleme dar, weil sich die Analyse dadurch um ein vielfaches
erschwert und es nur ersichtlich wird, wenn man in den Ergebnisausgaben
der Suchmaschinenbetreiber von Google oder Yahoo seine Seite indexiert
sieht. Der Grund für das Geheimhaltungsprinzip ist vermutlich, dass die Gefahr zu groß ist und die Konkurrenten Einblicke in das System oder Konzept der Suchmaschinenbetreiber haben könnten. 1.4 Dokumentgewinnung mit dem Webcrawler-SystemDas
Webcrawler-System ist zuständig für die Datenbeschaffung und die
Aktualisierung der beschafften Daten. Sie dient sozusagen als Schnittstelle
zum WWW und umfasst drei Arten von Modulen.
Das Protokollmodul steht als Client in
direktem Kontakt zu den Servern des WWW und ist sozusagen die
Schnittstelle zwischen WWW und den Crawlern.
Sie sind zuständig für das Verarbeiten
und Speichern der neu eingetroffenen Daten / Informationen. Diese werden
durch den Scheduler und Storeserver bearbeitet, wobei der Storeserver auch
noch zu den Protokollmodulen gezählt
werden kann, da er teilweise die Auswertung der HTTP – Daten übernimmt.
Zu dem Datenspeicherungsmodulen zählen das Depot ( Repository ) und der Dokumentenindex ( Document index ).[14] 1.4.1 DokumentenindexDer Dokumentenindex enthält zu jedem Dokument Informationen in der Datenbank. Dies erfolgt mit Hilfe der Kennzeichnung eines Identifikationsmerkmals, welches in der Kurzschreibweise auch als DocID bezeichnet wird. Die DocID hilft bei der Sortierung der Dokumente nach welcher sie der Reihe nach abgelegt werden. Das Ziel des Dokumentenstatus im Dokumentenindex ist, möglichst viel platz für das Depot (Repository) zu sparen. Der Dokumentenstatus überprüft im Dokumentenindex ob diese URL schon vorhanden ist oder nicht und arbeitet somit sehr effizient und automatisiert.[15]
Die
Checksumme dient lediglich dazu Aufgaben effizienter abzuarbeiten und wird
mit Hilfe eines Algorithmus berechnet. Sie besitzt den Vorteil, dass sie
aus einer Zeichenfolge von Ziffern und Buchstaben den erzeugten Code
erschweren soll. Eine
weit bekannte Checksummenberechnung ist der MD5 – Algorithmus, jedoch
verwenden die Suchmaschinenbetreiber einen selbst entwickelten
Algorithmus. Der selbst entwickelte Algorithmus der Suchmaschinenbetreiber
dient lediglich dazu, um zwei unterschiedliche Dokumente vergleichen zu
können. Falls man die gleiche Checksumme für 2 Dokumente hat, handelt
es sich zu meist um das gleiche Dokument. Der
Dokumentenindex enthält z. B. statische Daten wie §
Typ §
Zeitstempel §
Seitentitel §
Daten aus der robot.txt bzw.
dem robot - Meta – Tag §
Statusinformationen über
den Server §
Hostname und IP - Adresse
des Hosts Die
IP – Adresse wird dazu benötigt, um bei rechtswidrigen Verstößen
gegen das Gesetz die Zielperson schnell ermitteln zu können. Das
Dokumentenindex erfasst alle URL’s im Internet, es gibt aber unterschiedliche
Wege zum erfassen der URL, dies kann automatisiert oder durch die
Anmeldung der Autoren über das Webinterface erfolgen. Dokumentenindex
wird auch als URL-Datenbank eines Suchmaschinenbetreibers bezeichnet.[16] 1.4.2 SchedulerDer
Scheduler dient als zentrale Instanz welcher den ausgewählten Crawler die
Aufträge verteilt und koordiniert. Alle notwendigen Informationen
werden vom Dokumentenindex an den Scheduler weitergeleitet. Jedoch ist die
Vorgehensweise der einzelnen Suchmaschinenbetreiber anders, da sie die Art
und Weise des Erfassens der URL’s festlegen. Es werden hierfür mehrere
Crawler benötigt, um die Lastenverteilung besser regeln zu können und
dass erfassen der Imensen Anzahl an Webseiten ermöglichen zu können. Die
Lastenverteilung ist auch nur möglich, weil der Scheduler ständig mit
den Crawler kommuniziert und anhand eines Status den er vom Crawler erhält
weiß der Scheduler ob dieser Crawler verfügbar ist oder nicht. Ein
Vorteil am Crawler ist, dass er selbständig die Ergebnisse an den
Storeserver weiterleitet. Jedoch erkennt der Crawler erst die
Fehlermeldung einer URL beim aktualisieren der Daten. Da der Storeserver
die Daten automatisiert vom Crawler bekommt leitet er sie weiter an den
Dokumentenindex welche die ausgewählte URL aus der Datenbank entfernt. Die
Gewichtung der URL geschieht mit Hilfe des Dokuments welches von
Scheduler bestimmt wird und diese dann weiter an den Crawler
leitet. Eine hohe Gewichtung bekommen die Dokumente die häufiger
aktualisiert werden als andere. Damit kann der Crawler festlegen welche
Dokumente er häufiger besucht und welche nicht. Weitere
bedeutende Gewichtung der Kriterien ist die Verzeichnungstiefe eines
Dokuments z. B. www.domain.de/inhalt/sonstiges/datei.html Der
Scheduler würde dem Dokument datei.html die Tiefe 2
geben dies würde bedeuten, dass das Verzeichnis Inhalt die Tiefe 0
bekommt. Der Grund für diese explizite Unterscheidung ist, dass tiefer
liegende Dokumente eine geringere Bewertung von den Robots der Suchmaschinen
erhalten, als Dokumente die höher
in der Verzeichnisstruktur liegen. Der Vorteil bei dieser Unterscheidung
ist das Informationen die höher liegen in unserem Fall wäre dies die
Tiefe 0, häufiger von den Crawler besucht werden als Tiefer liegende
Dokumente.
Tiefe ?
0 Hoch
Tiefe ?
10 Niedrig Ein weiteres Unterscheidungsmerkmal wäre hier nach IP - Adressen zu gruppieren, jedoch ist die Methode der Gruppierung bei jedem Suchmaschinenbetreiber anders.[17] 1.5 CrawlerEin
Crawler ist die einzige Komponente welche außerhalb der Suchmaschine
arbeitet. Sie ist auch bekannt unter der Bezeichnung Webwanderer,
Webcrawler, Robots oder Spider. Der Crawler kommuniziert ständig mit dem
Web- und den DNS-Server. Aufträge werden dem Crawler vom Scheduler
erteilt und werden dann in der URL-Datenbank verglichen, um bei bedarf
entweder gelöscht, aktualisiert oder umbenannt zu werden. Crawler
werden in Form eines Zusammenschluss von mehreren Crawler-Prozesse
vernetzt, um Ausfälle zu verringern und effizienter die Prozesse zu
bearbeiten. Sie werden mit Linux – Rechnern betrieben, um geringere
Anschaffungskosten, Hardwareausstattung und Wartung zu haben. Der Vorteil
dieser vernetzen Crawler-Prozesse ist, dass ausgefallene Crawler keinen
Auftrag mehr vom Scheduler bekommen. Alle
Crawler besitzen einen temporären DNS – Cache der die IP-Adresse
umwandelt in eine DNS-Adresse. Der DNS – Cache wird hier benötigt um
die Bandbreite zu verringern, welches durch wiederholte DNS – Abfragen
unnötig belastet werden kann. Somit erfolgen nur noch DNS – Abfragen,
wenn die URL nicht im DNS – Cache zu finden ist. DNS – Anfragen werden
mit einer so genannten TTL ( Time to Live ) in den DNS – Cache rein
geschrieben. Der Scheduler überwacht und verteilt die Aufträge an die
DNS – Sektoren vollautomatisiert. Der
DNS – Cache wird benötigt um einen HTTP – Request an die gewünschte
IP – Adresse zu senden, wodurch er die angeforderte Ressource mit Hilfe
der GET – Methode erhält. Durch die steigende Multimediatechnologie im Internet sind einzelne darauf spezialisierte Webcrawler entwickelt worden, die die Flash – Animationen erfassen und analysieren können. Jedoch sind die Funktionalitäten dieser spezialisierten Webcrawler aus Kosten und Speicher gründen noch nicht auf alle anderen Webcrawler vorhanden, denn dies würde die Effizienz der Crawler erheblich beeinflussen.[18] 1.6 StoreserverDer
Storeserver dient zur Sicherung der Daten die er vom Webcrawler erhält.
Er besteht im Detail aus den http – Request, Dokumenttyp, Dublettenerkennung,
URL-Filter und weiteren Komponenten. Storeserver
hat folgende Aufgaben 1. Die HTTP – Response – Header
Information die er vom Crawler erhält auszuwerten.
2. Den Dokumentenindex auf den neusten Stand updaten. 3. Alle erfolgreich übermittelten
Informationen werden mit Hilfe bestimmter Filter einer Aufnahmeprüfung
unterzogen. Für fehlerhafte HTML-Dokumente erhält der Crawler in der HTTP – Response einen Statuscode zurück der die Ursache des Fehlers beschreibt. Statuscode und Header – Informationen wertet der Storeserver aus. Zur Überprüfung der Aktualität des Datenbestandes wird der If – Modified – Since – Header verwendet.[19]
Es gibt unterschiedliche Statuscode die der Storeserver verarbeiten muss,
diese sind z. B.
Statuscode
200 ( ok ) Bedeutet
die URL existiert, weshalb die Anfrage des Dokuments vom Storeserver
verarbeitet werden kann. Der Dokumentenindex aktualisiert die Header –
Informationen aus der HTTP – Response.
Statuscode
301 ( Moved Permanently ) Bedeutet
dass kein Dokument mehr unter der abgefragten URL zu finden ist. Es wird
die neue URL im Dokumentenindex aktualisiert und die alte überschrieben.
Die Aktualisierung der URL erfolgt im Google-Index der Suchergebnisse alle
6 – 8 Wochen.
Statuscode
302 ( Moved temporarily ) Bedeutet
nichts anderes als das diese URL nicht erreichbar ist, die URL ist unter
einer anderen URL erreichbar, welche in der Response angegeben wird.
Statuscode
304 ( Not Modified ) Bedeutet
dass die HTTP – Request dem Storeserver mitteilt dass seit der letzten
Aktualisierung keine änderung stattgefunden hat. Dies hat zur Folge, dass
diese URL weniger von den Crawlern besucht wird.
Statuscode
401 ( Unauthorized ) Bedeutet
das die URL bestimmte Zugriffsrechte nicht erfüllt und die Suchmaschine
somit glaubt keine für die Allgemeinheit relevanten Informationen zu
findet. Aus diesem Grund löscht der Storeserver auch diese URL. äquivalent
hierzu ist auch der Statuscode 403 ( Forbidden ).
Statuscode
404 ( Not Found ) Bedeutet
dass die URL und die dazu beigefügten Daten nicht mehr vorhanden sind,
was zur Löschung der URL im Dokumentenindex führt, dies geschieht durch
die Anweisung des Storeserver.
Statuscode 414 ( Request URL too long ) Bedeutet
nichts anderes als dass die URL zu lang ist und der Eintrag gelöscht
wird, da dieser nicht ordnungsgemäß verarbeitet werden kann.
Statuscode
500 ( Internal Server Error ) Bedeutet
dass der Storeserver bei angefragten URL’s, die durch einen Fehler häufig
nicht antworten, entweder aus dem Dokumentenindex entfernt oder markiert.
Statuscode
503 ( Service Unavailable ) Das
bedeutet, dass falls der Server auf eine Anfrage nicht antwortet, dies vom
Storeserver markiert wird, um die betroffene URL zu einem späteren
Zeitpunkt wieder zu besuchen.
Die
Datenkonsistent wird im Dokumentenindex vom http-Response-Header entnommen
und, durch das Auswerten und anschließende Aktualisieren der Daten im Dokumentenindex, gesichert. Mit Hilfe des Statuscode wird auf die
einzelnen, unterschiedlichen Fehler eingegangen, womit man die Art des
Fehlers im Storeserver erkennt. Im Storeserver wird nochmals eine Prüfung
durchgeführt, welches das Dokument nach den Kriterien der Speicherungswürdigkeit
und Verarbeitbarkeit analysiert, um dieses Dokument bei bestandener Prüfung
an den Storeserver weiterzuleiten. Dies sind wichtige Kriterien für Webdesigner, weil an diesen Punkten die Suchmaschine entscheidet, ob die
Informationen der Webseite angenommen wird oder nicht. Es erweist sich
als sehr hilfreich die Regeln der Suchmaschinenbetreiber zu befolgen, da
bei Anzeichen dafür, dass man mit nicht fairen Mitteln arbeite, damit zu
rechnen ist, dass man aus dem Index der Suchmaschinenbetreiber entfernt
wird. 1.6.1 DokumenttypAutomatisierte Informationen aus Audio- und Videoressourcen zu erhalten ist derzeit noch nicht möglich. Es werden nur die Medientypen ausgewählt die, in der HTTP – Response der MIME – bzw. Content – Type – Header, Suchmaschinenorientierte Angaben eingefügt haben.[20] 1.6.2 DublettenerkennungIhre
Aufgabe besteht darin einen Vergleich zwischen 2 URL’s durchzuführen
und Ähnlichkeiten beim Inhalt der Webseite aufzudecken. Ein Beispiel
hierfür wären diese beiden (diese folgenden Domains
existieren nicht; dienen nur als Beispiel)
URL´s, mit dem gleichen Unterverzeichnis. 1. www.digob.com/si/merih.html 2. www.digob.com/hallo/merih.html Wie
sie am folgenden Beispiel erkennen können, kann die gleiche IP-Adresse im
DNS-Server mit dem gleichen Unterverzeichnis zu unterschiedlichen
Inhalten führen. Jedoch können auch unterschiedliche IP-Adressen mit
demselben Unterverzeichnis zu unterschiedlichen Dokumenten führen. Dies
sind die Gründe warum neben der URL auch der Inhalt überprüft wird. Bei
einem ähnlichen Inhalt kann es zu einer Ablehnung der URL kommen, da
die Suchmaschine den Inhalt in ihrer Datenbank überprüft. Jedoch gilt nicht das gleiche für Dokumente die den gleichen Inhalt besitzen, aber auf verschiedenen IP-Adressen liegen. Hier gibt es dafür die Checksumme die jedem Dokument ein eindeutiges Identifikationsmerkmal vergibt. So können nämlich die Dokumente eindeutig auf ihren Inhalt identifiziert werden.[21] 1.6.3 URL - FilterEs
gibt mehrere Kriterien zur Überprüfung der URL und vor der Aufnahme in
das Repository, wie Sie an den folgenden Beispielen erkennen können.
Ein Beispiel hierfür wäre die Black List. Dies
ist ein Verzeichnis in denen sich alle nicht zulässigen Wörter befinden
die entweder als unmoralisch, rassistisch oder sexistisch gelten. Falls
diese Wörter im Inhalt einer URL im Internet vorhanden sind, werden
diese unerwünschten URL’s aus dem Index der Suchmaschinenbetreiber gelöscht. Weitere
Zulassungsbeschränkungen für URL sind dass festlegen einer maximalen
Anzahl an Subdomains für eine Domain. Mit Hilfe von Sonderzeichen können
auch dynamisch erzeugte Dokumente erkannt werden, da hier bei einer
gleichen Anfrage einer URL unterschiedliche Dokumente entstehen können.
Jedoch gelten hier auch Beschränkungen, falls die Anzahl der URL’s und
Dokumente überschritten wird, sowie die Verzeichnistiefe als zu tief
bewertet wird.[22] 1.7 RepositoryDie
Daten einer Webseite kommen erst in das Repository, dies aber auch nur
wenn alle notwendigen Kriterien dafür erfüllt sind. Die Daten werden im
Repository mit einer DocID versehen und als Lokale Kopie gespeichert. Hier
wird meistens der HTML-Code abgespeichert der sich auf einer
Webseite befindet. Damit
der Speicherplatz des Repository effektiv genutzt wird, werden die Daten
komprimiert, dies kann entweder vom Storeserver oder vom Repository
durchgeführt werden. Falls sich jedoch im Laufe der Zeit aktuellere Daten
auf einer Webseite befinden, werden automatisch die alten Daten ersetzt.
Grundsätzlich wird das Resultat von der Arbeit des Webcrawler-Systems im
Repository erfasst und abgelegt. Diese Daten liegen zum Abruf bereit, was
an den beigefügten Cache bei Eingabe eines Suchwortes in Google
ersichtlich wird.[23] 2. SEO(Suchmaschinenoptimierung) an der Webseite2.1 Optimierung oder Neu-DesignZur Suchmaschinenoptimierung müssen folgende Kriterien vorhanden sein, wie z.B. die Auswahl des Suchbegriffs und der Quellcode der zu bearbeitenden Seite. Bevor
man mit der Bearbeitung der Webseite anfängt sollte man sich vorher
Gedanken machen, ob man die Seite Optimiert oder neu gestaltet. Hierzu wäre
es von Vorteil wenn man ein
Konzept entwickelt, welches die Vor- und Nachteile sowie den Aufwand einer
Suchmaschinenoptimierung oder eines neu Designs einschätzt. Die Gründe einer
umfassenden Überlegung sind, eine
2.2 Ranking - Kriterien der wichtigsten SuchmaschinenUm unter den ersten 10 Plätzen bei den Suchmaschinen zu stehen, ist es wichtig die Kriterien der Suchmaschinenbetreiber zu kennen. Diese sind jedoch nicht einfach zu ermitteln, da man hier nur durch Spekulation, Erfahrungswerte und Analyse der Position, entweder durch die eigene oder anderen Mitbewerber-Webseiten, die sich eventuell auch auf der ersten Seite bei bestimmten Suchergebnissen befinden, weiter kommt. Als Empfehlenswert gilt jedoch das Zusammenspiel der einzelnen Kriterien; dies würde nämlich ein positives Ergebnis herbeiführen was sie an den folgenden Abbildungen 6-8 erkennen können.[25] Die
größten Suchmaschinen in Deutschland, mit den meisten Suchanfragen, sind
an erster Stelle Google, zweiter und dritter Stelle Yahoo und MSN, sowie
T-online und lycos, die jedoch nur einen kleinen Anteil haben von 2%.[26] 2.2.1 Googles Kriterien für SEO(Suchmaschinenoptimierung)Google
setzt auf hochwertige qualitative Webseiten die in Ihrem Umfang ausreichende
Backlinks haben. Falls diese Backlinks noch die erfüllten Keywords
enthalten führt das höchstwahrscheinlich zu einer besseren Bewertung der
Webseite. Außerdem spielen der PageRank, als auch viele
Indexseiten, wie es zum Beispiel bei wikipedia.de, amazon.de oder ebay.de
der Fall ist, eine große Rolle. Dies ist in den meisten Fällen auch der
Grund für Ihre Top Positionen bei den vielen Suchanfragen auf den Suchmaschinen.
Weitere wichtige Kriterien sind auch noch die URL und die Titelleiste,
wobei die Meta-Angaben von Google eher weniger Beachtung findet. Google
bewertet gute Backlinks mit der gesuchten Suchanfrage und einer höheren
Gewichtung, als ein Keyword in einer Webseite.[27] 2.2.2 Yahoo Kriterien
|