Otto-von-Guericke-Universität Magdeburg

Thema:

Analyse und Optimierung des indexbasierten Suchmaschinen-Marketings am Beispiel einer touristischen Online-Plattform.

Diplomarbeit

Arbeitsgruppe

Themensteller: Jan Lammers, e-hoi GmbH & Co.KG, Frankfurt am Main Betreuer: Professor (Jun.-Prof.) Andreas Nürnberger vorgelegt von: Oleksander Bazalukov Friedrichsring 49 63069 Offenbach am Main 069-98664114 E-Mail: [email protected]

Abgabetermin: 13. März 2007 II

Inhaltsverzeichnis

Inhaltsverzeichnis ...... II Verzeichnis der Abkürzungen und Akronyme ...... IV Symbolverzeichnis...... V Abbildungsverzeichnis ...... VI Tabellenverzeichnis...... VIII 1 Einführung ...... 1 2 Suchdienste im ...... 3 2.1 Bedeutung der Suchdienste für das Internet...... 3 2.2 Ein Überblick von Suchdiensten im Internet ...... 3 2.2.1 Kataloge und Verzeichnisse...... 4 2.2.2 „Klassische“ Suchmaschinen...... 7 2.2.3 Meta-Suchdiensten...... 9 2.3 Suchmaschinen-Markt in Deutschland...... 11 3 Suchmaschinen-Marketing als ein wichtiger Baustein des Unternehmen-Marketings17 3.1 Historische Entwicklung...... 17 3.2 Definition und Formen des Suchmaschinenmarketings...... 19 3.3 Bedeutung von Suchmaschinen für ein Online-Unternehmen...... 23 4 Indexierung von Dokumenten und Rankingverfahren der Suchmaschine ...... 25 4.1 Indexierung von Dokumenten...... 25 4.2 Funktionweise der Suchmaschinen an Beispiel ...... 26 4.3 Informationsstatistische Verfahren des Suchmaschinen-Rankings...... 28 4.3.1 Textstatische Verfahren...... 28 4.3.2 Nutzungsstatistische Verfahren...... 31 4.4 Linktopologische Rankingverfahren der Suchmaschinen...... 32 4.4.1 Konzept der Link-Popularität...... 33 4.4.2 PageRank-Verfahren...... 34 4.4.3 HITS-Verfahren ...... 38 4.4.4 Hilltop-Verfahren...... 40 5 Verfahren zur Optimierung der Indexierung und des Rankings von Web-Seiten...... 42 5.1 OnPage Suchmaschinen-Optimierung ...... 42 5.1.1 Auswahl der Suchbegriffe...... 42 5.1.2 Optimierung der Struktur der Web-Seite ...... 43 5.1.3 URLs-Design ...... 45 5.1.4 Optimierung der Meta-Informationen...... 47 5.1.5 Optimierung der Inhalten der Seite...... 49 5.1.6 Auslagerung der und Styles in externe Dateien...... 51 5.2 OffPage Suchmaschinen-Optimierung...... 52 III

5.3 Spam-Techniken bei der Optimierung von Web-Seiten ...... 54 6 Analyse der Web-Seite www.e-hoi.de und die Durchführung der notwendigen Optimierungsmaßnahmen...... 59 6.1 Stammdaten der Seite ehoi.de und Auszug der Statistiken...... 59 6.2 Auswahl der Suchbegriffen und Ermittlung ihrer Positionen in Google ...... 61 6.3 Erstellung eines neuen Bereiches für die Reiseziele...... 63 6.4 Optimierung der Seiten-Struktur...... 66 6.5 Optimierung der URLs und Header-Informationen ...... 69 6.6 Optimierung der Inhalten ...... 72 6.7 Auslagerung der QuelleCodes...... 75 6.8 Analyse und Durchführung der OffPage Maßnahmen...... 77 7 Controlling der Ergebnisse...... 79 8 Zusammenfassung ...... 84 A Suchbegriffanalyse bei der wichtigsten Suchmaschienen ...... 86 Literaturverzeichnis...... 95

IV

Verzeichnis der Abkürzungen und Akronyme

AOL American Online API Application Programmer Interface bzw. beziehungsweise ca. zirka CSS Cascading Style Sheets d.h. daß heißt DocID Document Identification EDV Elektronische Datenverarbeitung etc. und so weiter GmbH Gesellschaft mit der begrenzten Haftung HTML HyperText Markup ID Identification IDF Inverse Document Frequency i.d.R. in der Regel IP Internet Protocol IRS Information-Retrieval-Systeme ISAPI Internet Server API Kb Kilobyte Mb Megabyte MSN Microsoft Network o. b. d. A. ohne Beschränkung der Allgemeinheit o. Jg. ohne Jahrgang o. O. ohne Ort o. V. ohne Verfasser PHP PHP Hypertext Preprocessor PR Page Rank pt Point SEM Marketing SEO Search Engine Optimization SQL Structured Query Language TF Term Frequency UK United Kingdom URL Uniform Resource Locator US United States WWW XML Extensible Markup Language z.B zum Beispiel z.Z. zur Zeit

V

Symbolverzeichnis

% Prozent a Anzahl Ap Authority-Gewicht des Dokumentes P C(T) Gesamtanzahl der Links des Dokumentes T d Dämpfungsfaktor ft Anzahl der Dokumenten, die den Suchbegriff t enthalten h Häufigkeit Hp Hub-Gewicht des Dokumentes P log Logarithmus ND Anzahl der Dokumenten PR(T) PageRank Dokumentes T t Term

VI

Abbildungsverzeichnis

Abb. 2.1 Beispiel für eine Katalog-Striktur...... 5 Abb. 2.2 Ein Beispiel für die Archetiktur einer Suchmaschine...... 8 Abb. 2.3 Suchmaschinen-Markt in USA (Clay 2006)...... 13 Abb. 2.4 Beziehungsgeflecht der Suchmaschinen in Deutschland (Karzauninkat 2004)14 Abb. 2.5 Suchmaschinen-Marktanteile in Deutschland ...... 15 Abb. 3.1 EyeTracking Study ...... 22 Abb. 3.2 Klick-Wahrscheinlichkeit nach EyeTracking Study ...... 22 Abb. 4.1 Architektur der Suchmaschine Google...... 27 Abb. 4.2 Ein Beispiel für die Eigenschaften des PageRanks ...... 36 Abb. 4.3 Hubs- und Authorities-Beziehungen beim HITS-Verfahren...... 39 Abb. 5.1 Ein Beispiel für eine flach strukturierte Seite...... 44 Abb. 5.2 Ein Beispiel für eine tief strukturierte Seite ...... 44 Abb. 5.3 Ein Beispiel für die Surfase- und Deep-Web ...... 46 Abb. 5.4 Vermietung von Backlinks im Internet-Auktionshaus eBay...... 54 Abb. 5.5 Ein Beispiel für die Crosslinking-Struktur ...... 57 Abb. 6.1 Ergebnisse des Google Trends nach dem Vergleich der Wörter "Kreuzfahrt" und "Kreuzfahrten"...... 62 Abb. 6.2 Die Ergebnisse der Abfrage der Omniture-Datenbank durch den Online-Tool der Seite www.ranking-check.de nach dem Wort "kreuzfahrten"...... 64 Abb. 6.3 Ein Beispiel für eine Reiseziel-Seite von www.e-hoi.de...... 65 Abb. 6.4 Ein Beispiel für die Integration der zusätzlichen Verlinkungen auf einer Schiff- Seite von www.e-hoi.de...... 67 Abb. 6.5 Ein Beispiel für die Integration der zusätzlichen Verlinkungen auf der Suche- Seite von www.e-hoi.de...... 68 Abb. 6.6 Ein Beispiel für die Anzeige der Suchphrase "Afrika Kreuzfahrten" in der Ergebnissliste der Suchmaschine Google...... 72 Abb. 6.7 Ein Beispiel für die Anzeige der Überschriften h1, h2, h3 und h4 nach HTML- Formatierungen ohne CSS...... 73 Abb. 6.8 Ein Beispiel für die Anzeige des Überschriftes h1 nach CSS-Formatierung ...73 Abb. 6.9 Ein Beispiel für die Optimierung der Inhalten einer Reiseziel-Seite von www.e-hoi.de...... 74 Abb. 6.10 Ein Beispiel für die Anzeige des Buttons "GO" auf einer Seite von www.e- hoi.de ...... 75 Abb. 7.1 Statistik für die Einstiegseiten aus dem Bereich „Schiffe“ der Präsenz e-hoi.de79 Abb. 7.2 Statistik für die Einstiegseiten aus dem Bereich „Reedereien“ der Präsenz e- hoi.de ...... 80 VII

Abb. 7.3 Statistik für die Einstiegseiten aus dem Bereich „Routen“ der Präsenz e-hoi.de80 Abb. 7.4 Statistik für die Einstiegseiten aus dem Bereich „Reiseziele“ der Präsenz e- hoi.de ...... 81 Abb. 7.5 Statistik für die Buchungsanfragen...... 81

VIII

Tabellenverzeichnis

Tab. 4.1 Iterative Berechnung des PageRankings ...... 37 Tab. 5.1 Auswahl an Tags zur Hervorhebung von Termen mittels HTML ...... 50 Tab. 6.1 Stammdaten der Web-Präsenz www.e-hoi.de...... 59 Tab. 6.2 Besucher-Statistik der www.e-hoi.de (Aug.2005-Aug.2006) ...... 60 Tab. 6.3 Ein Beispiel für die Positionen der Suchbegriffe in der Ergebnissen wichtiger Suchmaschinen ...... 62 Tab. 6.4 Titel und Meta-Informatioene nach der Optimierung der wichtigen Seiten der www.e-hoi.de...... 71 Tab. 7.1 Besucher-Statistik der www.e-hoi.de (Aug.2005-Jan.2007)...... 79 Tab. 7.2 Ein Beispiel für des Vergleich der Positionen der Suchbegriffe in der Ergebnissen wichtiger Suchmaschinen im August 2006 und Januar 2007 ..82

1

1 Einführung

Insgesamt nutzten Verbraucher vor ca. jedem zweiten Online-Kauf eine Suchmaschine zur Entscheidungsfindung. Im Falle der Tourismus-Branche nutzten sogar nahezu drei von vier Käufern zuvor eine Suchmaschine.1

Die rasant wachsenden Informationen im Internet haben dazu geführt, dass Suchmaschinen zu einem unverzichtbaren Instrument zur Bewältigung dieser Informationsflut werden. Beim Auffinden von Informationen entscheiden Suchmaschinen darüber, welche Informationen für Nutzer zugänglich sind und welche verborgen bleiben.

Aufgrund der steigenden Nutzung der Suchmaschinen hat auch die Suchmaschinenoptimierung zunehmend an Bedeutung gewonnen. Der Begriff lässt sich wie folgt definieren:

„Im allgemeinen Sprachgebrauch bedeutet Suchmaschinen-Optimierung, die Inhalte und Struktur einer Seite derart gezielt zu verändern, dass sie bei den Suchmaschinen eine obere Rangposition erhält.“2 Jede Web-Präsenz hat das grundsätzliche Ziel, die Besucherzahlen zu maximieren. Vor allem bei kommerziellen Web-Seiten entscheiden die Besucherströme oftmals über den Erfolg oder Misserfolg des Unternehmens. Wenn die Produkte über das Internet verkauft werden, sind starke Besucherzahlen gleichbedeutend mit höhen Umsätzen. Somit ist es für die Betreiber der Web-Seiten wichtig in Suchmaschinen gefunden zu werden.

Das Ziel dieser Arbeit ist die Erforschung des Suchmaschinen-Marktes und – Mechanismen, Methoden für die Suchmaschinenoptimierung von Web-Seiten und der Einsatz gewonnener Erkentnisse für die Optimierung der Web-Präsenz der e-hoi GmbH, einer Online-Buchungsplattform für die Kreuzfahrten. Es soll herausgestellt werden, welche OnPage Einflussfaktoren existieren und mit welchen Maßnahmen das Ranking der Seite bezüglich relevanter Suchbegriffe verbessert werden kann.

Zunächst wird einführend auf das Themengebiet der Suchdienste und des Suchmaschinenmarktes in Deutschland eingegangen, wobei wichtige Zusammenhänge

1 Vgl. DoubleClick Inc (2005), S. 3 ff 2 Erlhofer (2005a), S. 167 2

erläutert und für das Verständnis der Arbeit notwendige Begriffe definiert werden. Darüber hinaus wird das Suchmaschinen-Marketing und seine Bedeutung für ein Unternehmrn unter die Lupe genommen. Weiterhin wird näher zu den Suchmechanismen, Rankingfaktoren und Optimierungsmethoden bei den Suchmaschinen eingegangen. Anhand dieses Basiswissens werden konkrete Möglichkeiten der OnPage-Optimierung für die Web-Seiten aufgezeigt und für die Web-Präsenz der e-hoi GmbH umgesetzt. Anschliessend ist eine Effizienz der durchgeführten Optimierungen zu bewerten.

3

2 Suchdienste im Internet

2.1 Bedeutung der Suchdienste für das Internet

Man kann das Internet als ein hypertextbasiertes System betrachten - die vorhandenen Informationen sind über verschiedene Web-Seiten verteilt. Alle Seiten sind mit der Hilfe der Hyperlinks miteinander verbunden. Die Unterschiede zu vielen anderen Hypertextsystemen sind, dass die Informationen und Inhalte des WWW sich nicht auf einem zentralen Datei- bzw. Datenbanksystem befinden, sondern auf weltweit verteilten Servern gespeichert.3 Um auf diese Inhalte gezielt zuzugreifen, benötigt man sehr oft spezielle Navigationsinstrumente. Die Internet-Suchdienste haben diese Aufgabe vollständig übernommen. Da ein zentrales Verzeichnis oder eine Registratur aller Internetinhalte nicht existiert, man ohne Hilfe der Suchdiensten nicht die notwendige Informationen im Internet finden kann. Man kann wohl sagen, dass ohne das Angebot der Suchdienstleistungsanbieter das Internet aufgrund der nichtzentralisierten Organisation nutzlos und wertlos wäre. Wenn man als Internet-Nutzer die elektronische Adresse des Zielservers nicht kennt, ist das Internet für ihn nicht mehr als eine riesige unsystematische Bibliothek ohne Ordnung, wo ein benötigtes Buch einfach nicht zu finden ist. Die Aufgabe von Suchdiensten ist, Ordnung in dieses Chaos zu bringen, was Angesichts der enorm umfangreichen und ständig schnell wachsenden Datenbestände des eine gigantische Herausforderung ist. Die Suchdienste des Internet stellen mittlerweile neben traditionellen Medien wie Zeitungen und Fernsehen und klassischen Informationsdiensten, wie etwa Bibliotheken, zunehmend das zentrale Hilfsmittel zur Befriedigung von Informationsbedürfnissen dar.

2.2 Ein Überblick von Suchdiensten im Internet

Um mit der Datenflut im Internet fertig zu werden, braucht man die Hilfsmittel, die bei der Informationsbeschaffung zur Seite stehen. Sehr selten kennt man gerade die richtige Adresse einer Webseite, welche die gewünschte Information enthält und das ziellose Surfen ist in den meisten Fällen nicht erfolgreich. Unter allen Rechnern im Internet gibt es Server, die ein Angebot speziell für die Informationsbeschaffung zur Verfügung stellen. Solche Werkzeuge für den Informationszugriff nennt man Informationsdienste.

Man behandelt die drei wichtigsten Typen von Informationssystemen:4

3 vgl. Meinel & Sack (2004), S.195,ff 4 vgl. Glöggler (2003), S. 1 4

• Katalogsysteme kann man mit einem Branchentelefonbuch vergleichen. Die einzelnen Einträge sind in vorgegebene Kategorien eingeteilt. Die Kategorien sind häufig hierarchisch geordnet.

• Suchsysteme (auch Information-Retrieval-Systeme oder Suchmaschinen genannt) stellen Funktionen zur Dokumentensuche bereit. Bei einer Suchanfrage liefert eine Suchmaschine eine Liste von Dokumenten, welche die gewünschte Information enthalten sollen.

• Meta-Suchsysteme sind keine eigenen Suchsysteme. Vielmehr bedienen die Metasucher mehrere Suchmaschinen gleichzeitig und erhalten so eine sehr hohe Anzahl an gefundenen Seiten. Dabei sind Sie so "intelligent", dass sie doppelt gefundene Seiten filtern und nur einmal anzeigen.

• Die Push-Systeme bieten einen anderen Service an. Während Benutzer von Such- oder Katalogsystemen bei jedem Informationsbedürfnis die Dokumente beim Informationssystem holen müssen (man spricht auch von „Pull-Systemen“), versorgen Push-Systeme ihre Benutzer aktiv und fortlaufend mit aktuellen Informationen. Für jeden Benutzer existiert ein so genanntes Profil. Das Profil beschreibt das Informationsbedürfnis eines Benutzers, so wie die Anfrage bei einem Suchsystem. Neu im Internet auftauchende Dokumente werden automatisch mit allen gespeicherten Profilen verglichen und bei genügend guter Übereinstimmung dem Benutzer zugestellt.

2.2.1 Kataloge und Verzeichnisse

Die Katalogsysteme bringen eine gewisse Struktur und Ordnung in die Dokumentenmenge. Die Funktionsweise eines Katalogsystems ist ähnlich dem einer Bibliothek oder einem Telefonbuch - alle Einträge sind nach Kategorien sortiert - ein Katalogsystem unterstützt den indirekten Zugriff auf Dokumente via Kategorien.

5

Abb. 2.1 Beispiel für eine Katalog-Striktur

Ein Katalogsystem ist nichts anderes als eine Hierarchie von Kategorien5. Ganz erscheinen dann die allgemeinen Kategorien und je weiter man hinuntersteigt, desto spezifischer sind die Einträge. Jede Kategorie verfügt immer über einen Namen und kann eine oder mehrere Unterkategorien besitzen. Neben der streng hierarchischen Gliederung gibt es auch sehr oft die Querverweise, die in eine andere Teilhierarchie mit Dokumenten zu einem verwandten Thema führen können und die Suche nach Dokumenten erleichtern. Es kann auch vorkommen, dass ein Dokument in mehreren Kategorien auftaucht. In der Regel existieren zu jedem Eintrag ein Titel und eine kurze Zusammenfassung oder Beschreibung.

Die typische Recherche in einem Katalogdienst läuft genauso ab, wie man es von einer Bibliothek her kennt. Man beginnt bei einer der allgemeinen Kategorien und geht so lange weiter, bis eine geeignete Unterkategorie gefunden wird, wo die gesuchten Informationen zur Verfügung stehen.

Der Aufbau von Verzeichnissen und Katalogen kann verschiedenen Ansätzen folgen. Sehr verbreitet ist der Aufbau der Rubriken durch die Betreiber selbst. Bei diesem Verfahren ist häufig auch das Anmelden eigener Web Seiten durch die Benutzer für die Aufnahme in den Katalog erwünscht. Das klassische Beispiel dafür ist Yahoo.com, einer der ersten intellektuell erzeugten Kataloge.

Eine ganz andere Verfahrensweise ist die Erstellung eines Verzeichnisses durch eine Nutzergruppe. Dabei können z.B. einzelne Nutzer auf freiwilliger Basis für den Inhalt einer Katalog-Rubrik verantwortlich sein. Die Links, Beschreibungen und weitere

5 vgl. Erlhofer (2005a), S. 15

6

Informationen werden manuell gesammelt und zur Verfügung gestellt. Als Beispiel dafür können sog. Community-Sites und Expertenforen genannt werden.

Eine weitere Unterscheidung liegt vor, wenn sowohl die Vorschläge als auch die Bewertung der Einträge von freiwilligen Nutzern erfolgen. Die Qualitätssicherung der Beiträge in Form vorgeschlagener Links übernehmen dann die für jeweils eine oder mehrere Rubriken verantwortlichen .

Die Kataloge können in hierarchische und nichthierarchische Webverzeichnisse unterteilt werden. In hierarchischen Katalogen werden die Kategorien und Einträge in einer eindeutigen Ordnung sortiert. Ein Eintrag befindet sich dabei oft nur in einer bestimmten Kategorie und ist deswegen schwer zu finden. Dabei hilft das gegenseitige Querverweisen von Kategorien. Ein Beispiel für ein sehr hierarchisches Webverzeichnis ist das Open Directory Project (www.dmoz.org). Nichthierarchische Verzeichnisse bestehen dagegen aus einer netzwerkartigen Struktur, mit deren Knoten die Einträge (Links) verknüpft werden. Dadurch sind die Einträge und Kategorien leichter zu finden, eine assoziative Suche ist eher möglich (Beispiele siehe unten Themennetzwerke). Auch können die Kataloge und Verzeichnisse sich zwischen kommerziellen und nichtkommerziellen unterscheiden. Durch das Geschäftsmodell vieler Katalogenbetreiber besteht die Gefahr einer eingeschränkten Objektivität - die Erhöhung der Ranghöhe in einem Verzeichnis für die eigene Webseite wird zur offiziell angebotenen Dienstleistung. Der Benutzer kann kaum unterscheiden, welche Suchergebnisse im Katalog sich einen hohen Rang durch hohe Relevanz "verdient" haben und bei welchen ein hoher Rang "erkauft" wurde.

Der wohl wichtigste Vorteil von Katalogen ist, dass sie fast immer redaktionell betreut sind – jede Quelle wird persönlich gesichtet und deren thematische Zuordnung überprüft. Außerdem besteht auch die Möglichkeit, dass die Erfasser zu dem Dokument eine kurze Bewertung angeben. Das alles erhöht die Qualität der Suchergebnisse. Ein weiterer Vorteil der Katalogdiensten ist, dass, wenn ein Informationsbedürfnis durch eine Kategorie abgedeckt wird, die Suche auf diese Kategorie beschränkt werden kann. Alternativ zur hierarchischen Suche kann bei einigen Webverzeichnissen zusätzlich auch mit einer dazugehörigen Suchmaschine nach dem passenden Begriff gesucht werden. Aber zu bedenke dabei ist, dass diese Suchfunktion nur die katalogisierten Schlagwörter erfasst oder die Texten im Titel und Beschreibung, nicht aber die verwendeten Begriffe in den letztendlich gesuchten Dokumenten. Zu den Nachteilen zählt man auch die relativ kleineren Bestände von Dokumenten und längere Aktualisierungszeiten6 (z.B. die Zeit, nach der ein Dokument in ein berühmtes Katalog

6 vgl. Erlhofer (2005a), S. 16 7

DMOZ erfasst wird, kann bei mehreren Monaten liegen). Ein weiteres Problem besteht beim Einordnen von Dokumenten in die Kategorien des Katalogdienstes. Die optimale Zuordnung ist oft unklar. In vielen Fällen empfehlen verschiedene Personen für das gleiche Dokument unterschiedliche Kategorien. Bei großen Datenbeständen besteht auch die Gefahr, dass nicht mehr existierende Webseiten referenziert werden, und dass die Wiederauffindbarkeit relevanter Webseiten darunter leidet. Um diese Probleme zu lösen, werden bei modernen Verzeichnissen die verschiedenen maschinellen und manuellen Mechanismen und Mittel eingesetzt, wie manuelle Bewertungssysteme (Voting), automatische Bewertungssysteme (Ranking), Robots zum Überprüfen und Entfernen von nicht mehr existierenden Links oder die Auswertungen des Klickverhaltens der Benutzer.

2.2.2 „Klassische“ Suchmaschinen

Die zunächst unübersehbare Menge von Informationen im Internet begründete den Bedarf für Programme, die alle wichtigen für eine mögliche Suche relevanten Informationen in Datenbanken speichern, um später über die Eingabe von Wörtern oder Phrasen relevante Dokumente finden zu können. Für diese Aufgaben wurden die Suchroboter entwickelt, die das ganze Web durchsuchen und die über das Verfolgen von Links gefundenen Dokumente indizieren. Die Ergebnisse einer Suche sind sehr stark davon abhängig, bis zu welcher Tiefe die Dokumente durchsucht und die Links verfolgt werden. Manche Suchmaschinen indizieren nur die Meta-Informationen im Head der Dokumente, manche indizieren nur die Überschriften der einzelnen Textabschnitte, die andere dagegen werten das gesamte Dokument aus.

Eine Suchmaschine ist ein Programm oder Schnittstelle zum Recherchen von Dokumentmengen, die auf einem, mehreren Computern oder einem Computernetzwerk, wie zum Beispiel WWW, gespeichert sind. Nach der Eingabe des Suchbegriffs liefert die Suchmaschine eine Liste von dazugehörigen relevanten Ergebnissen, meistens mit dem Titel und kurzem Auszug aus dem Dokument.

Die größten klassischen Suchmaschinen wie Google, Yahoo oder MSN indizieren die Seiten mittels einer schlagwort-basierten Volltextsuche. Zusätzlich wird versucht, über komplizierte Ranking Funktionen eine Gewichtung bezüglich eines Schlagwortes herzuleiten. Im Prinzip bauen diese Suchmaschinen ein gigantisches Stichwortverzeichnis auf.

Da Information im Internet kein statisches Gebilde darstellt, müssen die Datenbanken von Suchmaschinen ständig aktualisiert werden. Roboter, Spiders, Crawlers, Wanderer

8

und Worms sind die Programme, die das WWW ständig auf neu hinzugekommene, abgeänderte oder gelöschte Dokumente untersuchen. Eine zu untersuchende Seite wird geladen und einer Inhaltserschließung unterzogen. Danach werden alle von dieser Seite Verweise verfolgt und die referenzierten Dokumente nach gleichem Prinzip geladen und untersucht. Es wird von einem maschinellen bzw. roboterbasierten Verfahren gesprochen. Indizierungsprogramme analysieren die gesammelten Informationen und aktualisieren und Datenbestand der Datenbank der jeweiligen Suchmaschine. Anhand dieser Mechanismen garantieren die Suchdienste eine Datenbank auf aktuellstem Stand. Die Suchmaschinendatenbank besteht aus einem Index, dem Dokumentenbestand und weiteren Informationen über diese Dokumente (z.B Datum, Sprache etc.).

Abb. 2.2 Ein Beispiel für die Archetiktur einer Suchmaschine Die Bearbeitung einer Suchanfrage kann man als ein einfacher Zugriff auf eine Index- Datenbank ansehen. Der Benuutzer gibt in einem Suchformular die Begriffe ein, welche dann mit der Datenbank abgeglichen werden und die sortierend nach Relevanz Ergebnisse dem Nutzer wieder zurückgeschickt werden. Jedes im Index abgespeicherte Wort verweist auf ein oder mehrere Dokumente. Wird ein Suchbegriff eingegeben, so durchsucht der Suchalgorithmus die Wortliste und gibt die referenzierten Dokumente zurück.

Dabei sind noch viele Problemfelder offen. Die klassischen Suchmaschinen können nicht die Synonyme in ihre Suche einbeziehen. Keine. So können leider eventuell relevante für Nutzer Informationen nicht angezeigt werden. Die bekanntesten 9

Suchmaschinen machen aber in dieser Richtung schon einige Vorschritte. Ein weiteres Problem ist die Ignoranz von Mehrdeutigkeiten (Homonymen). Das klassisches Beispiel dafür ist das Wort „Java“, bei der Suche nach dem bekommt man fast ausschließlich die Ergebnisse zur Programmiersprache und nicht zu einer beliebten Urlaubsinsel. Worte können auch in verschiedenen Variationen auftreten, zum Beispiel „Finanzen“ und „finanziell“. Klassische Suchmaschinen ignorieren zum größten Teil jegliche Wortformvariationen. Sinnverwandte Begriffe werden von Suchmaschinen ebenso wenig wie Synonyme erkannt. Das Semantik Web stellt einen interessanten Lösungsansatz dar, um die oben genannten Probleme zu lösen und eine effiziente Suche im Web zu realisieren.

Es sind die vier wichtigsten Aufgaben einer Suchmaschine: Dokumentenbeschaffung, Indexierung, Aktualisierung und die Anfragenbearbeitung.

Die Beschaffung von neuen Dokumenten wird entweder maschinell durch Roboter oder manuell durch die Anmeldung der Seite von Nutzern in jeweiligen Suchmaschinen gemacht.

Die Indizierung der Seiten kann nach drei verschiedenen Strategien durchführt werden. Bei der Volltext-Indizierung, was die meisten Suchmaschinen anbieten, werden inhaltsbedeutende Begriffe aus der gesamten HTML-Seite indiziert. Nach Teilindex- Einsatz indizieren die Suchmaschinen meistens nur URL, Titel und Überschriften oder auch die ersten Zeilen der Seite. Und es gibt auch die Suchmaschienen, die nur die spezielle inhaltsbeschreibenden Bereiche indizieren, wie die META-Tags der Seite.

Bei den Aktualisierungsverfahren von einzelnen Suchmaschinen gibt es große Unterschiede nach Art und der Zeit. Meist ist es einfach zeitabhängig - die Angaben für die zeitliche Aktualisierung einzelner Web-Seiten bei den Suchmaschinen können zwischen einem Tag und sechs Wochen schwanken. Oft hängt es auch von der Zugriffshäufigkeit auf das Dokument ab.

Funktionalität bei der Anfragenbearbeitung ist direkt von Indizierung –Strategie der Dokumenten abhängig. Je besser die Analyse und Indizierung der HTML-Seiten ist, desto umfangreicher ist das Angebot an Suchmethoden und -operatoren.Suchmaschinen sind zweifellos bis heute die dominierenden Werkzeuge zur Suche im WWW.

2.2.3 Meta-Suchdiensten

Ein wesentliches Merkmal einer Metasuchmaschine (Multi-Search) besteht darin, dass sie eine Suchanfrage gleichzeitig an mehrere andere „klassische“ Suchmaschinen weiterleitet, deren Ergebnisse sammelt und dem Nutzer in einer Liste zur Verfügung 10

stellt.7 Die Ergebnisse werden durch die Eliminierung von doppelten Einträgen, die Bewertung der Ergebnisse und durch Aufstellung eines eigenen internen Ranking einheitlich, wie bei einer „klassischen“ Suchmaschine, dargestellt. Die Ergebnisse einer Metasuchmaschine werden meist langsamer geliefert, als bei einer normalen Suchmaschine, weil deren Server zuerst auf die Antworten aller Suchdienste, an die Suche weitergegeben wurde, warten muss und erst danach die Ergebnis präsentiert.

Es sind drei verschiedenen Arten von Meta-Suchdiensten zu unterscheiden. Es gibt die Web-Seiten, die einfach mehrere Suchmasken verschiedener Suchmaschinen haben. Diese Seiten sind zwar nicht "echte" Metasuchmaschinen, aber haben trotzdem gewisse Vorteile. Es werden Suchformulare mehreren Suchmaschinen auf der Seite angeboten, was das Laden der Homepages einzelner Suchmaschinen erspart und deren guter Überblick anbietet.

Ebenso existieren auch die pseudo-sequentielle Meta-Suchdienste, die zwar nur ein Suchformular haben, aber bei denen der Nutzer selbst die abzufragenden Suchmaschinen manuell auswählen kann bzw. muss, um die Suche mit ihnen durch den Metasuchdienst einzuleiten. Der Vorteil solcher Suchdienste besteht darin, dass die Suchanfrage nur einmal erfasst werden muss.

Bei den "echten" Metasuchmaschinen werden automatisch mehrere Suchdienste, wie Suchmaschinen und Verzeichnisse über eine Suchmaske befragt. Dabei werden die Funktionalität und Operatoren der verschiedenen Suchdienste verwendet und die Anpassung der Anfrage auf die einzelnen Suchdienste vorgenommen. Der Benutzer weiß nicht, welche spezifischen Eigenschaften die unter der Meta-Maschine liegenden Suchdienste haben. Die Kurzbeschreibungen, Titel oder Inhaltszusammenfassungen werden übernommen und in einer einheitlichen Form dargestellt. Die Mehrfachtreffer aus den Ergebnissen der verschiedenen Suchdienste werden bei der Anzeige eliminiert. Bei der Suche in Meta-Suchmaschinen können oft auch die Zeitvorgaben und maximale Treffergrenzen eingestellt werden. Die Zeit für die Suche ist so einstellbar, dass der letzte nachgewiesene Treffer eines Suchdienstes noch erfasst werden kann.

Bei der Befragung der Suchdienste durch die Metasuchmaschine werden zwei grundlegende Techniken unterschieden: der sequentielle und der parallele Zugriff. Bei der sequentiellen Suche werden Suchdienste nacheinander von dem Metasuchdienst befragt und die Trefferliste wird erst nach Befragung des letzten Suchdienstes erstellt. Paralleler Zugriff ermöglicht gleichzeitige Abfrage der Suchdiensten. In diesem Fall

7 vgl. Sander-Beuermann (1998) S178. 11

wird die Ausgabe der Trefferliste schon begonnen, sobald einer der befragten Suchdienste die Suchanfrage abgearbeitet hat.

Das zentrale Problem der Metasuchmaschinen ist das Ranking bei der Erstellung der gemischten Trefferliste. Weil Rankingmechanismen einzelner Suchdienste oft sehr unterschiedlich und geheim sind, wird die Trefferliste in den meisten Fällen nach den Suchdiensten gruppiert. Weil die verschiedenen Suchmaschine unterschiedliche Operatoren bei den Suchanfragen unterstützen können, sind die Beschränkungen bei der Formulierung der Suchanfrage ein weiterer Nachteil der meisten Metasuchdienste. Es existieren aber mittlerweile die Metasuchmaschine, die Suchanfragen mit umfangreichen Optionen und Operatoren erlauben. Diese Metasuchdienste analysieren die Anfrage und leiten diese nur an jene Suchmaschine weiter, die die Anfrage auch bearbeiten können. Dabei sind die geringeren Ergebnismengen zum Nachteil, aber gleichzeitig kann man die Qualität der Informationen durch den Einsatz der verschiedenen Operatoren gewinnen.

Fazit ist, dass die Stärken von Metasuchmaschinen nur bei allgemeinen Suchanfragen liegen, da in diesen Fällen die Benutzung mehreren Suchmaschinen die Anzahl der relevanten Ergebnissen steigert. Bei der speziellen Anfrage ist es jedoch besser, eine „klassische“ Suchmaschine zu benutzen.

2.3 Suchmaschinen-Markt in Deutschland

Der Suchmaschinen-Markt zeichnet sich durch eine hohe Konzentration aus. Durch eine Menge von kleinen Suchmaschinen-Anbieter scheint es so, als ob es ein gesunder Wettbewerb in dieser Branche herrscht. Dazu kommt auch, dass viele Anbieter keine eigene Suchmaschine betreiben, sondern ein Suchmechanismus von den großen Anbietern benutzen und visuell nur eigene Suchmaske anbieten. Aber nur sehr wenige Anbieter beherrschen den Markt. Das hat dazu geführt, dass auf dem internationalen Markt nur vier große Suchmaschinen-Anbieter existieren, die eigene Suchmaschinen und Suchmechanismen mit riesigen Datenbeständen anbieten: Google, Yahoo, Microsoft, Ask Jeeves.

Die Suchmaschine Google ist sicher der bekannteste Vertreter mit eigener Suchtechnologie. Die meisten Internet-Nutzer benutzen die Google-Suchmaschine und andere Dienste. Diese gilt heute als eine Art Synonym für die Web-Suche allgemein.

Yahoo hat als Web-Verzeichnis gestartet und lange Zeit hat sie die algorithmischen Suchergebnisse von anderen Anbietern zugekauft. Erst im Jahr 2004 hat Yahoo auf der 12

Basis von gekauften Suchmaschinen All the Web und AltaVista und Suchtechnologie- Anbieter Inktomi eine eigene Web-Suche, was der Bestandteil des Portals ist, angeboten.

Die Suchmaschine von Microsoft wurde MSN („Microsoft Network") genannt. Wie bei Yahoo hat Microsift auch lange Zeit nur auf die Suchergebnisse von Fremdanbietern zurückgegriffen. Nur Ende 2004 wurde eine eigene Suchtechnologie vorgestellt und im Anfang 2005 auf dem Markt angeboten.

Ask Jeeves ist auf dem europäischen Suchmaschinen-Markt ziemlich unbekannt, ist aber in den USA von größerer Bedeutung. Nach dem Aufkauf der Suchmaschine Teoma im Jahr 2003 verfügt Ask Jeeves über die vierte wichtigste Suchtechnologie auf dem internationalen Markt. 13

Quelle: Clay (2006) Abb. 2.3 Suchmaschinen-Markt in USA (Clay 2006)8

Abbildung 2.3 zeigt die Beziehungen der Suchdienste untereinander auf dem US- amerikanischen Markt. Hier kann man sehen, dass große Portale wie AOL oder Lycos ihre Suchergebnisse komplett zukaufen.

8 vgl. Clay (2006) 14

Die Marktanteile von Google in USA sind 43,7%. Dann kommt Yahoo mit 28,8%, MSN mit 12,8%, AOL und Ask mit 5,9% und 5,4% entsprechend9. Für den deutschen Markt sieht das Bild ähnlich aus wie in den USA, allerdings mit der bereits erwähnten Ausnahme Ask Jeeves. Dieser Anbieter ist hier am Markt nicht vertreten bzw. unterhält keine deutsche Seite. Nationale Anbieter, die eine gewisse Bedeutung haben, sind die Suchmaschinen Fireball und Seekport sowie die Metasuchmaschine Metager.

Abb. 2.4 Beziehungsgeflecht der Suchmaschinen in Deutschland (Karzauninkat 2004)10

Abbildung 2.4 zeigt analog zum Schaubild des amerikanischen Suchmaschinenmarkts die Beziehungen der deutschsprachigen Suchmaschinen untereinander. Auch hier wird deutlich, dass nur wenige Anbieter Suchergebnisse liefern und mit Ausnahme von Yahoo keines der populären Portale eine eigene Suchmaschine anbietet.

9 vgl. Heise(2006) 10 Karzauninkat(2004) 15

Für Suchmaschinenmarketing, insbesondere für Suchmaschinenoptimierung sind die aktuellen Marktanteile der Suchmaschinen und Verzeichnisse immer von großem Interesse.

Abb. 2.5 Suchmaschinen-Marktanteile in Deutschland11

Der Wettbewerb zwischen den großen Suchmaschinen in den USA beeinflusst auch den deutschen Suchmaschinen-Markt. Die „größten Drei“, Google, Yahoo und MSN, sind auch hier mit länderspezifischen Angeboten vertreten. Daneben umfasst der nationale Markt eine Vielzahl weiterer Suchmaschinen, wie web.de, fireball.de oder T-Online.

11 Webhits (2006)

16

Im September 2004 ließen sich 193 deutschsprachige Angebote ermitteln, bei denen die externe Suche die zentrale Funktion und die thematisch nicht spezialisiert waren. Allerdings ist die Nutzung der meisten dieser Suchmaschinen sehr klein im Vergleich zu dem Marktführer. Die reichweitenstärksten Suchmaschinen aus Deutschland sind Lycos, Fireball, Web.de, T-Online und Seekport.12

12 vgl. Webhits (2006) 17

3 Suchmaschinen-Marketing als ein wichtiger Baustein des Unternehmen-Marketings Suchmaschinen-Marketing ist heute eine effektive Möglichkeit für das Unternehmen neue Kunden zu gewinnen und über Produkte und Dienstleistungen zu informieren. Wichtigstes Ziel des Suchmaschinen-Marketings ist möglichst viele Internet-Benutzer auf das Online-Angebot durch die Suchmaschinen aufmerksam zu machen. Die Suchmaschinen sind heutzutage für die Mehrheit der Internet-User wichtigste Informationsquelle und deswegen eine ideale Plattform für effizientes und nachhaltiges Online Marketing.

3.1 Historische Entwicklung

Vor 16 Jahren in 1990 ist die Geschichte der Suchmaschinen an der McGill Universität in Montreal begonnen. „Archie“ war die erste Suchmaschine, die die FTP-Verzeichnisse auslesen konnte und nach Suchbegriffen in Dateien- und Ordnernamen durchsuchte. Schon nach zwei Jahren gehörte diese Suchmaschine zu am meisten genutzten Internet- Dienste, obwohl sie keine Inhalte der Dateien bzw. Texte durchsuchen konnte.

Im Jahr 1991 wurde eine Software Namens „Gopher“ an der University of Minnesota entwickelt, was die Verzeichnisse der Uni-Server durchsuchte und katalogisierte. Über eine menügesteuerte Oberfläche konnte man dann diese Datenmengen durchsuchen.

1993 wurde der WWW-Standard zur kostenlosen Nutzung freigegeben und der erste Webcrawler mit dem Namen „The Wanderer“ programmiert. Danach werden immer mehr Crawler, Spider und Metacrawler entwickelt, die das Internet durchsuchten und die Webseiten katalogisierten.

Diese Zeit war der Anfang der Erfolgsgeschichte der Suchmaschinen und damit verbundenen Optimierung der Web-Inhalten. Es genügte damals die Meta-Tags und die Inhalte der Seite mit populären Begriffen voll zu füllen, um diese auf die oberen Plätzen bei der Suchanfrage zu finden. Die Spiders und Metacrawler durchsuchten die Seiten auf Meta-Informationen und Häufigkeit der Keywords innerhalb des Inhalts und rankten diese entsprechend hoch, wenn sie die populären Begriffe beinhalteten.

Im Juli 1994 wurde die Suchmaschine Lycos entwickelt und gestartet, die die Web- Dokumente nicht nur auf die Suchbegriff-Häufigkeit sondern auch auf die Nähe bzw. Abstand der Suchbegriffe untereinander im Dokument untersuchte.

Im Jahr 1995 wurden die ersten kommerziellen Suchmaschinen veröffentlicht, die zum Teil schon eine Volltextsuche anboten. Mit dabei waren Infoseek, Excite und AltaVista, die noch bis vor wenigen Jahren sehr populär im Web war. Durch enorm 18

leistungsfähiges Roboter „Scooter“ hat AltaVista sich zu einer der führenden Internet- Anwendungen gemacht. Bis noch Jahr 1998 orientierten sich die Suchmaschinen an klassischen Information-Retrieval-Verfahren, d.h. dass Ranking fand nur auf textstatistischer Ebene statt und wurde ganz vom dem Inhalt abhängig. Die Bedeutung eines Dokumentes für einen Suchbegriff hängte von der Häufigkeit des Vorkommens dieses Begriffes und seiner Stellung im Dokument ab. Natürlich wurden solche Verfahren oft manipuliert, um auf den höheren Plätzen zu landen – man sollte nur die gewünschten Keywords im Dokument häufig entsprechenden Stellen benutzen. Die oberen Plätzen bei einer Suchanfrage bekamen dann die Dokumente mit höherer Keyword-Dichte. In dieser Situation versuchten die Suchmaschinen-Betreiber solche Manipulationen mit Einsatz von Keywords-Quoten zu beseitigen. Biz zu einer bestimmten Anteil von Suchbegriffen wurde ein Dokument zu „natürlich“ erzeugten zugeordnet, beim Überschreiten dieses Wertes steht Verdacht aud die Manipulation.

Ende 1998 veröffentlichten Larry Page und Sergey Brin ihre innovative Suchmaschinen-Ranking-Technologie mit dem Titel “The Anatomy of a Large-Scale Hypertextual Web Search Engine”.13 Ein wenig später ist die Suchmaschine Google gestartet und bleibt bis heute die meist benutzte und erfolgreichste Suchmaschine der Welt.

Die Innovation von Google bei der Bewertung der Web-Inhalten war ein Rankingfaktor das s.g. PageRank, der sich auf die Verlinkungsstruktur der Dokumente bezieht. Das ist ein statischer Faktor, der die Qualität jedes von Google im Web indexierten Dokument darstellt.14 Das Grundprinzip wurde aus der Bibliografie bzw. Zitatsanalyse übernommen. Ein Dokument, auf welches häufig verlinkt wird, ist bedeutender als eines, das weniger oder gar nicht verlinkt wird. Aber auch diese Technologie hat die Lücken für „schwarzen“ Suchmaschinen-Optimierer gelassen. Um die Anzahl der Backlinks zu steigern, wurden die unzähligen Anmeldungen und Eintrage bei allen möglichen Gästebücher, Forumen sehr populär und oft erfolgreich.

Allerdings hat es nich lange gedauert, bis es nicht nur bei der reinen Link-Zählung blieb, sondern auch die Bedeutung wiederum nach dem PageRank-Verfahren der verlinkten Seiten bewertet wurde. Ein Link von einer bedeutenden Seite(z.B. Yahoo oder DMOZ-Verzeichnis) wird viel besser gewichtet als der Link von einer unbedeutenden Seite (z.B. einer privaten Homepage).

Die PageRank wird in einem iterativen Verfahren berechnet und jedem indexiertem Dokument zugegeben. Bei der späterer Suchanfrage wird dieses Faktor mit

13 vgl. Google (2006f), ff. 14 vgl. Brin & Page (1998) 19

Zusammenhang mit anderen textstatischen Verfahren die Platzierung eines Dokuments bei der Suchanfrage beeinflussen.

Die Suchalgorithmen entwickelten sich immer weiter und ziehen immer mehr externe Faktoren hinzu, damit das Ranking der Seite schwer von den Webmastern beeinflussbar ist. Somit ist die Suchmaschinenoptimierung heute ein langer, arbeitsintensiver und oft kostspieliger Prozess.

3.2 Definition und Formen des Suchmaschinenmarketings Kaum ein anderes Online Marketing Instrument hat in den letzten Jahren so stark an Bedeutung gewonnen, wie das Suchmaschinenmarketing. Mehr als 70 Prozent aller Internetnutzer benutzen eine Web-Suchmaschine, um die Informationen über ein Unternehmen oder Produkte zu finden.15

Wegen der Vielzahl von Online-Angeboten ist es sehr schwierig, sich einen Besucherstrom auf die Internet-Präsenz zu erarbeiten – Besucher einziehen und sie zu einem Wiederbesuch zu motivieren. Mit Hilfe von Online- bzw. Suchmaschinen- Marketing kann man die Zielgruppen erreichen, die man sonst mit normalen Medien nicht erreichen kann.

Nach der Nutzung von -Diensten sind die Suchmaschinen die am häufigsten benutzte Anwendung im Internet. Sehr viele Online Käufe sind heutzutage über eine Suche in Suchmaschinen entstanden. Bei der Suche im Internet verfügt ein Nutzer oft über ein konkretes Bedürfnis und häufig hat er eine konkrete Kaufabsicht. Gerade aus diesen Gründen sind die Instrumente des Suchmaschinenmarketings in fast jeder Online Marketing Planung vorhanden.

Suchmaschinenmarketing umfasst „alle Internetmarketing-Maßnahmen, die die Funktion der Suchmaschinen nutzen, um höhere Besucherzahlen zu erzielen, um so neue Kunden zu gewinnen und letztlich die Umsatzzahlen zu steigern“16

Grundsätzlich kann man Suchmaschinenmarketing in zwei Bereiche unterteilen: Suchmaschinen-Optimierung und Sponsored Links.

Suchmaschinen-Optimierung, auch SEO (für "Search Engine Optimization") genannt, hat sich als ein fester Baustein im Online-Marketing von Unternehmen etabliert.

15 vgl. Rabe, L. (2006),f 16 Keiser (2006) 20

„Search Engine Optimizer (SEO) entwickeln Optimierungsverfahren, um Website- Anbietern durch eine an die Suchalgorithmen angepasste Aufbereitung der Inhalte eine höhere Trefferquote bei Suchmaschinen zu ermöglichen.“17

Alle Massnahmen eines SEO-Projektes kann man in 5 wichtigste Phasen aufteilen:18

• Analyse der Web-Präsenz und Entwicklung notwendiger SEO Strategie;

• Optimierung des vorhandenen Online-Auftritts;

• Aufbau und Erweiterung relevanter und optimierter Website-Inhalte;

• Entwicklung einer Link- bzw. Pagerankstrategie;

• Erfolgsmessung, Anpassung und Ausbau der Maßnahmen.

Bei zweiter und dritter Phase handelt es sich um eine s.g. OnPage Optimierung und die vierte Phase ist OffPage Optimierung.

Unter OnPage Optimierung versteht man alle Programmierungsmaßnahmen, die auf der eigenen Website vorgenommen werden. Das sind die Anpassungen an Struktur und Inhalt der Webseiten, um eine bessere Position in den Suchmaschinen-Ergebnissen zu erzielen.

OffPage Optimierung beschreibt die Optimierungsmaßnahmen aller für eine Suchmaschine relevanten externen Faktoren. Unter diesen versteht man die externe Verlinkungsstruktur mit Qualität und Quantität der Links. Weil diese Faktoren nicht leicht von dem Web-Master zu manipulieren sind, sind sie mittlerweile einige von der wichtigsten Kriterien in den Suchmaschinen-Algorithmen. Heutzutage spielt effiziente OffPage Optimierung eine mindestens so große als OnPage Optimierung Rolle. Aber maximaler Erfolg kann ein Unternehmen nur durch Durchführung beider erreicht werden.

Umfang und Gewichtung der einzelnen Phasen eines SEO-Projektes ist schwer zu messen und ist von vorhandener Situation abhängig. Darauf nimmt großen Einfluss die Branche des Unternehmens, Marktsituation und Wettbewerb, Online-Auftritt der Konkurrenten bzw. Suchmaschinen Wettbewerb der Branche, technische Ausgangsbasis und vorhandenes Budget fürs Projekt.

17 Machill & Welp (Hrsg.) (2003), S. 26 18 vgl. Marx, U. (2006) 21

Der Erfolg einer Suchmaschinen-Optimierung kann einige Zeit in Anspruch nehmen. Als Alternativen um diese Zeit zu überbrücken, bieten sich die Sponsored Links an.

Die Sponsored Links, auch als Paid Listings, Keyword Advertising oder SEM () bennant, sind die als Werbung gekennzeichnete suchbegriffsbezogene Textwerbung oberhalb, unterhalb oder rechts neben den Suchergebnissliste in einer Suchmaschine.19

Ein Vorteil der Suchmaschinenoptimierung gegenüber der Sponsored Links ist, dass Suchmaschinenoptimierung eine absolut andere Kosten-Nutzen-Auswirkung hat. Bei der Sponsored Links werden die Kosten mit jedem Klick verursacht, was bei der Suchmaschinenoptimierung nicht der Fall ist.

Auch erhöht die Suchmaschinenoptimierung im Vergleich zu den Sponsored Links die Chancen, dass das Suchergebniss angeklickt wird. Wie die Eye-Tracking Studie(Abb.3.1 und Abb.3.2) deutlich gemacht hat, haben die obersten fünf „organischen“ Suchergebnisse einer Suchmaschine eine viel bessere Chance, angeklickt zu werden, als die recht plazierten AdWords.20 Hieraus ist eindeutig, dass durch Suchmaschinenoptimierung erarbeitete Platzierungen ein höheres betriebswirtschaftliches Potenzial haben als die bezahlte Sponsored Links am rechten Bildschirmrand.

19 vgl. Glöggler (2003), S. 9f. 20 vgl. Enquiro & and Did-it.com (2005). 22

Abb. 3.1 EyeTracking Study 21

Abb. 3.2 Klick-Wahrscheinlichkeit nach EyeTracking Study22

21 Enquiro & and Did-it.com (2005). 22 vgl. Enquiro & and Did-it.com (2005). 23

Auch ein weiteres Vorteil der Suchmaschinenoptimierung ist, dass die neutrale Suchergebnisse keine Werbung sind und werden nicht als solche vom Nutzer wahrgenommen - es gibt jedoch immer noch viele Internetnutzer, die das Anklicken von Sponsored Links wegen ihrer Herkunft nach Möglichkeit vermeiden und organische Links bevorzugen.

Aber die Schnelligkeit, mit der eine Werbung-Kampagne gestartet und gesteuert werden kann, spricht für die Sponsored Links.23 Mit der Sponsored Links kann man relativ schnell z.B. Preisaktionen und saisonale Produkte oder Dienstleistungen vermarkten. Aufgrund der schnell wachsenden und weit verbreiten Spam-Seiten gibt es mittlerweile viele Internet-Nutzer, die grundsätzlich zuerst auf bezahlte Platzierungen klicken, weil man dadurch schneller zu den relevanten Ergebnisen gelangen kann.

Einen optimalen betriebswirtschaftlichen Output können nur die Unternehmen daher erreichen, wenn sie sowohl Suchmaschinenoptimierung als auch Keyword-Advertising betreiben.24

3.3 Bedeutung von Suchmaschinen für ein Online-Unternehmen Aus der wirtschaftlichen Sicht kann man Internet als einen globalen, virtuellen Marktplatz betrachten, wo die Käufer und Verkäufer von Waren und Dienstleistungen zueinander finden. Der Erfolg oder Misserfolg eines Geschäftsmodells ist heute oft von der Internet-Präsenz des Unternehmens abhängig. Besonders sind hier die Online- Anbieter getroffen. Es ist extrem wichtig, dass ein Unternehmen nicht nur in den Datenbanken der Suchdienste erfasst wird, sondern auch, dass sein Angebot in der Trefferliste der wichtigen Suchdienste in Abhängigkeit zu einem bestimmten Suchwort gut positioniert ist, d.h. unter mehreren tausend Suchtreffern innerhalb der ersten Trefferpositionen steht. Unternehmen, denen es gelungen ist, haben die größten Chancen, neue und fruchtbare Geschäftsbeziehungen zu knüpfen.

Die Ergebnisse der Studie zu Reisen und Internetrecherchen von Overture und comScore vom 23.11.2005 haben bestätigt, dass das Internet bei der Planung von Reisen einen großen Stellenwert hat und dass die Suchmaschinen zu den wichtigsten Informationsquellen gehören.25 Die Ergebnisse sind beeindruckend:

• 94 % der Befragten nutzten das Internet zur Vorbereitung ihrer letzten Reise, knapp zwei Drittel (65%) setzten dabei sogar ausschließlich auf das Internet;

23 vgl. Kaiser (2004), S. 12, ff 24 vgl. Lammenett (2006) 25 vgl. Hier und im Volgenden Overture (2006) 24

• für 62% der Befragten sind die Suchmaschinen das am häufigsten genutzte Medium für die Reiserecherche, gefolgt von Online-Reisebüros und Reise-Webseiten;

• bei der Suche nach dem richtigen Urlaubsziel, der Reisevorbereitung und Planung liefert das Internet bessere Ergebnisse als Reiseprospekte (63% im Vergleich zu 59 %). Überzeugender schneiden in dieser Hinsicht nur noch traditionelle Reisebüros (66 %) sowie Freunde und Familienmitglieder als Informationsquelle (72 %) ab;

• geht es um die gängigen Reise-Services, besonders Hotel- und Flugreservierungen, sind Deutsche mit den Angeboten im Internet am zufriedensten;

• die urlaubsreifen Deutschen nutzen die Internetsuche während des gesamten Entscheidungs- und Buchungsprozesses, um das richtige Reiseziel und ausführliche Informationen zur Reise und zum Zielort zu finden. Dabei vergleichen sie verschiedene Optionen, recherchieren den günstigsten Preis und buchen ihre Reise dann auch oft im Online-Reisebüro (55%);

• je nach Reiseart buchten in den letzten 12 Monaten zwischen 53 % und 77 % der Kunden online, vor allem Flugtickets, Mietwagen und Last Minute-Reisen.

Während noch vor wenigen Jahren das ganze Potential des Internets noch nicht bekannt war und das Verbringen der Zeit im Web sogar verboten und strafbar war, gehört heute die Internet-Recherche und Kommunikation zum Alltag fast aller Mitarbeiter, besonders bei einem Online-Unternehmen. Wenn es um Einkauf oder Verkauf der Produkte und Dienstleistungen geht, profitiert fast jedes Unternehmen von der Geschwindigkeit und Informationsbereitstellung der Suchdienste. 25

4 Indexierung von Dokumenten und Rankingverfahren der Suchmaschine Da die Suchmaschinen mehrere Millionen von Internet-Seiten indexieren und die Information speichern, ist es nachvollziehbar, dass bei einer Suchanfrage Tausende von Ergebnissen geliefert sind. Um alle diese Ergebnisse nach Relevanz sortiert zu bekommen, verwendet jede Suchmaschine eigene Ranking Algorithmus, was aus vielen verschiedenen Faktoren besteht.

Der Begriff Relevanz lässt sich nach Glöggler auch im Sinne von Ähnlichkeit deuten. „Ein Dokument ist im Sinne einer Suchanfrage relevanter als ein anderes Dokument, wenn es inhaltlich der Suchanfrage eher entspricht, als ein anderes Dokument.“26

Alle diese Relevanz-Faktoren kann man in zwei Bereiche aufteilen: informationsstatistische und linktopologische Rankingverfahren.27

4.1 Indexierung von Dokumenten Die Indexierung von Web-Dokumenten ist eine zentrale Operation einer Suchmaschine. Die Aufgabe ist aus analysierten Web-Dokumenten die Deskriptoren oder sog. Schlagwörter abzuleiten, die den Inhalt eines Dokumentes im Index repräsentieren. Als Deskriptor bezeichnet man meist vorgegebene Begriffe, die zur Beschreibung eines Dokumentes ausgewählt werden können. Bei der Indexierung wird jedem Descriptor ein bestimmter Wert zugeordnet, der seine Bedeutsamkeit widerspiegelt. Die Descriptoren- Liste, oder auch Schlagwortkataloge genannt, dient damit zum Repräsentieren eines bestimmten Dokumentes über eine stichwortartige Kurzbeschreibung und auch für die gleichzeitige Wiedergabe des Inhalts des Dokumentes.28

Nach dem Verfahren unterscheidet man die manuelle Indexierung und die automatische.

Die manuelle Indexierung wird von einer Person, dem Indexierer, durchgeführt, was an diesen sehr hohe Anforderungen bezüglich fachlicher Kompetenz stellt. Obwohl oft die Terminologiebeschreibungen und Vokabularlisten zur Vefügung stehen, muss diese Person die genaue Kenntnis dieses Vokabulars haben, weil auch die Pflege und die Erweiterung des Vokabulars oft seine Aufgaben sind.29

26 vgl. Glöggler (2003), S. 67 27 vgl. Lewandowski (2005), S. 90 28 vgl. Salton & McGill (1987), S,58 f 29 vgl. Kaiser (1993), S. 20 f 26

Der Vorteil der manuellen Indexierung besteht darin, dass die Inhalte eines Dokumentes durch gut ausgebildeter und erfahrener Indexierer gut zu verstehen und zu bewerten sind und damit auch wirklich inhaltsbeschreibende Deskriptoren vergeben werden können.30

Der Nachteil aber ist, dass aufgrund der riesigen und ständig wachsenden Informationbestände die Zeiten zwischen der Veröffentlichung eines Dokumentes und der Aufname dieses Documentes in Index einer Suchmaschine immer größer sind, weil die manuelle Indexierung mit sehr hohem Zeitaufwand und hohen Personalkosten verbunden ist.31

Bei der Indexierung der grossen Informationsmengen in kurzer Zeit kommt ausschließlich das automatische Verfahren infrage, das durch verschiedene Programme, die die Stichwörtern extrahieren, erfolgt. Das Ziel der automatischen Indexierung ist es, aus einem vorliegenden Dokument automatisch die sinntragenden Wörter zu extrahieren. Im Gegensatz zu manuellen Verfahren arbeiten die automatischen Methoden mehr oder weniger mit der sprachlichen Oberfläche von Dokumenten, um die Stichwörter zu ermitteln, und nicht bzw. zur Zeit nicht mit der Bedeutung ganzer Texte.

4.2 Funktionweise der Suchmaschinen an Beispiel Google Da die Suchmaschine Google der Führer mit mehr als 80% Anteil des deuschen Suchmaschinenmarktes ist, ist ihre Funktionsweise und Indexierungmethoden besonders interessant. Die Architektur dieser Suchmaschine wurde in der für Google grundlegenden Arbeit „The Anatomy of a Large-Scale Hypertextual Web Search Engine“32 von Brin und Page dargestellt. Natürlich seit dieser Zeit wurde die ursprüngliche Systemzusammenstellung Systemzusammenstellung an die immer entwickelndes WWW angepasst und modifiziert. Aber auf Basis der Veröffentlichung von Brin und Page kann man die Grundprinzipien der Beschaffung, Verarbeitung und Speicherung der Webdokumente bei Google und bei den Suchmaschinen allgemein anhang folgender Abbildung besser verstehen.

30 vgl. Kaiser (1993), S. 22 f 31 vgl. Pekuysal (1992), S. 31 32 Brin & Page (1998) 27

Abb. 4.1 Architektur der Suchmaschine Google33

Für die Beschaffung der Datenbeständen sind in d.R. Webroboter oder Ceawler zuständig. Das sind „auf extreme Hochleistung getrimmte Systeme, die laufend das World Wide Web und andere Elemente des Internet analysieren“.34

Google und die andere Suchmaschinen setzen mehrere Crawler ein, die die Web-Seiten und Dokumente Anhang der durch URL Server bereitgestellte URL-Listen herunterladen und an die Store Server weitersenden.35 Auf diesen Store Server werden die Dokumente komprimiert und dann im Repository mit einer Identifikationsnummer, die sog. DocID, abgespeichert. Weiter werden die Documente durch den Indexer und den Sorter indexiert. Der Indexer liest das Repository, dekomprimiert die Dokumente und wandelt diese mit Hilfe eines Parsers in einen Satz von Wortvorkommen um, welche Hits genannt werden. Die Hits speichern neben den Wörtern auch die Position von diesen Wörtern im Webdokument. Dann werden die Hits durch den Indexer in die sog. Barrels verteilt. Damit erreicht man eine teilweise Vorsortierung (Forward Index).

33 Brin & Page (1998) 34 vgl. Lehmann & Lehmann (2002), S.174 35 vgl. hier und im Folgenden Brin & Page (1998)

28

Durch den Indexer wird auch die Linkstruktur eines Dokuments analysiert, wobei die wichtige Informationen die Herkunft von Links, das Linkziel und der Linktext sind. Diese Informationen werden in der Anchors-Datei abgelegt. Diese Datei wird von URL Resolver abgelesen, um die relative URLs in absolute unter gleichzeitiger Vergabe einer docID zu umwandeln. Der Linktext wird, verbunden mit der docID, auf die der Linktext zeigt, in den vorsortierten Index gesetzt. Auf der Basis durch den URL Resolver erzeugte Linkdatenbank (Links) wird den PageRank für alle Webdokumente berechnet.

Der Sorter vewendet die Barrels, um diese nach wordIDs in eine Liste neu zu sortieren und dadurch einen invertierten Index (Inverted Index) zu erzeugen. Ein Programm vermischt diese Liste mit dem Lexicon, das durch den Indexer erstellt wurde und erzeugt ein neues Lexicon, das vom Searcher genutzt wird. Der Searcher ist in Form eines Webservers realisiert und nutzt neben dem Lexikon den invertierten Index und PageRank, um auf die Suchanfragen zu beantworten.

4.3 Informationsstatistische Verfahren des Suchmaschinen-Rankings Um die Relevanz der Web-Seite zu einer gegebenen Suchanfrage einzuschätzen, verwenden die Suchmaschinen neben linktopologischen die informationsstatistische Verfahren. Aufgrund der Menge und der Heterogenität der Dokumente kann man nicht nur textstatistische Verfahren einsetzen. Ein weiteres das Ranking beeinflussende informationsstatistische Verfahren ist die Auswertung des Nutzungsverhaltens. Informationslinguistische Verfahren, die mit der Sprachenvielfalt des Web zu tun haben, werden in Web-Suchmaschinen bisher nur in einem geringen Maß eingesetzt.

4.3.1 Textstatische Verfahren

Zu den klassischen textstatischen Faktoren des Suchmaschinen-Rankings gehören die Worthäufigkeit, die inverse Dokumenthäufigkeit, die Position der Suchbegriffe und deren Nähe zueinander im Dokument. Dies alles beeinflusst in gewissen Maßen die Position eines Dokumentes in der Suchergebnissliste einer Suchmaschine bezüglich eines bestimmten Suchbegriffs36.

Die Suchbegriff-Häufigkeit oder Keyword-Frequenz gibt an wie oft ein Suchwort oder Suchphrase im Inhalt eines Dokuments vorkommen soll. Mit der Häufigkeit des Keywords wird so angenommen, dass, je öfter ein Suchbegriff im Text vorkommt, damit relevanter ein Dokument in Zusammenhang zu einem Keyword ist.37 Natürlich,

36 vgl. Glöggler (2003), S. 76f; vgl. auch Erlhofer (2005a), S. 118f. 37 vgl. Nohr (2003), S. 33f 29

um den Verdach auf die Manipulation zu vermeiden, soll man die gewisse Grenze nicht überschreiten. Man soll versuchen, ein ausgewogenes Verhältnis von Worthäufigkeiten der Schlüsselbegriffe im gesamten Text zu erzeugen. Eine Suchbegriffdichte von 1 bis 7% scheint von den meisten Suchmaschinenoptimierungsagenturen als empfehlenswert. Ein Einsatz der Schlüsselwörter, der diese Grenze über- oder unterschreitet, kann auch zu einer schlechten Ranking der Seite zu diesem Begriff führen.

Die Suchbegriff-Häufigkeit kann man ermitteln durch die Definition von Anzahl der Vorkommen eines Wortes oder einer Phrase durch Anzahl aller Wörter im Dokument38:

h (t) TF()t,d = d a()d

Häufig aber verwendet man statt der direkten Anzahlen ihr Logarithmus: log(h (t)+1) TF()t,d = d log()a()d Im Argument des Zählers wird 1 addiert, damit die Häufigkeit für nicht vorkommende Suchbegriffe Null ist.

Bei der Search Engine Strategies Conference 2004 in London empfahl Charon Matthew (MediaCo (UK)) vier Keyword im 250 bis 300 Wörtern-Dokument oder für längere Seiten 8-10 mal in 500 Wörter.39 Das ergibt eine Keyword Dichte ca. 1,6 %. In August 2005 wurde von Dr.Braun bei der Search Engine Strategies Conference in San Jose berichtet, dass die optimale Keyword-Dichte zwischen 3% und 5% liegt.40

Durch die Ermittlung der Keyword-Dichte kann die Wichtigkeit eines Begriffes für die Beschreibung des Inhalts eines Dokuments bzw. einer Seite berücksichtigt werden. Obwohl die Keyword-Dichte heutzutage nicht mehr so wichtig wie früher ist, da jetzt mehr Gewicht auf OffPage Kriterien gelegt wird, sollte man trotzdem bei der Optimierung darauf achten.

Im Gegensatz zur Keyword-Frequenz, was sich auf ein Dokument bzw. Web-Seite bezieht, ist die inverse Dokumentenhäufigkeit ein entscheidender Faktor für die ganze Sammlung der Dokumenten, z.B. Web-Präsenz. Für eine Dokumentsammlung lässt sich die Bedeutung der Worthäufigkeit wie folgt präzisieren. Die inverse Dokumenthäufigkeit im Sinne der Suchmaschinenoptimierung beschreibt die Gewichtung eines bestimmten Suchbegriffs in Bezug auf alle indexierten bzw.

38 vgl. Garcia (2005) 39 vgl. Matthew & Whalan (2004) 40 vgl. Brown (2005) 30

vorhandenen Seiten der Web-Präsenz.41 Das bedeutet, ein Wort oder Phrase, das nur auf wenigen Seiten oft vorkommt, ist geeigneter für die Aufnahme als Suchbegriff in Index einer Suchmaschine, als ein, der auf fast jeder Seite oder nur sehr selten auftaucht. Mit anderen Wörter ist eine Phrase oder ein Wort demnach um so wichtiger, je weniger Seiten dazu mit ihm vorhanden sind.42

Im Unterschied zur lokalen Suchbegriff-Häufigkeit ist die inverse Dokumenthäufigkeit ein globaler Faktor, der sich als sinnvolle Kennzahl für die Verteilung eines Suchbegriffs über eine Sammlung von Seiten einer Web-Präsenz erwiesen hat.

Die inverse Dokumenthäufigkeit lässt sich nach folgender Formel berechnen43:

⎛ N ⎞ IDF = log⎜1+ d ⎟ , t ⎜ ⎟ ⎝ ft ⎠ wobei N d die ganze Anzahl der Seiten bzw. Dokumenten ist und f t die Anzahl der Seiten, die den Suchbegriff t enthalten.

Durch Multiplikation der Keyword-Frequenz und der inversen Dokumenthäufigkeit ergibt sich für jedes Wort eines Textes ein Gewichtungswert, mit dessen Hilfe ein Ranking der Suchergebnisse realisiert werden kann. Je höher das Gewicht, desto höher ist das Ranking:44

Gewicht(i, j) = TF(i)* IDF( j)

Beim Suchen nach einer Suchphrase existiert eine weitere Variation des Verfahrens. Hier geht es um den Abstand zwischen einzelnen Suchwörtern. Stehen die einzelnen Begriffe enger zusammen (im Idealfall nebeneinander oder innerhalb eines Satzes), so ist der entsprechende Text wahrscheinlich wichtiger für einen Nutzer als wenn die Suchwörter zwar alle vorkommen, aber bezugslos an unterschiedlichen Textstellen auftauchen. Der Gewichtungswert für einen Text errechnet sich aus der Anzahl der Wörter, die zwischen den einzelnen Suchargumenten stehen. Der Wert für den Abstand gegebener Suchwörter in einem Text ist um so größer, je kleiner der Wortabstand ist.45

Natürlich spielt auch die Position des Suchbegriffs innerhalb des Dokumentes eine sehr große Rolle bei der Ermittlung seiner Relevanz bezüglich dieses Suchbegriffs. Die wesentliche Arbeit bei der Optimierung einer Web-Seite besteht auch darin, nicht nur

41 vgl. Glöggler (2003), S. 77f. 42 vgl. Nohr (2003), S. 36 43 vgl. Erlhofer (2005a), S. 119f. 44 vgl. Salton & McGill (1987) , S 78. 45 vgl. Stock (2000), S 132f. 31

die relative und absolute Häufigkeit der einzelnen Keywords zu berücksichtigen, sondern auch Ihre Position innerhalb der Seite.

Die HTML-Sprache kann man gut benutzen um nicht nur die Seite zu gestalten, sondern auch um Text gut zu strukturieren. Deswegen sind die mansche HTML-Tags geeignet, die Relevanz der Seite zu bestimmen und das Ranking zu beeinflussen. Suchmaschinen bewerten meistens die Web-Dokumente als besonders relevant, wenn der entsprechende Suchbegriff z.B. im Titel oder innerhalb einer Überschrift vorkommt. Ebenso werden die Begriffe wichtiger betrachtet, wenn die im Text weiter oben stehen.

Je nach der Art der Suchmaschine sind die Keywords an folgenden Stellen innerhalb des Quellcodes der Seite besonders wichtig: Suchbegriffe im Seitentitel, in Überschriften, Linktexten, im Inhalt als verschiedene Textformatierungen, in alt-Tags von Grafiken, in Meta-Tags. Über die Reihenfolge der Wichtigkeit dieser Stellen lässt sich streiten, denn die Suchmaschinen geben nicht bekannt, wie stark die einzelnen Faktoren bewertet werden. Die manche Suchmaschinen legen besonderen Wert auf das Vorkommen der Suchbegriffen im Url der Web-Seite, manche auf den Inhalt und titel- Tags der Links, und manche sogar auf die Meta-tags der Seite. Aber weil man vom Seiten-Titel erwartet, dass er die Inhalte der Seite kurz beschreibt, bewerten diesen fast alle Suchmaschinen besonders hoch.

Textstatische Massnahmen bei der Optimierung der Web-Seite sind ein sehr zeitintensiver Prozess und eine sehr wichtige Komponente, die den Erfolg oder Misserfolg einer Online-Präsenz bestimmt.

4.3.2 Nutzungsstatistische Verfahren

Bei den nutzungsstatistischen Rankingverfahren steht der Nutzer und sein Verhalten im Mittelpunkt, weil nur er die Qualität der Dokumente am besten einschätzen kann. Die nutzungsstatistischen Mechanismen messen die Häufigkeit, mit der ein Dokument in der Trefferliste angeklickt wird, so g. Klick Populaität; die Zeit, die der Benutzer auf der Seite verbringt und die Wiederkehrungen der Benutzer auf der Seite.

Im April 1998 haben Gary Culiss und Mike Cassidy ihre Suchmaschine DirectHit ins Netz gestellt. Besondere Eigenschaft dieser Suchmaschine war, dass sie ihre Suchergebnisse aufgrund des so. g. Klick Popularitäts-Verfahrens dargestellt wurden, d.h. häufig aufgerufene Seiten bekommen bei der nächsten Suche nach diesem Begriff eine bessere Ranking-Position. Um die Manipulationen zu vermeiden bzw. zu verringern, wird dabei die aufrufende IP-Adresse registriert.46

46 vgl. Culliss (2000) 32

Auch aufgrund einerseits der Möglichkeit der inadaequaten und irreführenden Beschreibungen und andererseits, dass die Dokumente, die höhere Platzierungen besitzen, gar nicht „verschoben“ werden können, wird bei diesem Verfahren noch zusätzlich die Verweildauer der Nutzer bei den entsprechenden Dokumenten gemessen. Wenn der Benutzer schnell zur Trefferliste zurückkehrt, um weitere in der Suchergebnisliste vorhandene Seiten auszuwählen oder sogar seine Suchanfrage zu ändern bzw. zu modifizieren, so deutet dies darauf hin, dass durch das Dokument sein Informationsbedürfnis nicht befriedigt wurde. Solche Dokumente sind deshalb in Zukunft bei der gleicher Anfrage nicht mehr so bevorzugt gelistet oder sogar schlechter bewertet. Bei einer Suchanfrage, wenn der Benutzer nach dem Anklicken eines Dokumentes lange nicht auf die Trefferliste zurückkommt oder sogar die Suchmaschine verlässt, weil er seine Informations-Bedürfnisse befriedigen konnte, werden diese Dokumente bei zukunftigen Anfragen besser bewertet und höher gelistet.

Eine weitere zusätzliche Parameter bei dem nutzungsstatischen Verfahren ist die Wiederkehrungsrate für eine Seite bzw. ein Dokument. Hier wird die Anzahl der wiederkehrenden Benutzer als Qualitätsmaß betrachtet. Dies basiert auf der Annahme, dass eine regelmäßig besuchte Seite nicht schlecht sein kann.

Die nutzungsstatischen Verfahren, welche DirectHit für seine Suchmechanisme benutzte, haben jedoch keine Verbreitung bei modernen Suchmaschinen gefunden, da einfach durch die automatisierte Skripte die Ranking manipuliert werden konnte. Aber die dahinterliegende Technologie, die die Anzahl und Qualität der Klicks auf ein Ergebnis ermittelt, wird teilweise bei zahlreichen bekannten Suchdiensten zusätzlich zu vorhandenen Suchtechnologien eingesetzt.

4.4 Linktopologische Rankingverfahren der Suchmaschinen Neben den informationsstatischen Rankingverfahren setzen alle größten Suchmaschinen als einen wesentlichen Faktor des Rankings die linktopologischen Verfahren ein. Diese Verfahren beschäftigen sich mit der Bewertung der Qualität von Webseiten anhand ihrer Verlinkungsstruktur, d.h. Anzahl eingehender und ausgehender Links und deren Gewichtung.

Das Grundprinzip aller linktopologischen Verfahren ist, dass ein Dokument, das stark verlink ist, von größerer Bedeutung ist, als eins, das weniger verlinkt ist. Dieses Prinzip wurde von Bibliographie und Zitatanalyse übernommen. Ein Link wird als eine Empfehlung für ein Dokument(wie z.B. in jeder wissenschaftlichen Arbeit) betrachtet. Aber nicht jedes Link wird als gleichwertig bewertet, sondern wiederum aufgrund der 33

Verlinkungsstruktur und auch Thematik des Dokumentes bestehen die Unterschiede nach ihrer Qualität. So die Links von einer Seite, die schon viele Links von anderen Seiten auf sich bezogen hat, besser bewerten sind, als von jenigen, die noch nicht so bekannt sind. Noch mehr nimmt ein Link an Bedeutung zu, wenn es bei der verlinkten Seiten um ein gleiches Thema handelt.

Aber natürlich bestehen auch bei diesen Verfahren verschiedene Manipulationsmöglichkeiten. So ist es möglich mit Hilfe von entsprechenden Software, eine große Anzahl von Webseiten mit notwendigen Verlinkungen zu generieren und damit die Ranking der Ziel-Seite zu beeinflussen.

Heutzutage benutzen alle bedeutenden Suchmaschinen die linktopologischen Verfahren für ihre Dokumentenbewertungen, wobei aber die Unterschiede in den Verfahren und deren Implementierung bestehen.

4.4.1 Konzept der Link-Popularität

Wie in oberen Kapitel beschrieben wurde, setzen praktisch alle Suchmaschinen heutzutage einen besonderen Wert auf das Vorkommen eines Suchbegriffs in den Inhalten einer Webseite. Dieses Vorkommen wird auch nach den verschiedensten Kriterien, wie etwa die Häufigkeit oder die Stellen des Vorkommens des im Dokument gewichtet. Daraus sind die so g. Doorway Pages, die auf der Basis von Analysen der textstatischen Bewertungskriterien optimal implementierten Webseiten sind und keine besondere Informationswert tragen, außer nur für das Weiterleiten zur Ziel-Seite dienen, populär geworden. Aus der Absicht, solche Seiten aus der relevanten Suchergebnissen wegzuschaffen, entstand das Konzept der Link-Popularität.

Bei dem Konzept der Link-Popularität bezeichnet man die Anzahl der eingehenden Links für ein Dokument bzw. Webseite als ein grundsätzliches Kriterium für die Bedeutung einer Webseite in die Relevanzbeurteilung ein. Die Grundlage des Konzeptes ist, dass eine Webseite um so wichtiger ist, je häufiger es von den anderen verlinkt wird.47

Fast alle Suchmaschinen benutzen mehr oder weniger Link-Popularität-Verfahren für ihre Algorithmen. Die Suchdienste von Google, der Marktführer auf dem Suchmaschienen Markt, sind auf diesem Prinzip „groß gewachsen“.

Durch dieses Konzept versuchen die Suchmaschinen, Erscheinungen verschiedener Formen von auf den statischen Verfahren basierten Suchmashinen-Spam in den Suchergebnissen zu verhindern. Aber wie die Entwicklung gezeigt hat, wurde auch das

47 vgl. hier und im Folgenden Erlhofer (2005a), S. 122f. 34

Konzept der Link-Popularität schnell von Webmastern antizipiert. Zuerst dienen zur Linkssammlung die gefälschten Gästebucheinträge, dann die gefakten Foren-Threads und künstlich erzeugten Blog-Kommentaren. Dazu kamen später die regelrechten Link- Farmen und Link-Netzwerke, die keinen anderen Zweck verfolgten, als durch die gegenseitige Verlinkung eine hohe Linkpopularität zu schaffen.

Es war also notwendig, dass die Suchmaschinen, die Link-Popularität bei ihren Algorithmen einsetzen, seine Verfahren ändern bzw. erweitern. Daraus entstand so.g. Domain-Popularität Konzept und IP-Popularität Konzept, bei dennen nur die Links von einem Domain bzw. IP-Adresse bewertet. Also ein einzelner Link hat nun genauso viel Gewicht wie mehrere Links, die von derselben Domain bzw. IP die gleiche Seite verlinken.

So konnte die Linkpopularität früher ganz einfach mit mehreren tausend Links von einer einzigen Domain beeinflusst werden, so kann die Domainpopularität aktuell mit vielen Links von verschiedenen Domains auf einem einzigen Server beeinflusst werden. Um die IP-Popularität zu beeinflussen, müsste man somit viele Links von vielen verschiedenen Domains auf vielen verschiedenen Servern, was natürlich sehr kostenaufwändig und nicht effizient ist. Aber Einsatz von IP-Popularität bedeutet, dass die gute und freiwillig gesetzten Links nicht berücksichet werden, wenn sich die Kunden von Massenhostern wie z.B. 1+1, Host Europe, Strato, die auf einem Server liegen, gegenseitig verlinken.

4.4.2 PageRank-Verfahren

Das PageRank-Verfahren ist nach seinem Erfinder Lawrence Page benannt und steht in Hintergrund der Ranking-Mechanismen der Suchmaschine Google.48 Das Verfahren wurde von der Stanford University patentiert (United States Patent 6,285,99949).

Im Gegensatz zum Konzept der Link-Popularität setzt das Konzept des PageRanks die Betonnung nicht einfach auf die absolute Anzahl eingehender Links sondern mehr auf die Qualitäte dieser Links. Das Argumente von Google-Gründer gegen das Konzept der einfachen Link-Popularität war, dass es schon zwar beteutsam ist, wenn eine Seite mehrere eingeehnde Links besitzt, aber nicht alle diese Links von gleicher Bedeutung sind. Viel besser wird eine Seite bewertet, wenn sie von anderen bedeutenden Seiten verlinkt wird.

„Außerdem analysiert Google die Wichtigkeit der Seite, die das Votum abgegeben hat. Dabei hat ein Votum von einer Seite, die selbst als ’wichtig’ gewertet wird, ein größeres

48 vgl. hier und im Folgenden Brin & Page (1998) 49 Page (1998) 35

Gewicht und somit größeren Einfluss auf die Bewertung anderer Seiten. Wichtige, qualitativ hochwertige Seiten werden von PageRank höher eingestuft und demnach auch in den Ergebnissen an einer vorderen Position aufgeführt.“ 50

Und der Rang dieser verlinkten Seiten wird wiederum aus dem Rang verlinkender Dokumente. Also die Bedeutsamkeit einer Seite wird rekursiv aus der Bedeutsamkeit anderer Seiten ermittelt.51

Lawrence Page und Sergey Brin bieten in ihren Veröffentlichungen eine sehr einfache, intuitive Rechtfertigung des PageRank-Algorithmus an:

⎛ PR(T1 ) PR(T2 ) PR(Tn ) ⎞ 52 PR()A = (1− d )+ d⎜ + + ... + ⎟ ⎝ C(T1 ) C(T2 ) C(Tn ) ⎠

Hierbei ist: PR()A der PageRank einer Seite A,

PR(Ti )der PageRank der Seiten Ti , von denen ein Link auf die Seite A zeigt,

C(Ti ) die Gesamtanzahl der Links auf Seite Ti ,

d ein Dämpfungsfaktor (Damping Factor), wobei 0 ≤ d ≤ 1.53 Das PageRank-Verfahren bewertet nicht Web-Seiten in ihrer Gesamtheit, sondern basiert ausschließlich auf der Beziehung einzelner Web-Seiten zueinander.

Der PageRank einer Seite A lässt sich rekursiv aus dem PageRank derjenigen Seiten ermitteln, die ein Link auf die Seite A haben. Der PageRank der Seiten Ti wird anhand der Anzahl C()T der von Seite T ausgehenden Links gewichtet. Das bedeutet, dass je mehr ausgehende Links eine Seite T hat, umso weniger PageRank bekommt die Seite A von Seite T. Schließlich wird die Summe der gewichteten PageRanks der Seiten Ti mit dem Dämpfungsfaktor d multipliziert.

Lawrence Page und Sergey haben auch einen Zufalls-Surfer eingeführt, der einfach von einer Seite zur anderen über beliebige Links geht, ohne dabei auf Inhalte zu achten.54 Die Wahrscheinlichkeit, dass der Zufalls-Surfer nun einen bestimmten Link verfolgt, ergibt sich aus der Anzahl aller ausgehenden Links auf der Seite, wo er sich befindet. So ist diese Anzahl in der Berechnung des Pageranks mit dabei. Der Dämpfungsfaktor d, der zwischen 0 und 1 liegt, bestimmt die Wahrscheinlichkeit, mit der der Zufalls-Surfer

50 vgl. Google (2006b) 51 vgl. Lewandowski (2005), S. 118 52 Brin & Page (1998) 53 Glöggler (2003), S.83 54 Page et al. (1998), S. 5f; vgl. auch Sobek (2002) 36

die Verfolgung von Links nicht abbricht und die Links auf dieser Seite weiterfolgt. Der Dämfungsfaktor d wird Angaben von Lawrence Page und Sergey Brin für tatsächliche Berechnungen üblicherweise auf 0.85 gesetzt. Da der Zufalls-Surfer nach dem Abbruch der Link-Verfolgung eine beliebige Seite aufruft, geht die Wahrscheinlichkeit mit er er dies tut, mit dem Wert (1-d) als Konstante in die Berechnung des PageRanks einer jeden Seite ein.

Die Eigenschaften des PageRank kann man anhand eines einfachen Beispieles zeigen55:

Abb. 4.2 Ein Beispiel für die Eigenschaften des PageRanks

Es sind drei Webseiten A, B und C gegenseitig verlinkt: Seite B verlikt auf Seite C, Seite C auf Seite A und Seite A sowohl auf Seite B als auch auf Seite C. Der Dämfungsfaktor d , um die Berechnungen zu vereinfachen, wird auf 0.5 gesetzt. So kann man den PageRank für die einzelnen Seiten ermitteln:

PR()A = 0.5 + 0.5PR ()C

⎛ PR()A ⎞ PR()B = 0.5 + 0.5⎜ ⎟ ⎝ 2 ⎠

⎛ PR()A ⎞ PR()C = 0.5 + 0.5⎜ ⎟ + PR()B ⎝ 2 ⎠ Nach der Berechnungen dieser Gleichungen bekommt man folgende Werte:

PR()A = 1.07692308 PR()B = 0.76923077 PR()C = 1.15384615

Aber, weil das Web aus Milliarden von Seiten besteht, ist die Berechnung solcher Gleichungen einfach nicht möglich. Deswegen benutzt die Suchmaschine Google eine näherungsweise, iterative Berechnung.56 Es bedeutet, dass zuerst für jede Seite ein PageRang zugeordnet wird und erst dann ermittelt man tatsächlichen PageRank aller

55 vgl. Sobek (2002) 56 vgl. hier und im Folgenden Glöggler (2003), S. 84 ff 37

Seiten in mehreren Berechnungsrunden. Anhang eines kleinen Beispiels sieht man das Prinzip deutlicher. Als Ausgangspunkt sind wieder 3 Seiten mit jeweils Pagerank1.

Tab. 4.1 Iterative Berechnung des PageRankings

Iteration PR(A) PR(B) PR(C) 0 1 1 1 1 1 0.75 1.125 2 1.0625 0.765625 1.1484375 3 1.07421875 0.76855469 1.15283203 4 1.07641602 0.76910400 1.15365601 5 1.07682800 0.76920700 1.15381050 6 1.07690525 0.76922631 1.15383947 7 1.07691973 0.76922993 1.15384490 8 1.07692245 0.76923061 1.15384592 9 1.07692296 0.76923074 1.15384611 10 1.07692305 0.76923076 1.15384615 11 1.07692307 0.76923077 1.15384615 12 1.07692308 0.76923077 1.15384615 Man sieht, dass schon nach wenigen Runden das gleiche Ergebnisse erscheint. Für die Berechnung des PageRanks für das komplette WWW werden von Lawrence Page und Sergey Brin ca. 100 Iterationen als hinreichend genannt.

Bei einer Suchanfrage wird aus den statischen Informationen, wie Titel, Url oder Textinhalte der Seite, und den Ankertexten eingehender Links eine Position bestimmt. Dann wird diese Bewertung mit dem PageRank der Seite als Indikator für die ganz allgemeine Bedeutsamkeit der Webseite kombiniert. Bei diesem Kombinieren wird es multiplikativer, und nicht additives, Verfahren eingesetzt, weil ansonsten die Möglichkeit besteht, dass bei einer Suchanfrage die jenige Seiten hoch rangiert werden, die sehr hohen PageRank besitzen, obwohl sie keinen Zusammenhang mit dem Suchbegriff haben.57

Bei den Suchanfragen, die aus mehreren Begriffen bestehen, zeigt sich der Einfluss textstatischer Faktoren sehr groß. Der Einfluss des PageRank ist hingegen höher bei unspezifischen, aus einem Begriff bestehenden Suchanfragen. Gerade für Mehr- Begriffs-Anfragen ist es möglich, mit den klassischen textstatischen Verfahren der Suchmaschinen-Optimierung eine Web-Präsenz in den Ergebnislisten besser zu platzieren.58

57 vgl. Sobek (2002) 58 vgl. Sobek (2002) 38

Seit dem Lawrence Page und Sergey Brin ihre wissenschaftlichen Arbeiten veröffentlicht haben, gibt es viele Diskussionen darüber, ob es für die Berechnung des PageRank noch weitere Faktoren außer der Link-Struktur des Webs einbezogen sind. Lawrence Page selbst skizziert in der Patentschrift59 zum PageRank-Verfahren die folgenden potentiellen Einflussfaktoren:60

• die Stärke der Hervorhebung eines Links;

• die Position eines Links innerhalb des Dokuments;

• die Distanz zwischen Webseiten;

• die Bedeutung einer verweisenden Seite;

• die Aktualität einer verweisenden Seite.

Obwohl es schwer zu beantworten ist, ob einzelne dieser Faktoren tatsächlich in das PageRank-Verfahren implementiert sind, ist es zu empfehlen, diese bei dem Linkstausch zu berücksichtigen.

4.4.3 HITS-Verfahren

Ein bedeutendes linktopologischen Rankingverfahren ist auch das HITS-Verfahren von Kleinberg (Hyperlink Induced Topic Search). Bei diesem Verfahren versucht Kleinberg, die Einschränkungen einfacher Linkzählungen bzw. die themenunabhängigen Bewertungen von Webseiten zu überwinden.

59 Page (1998) 60 vgl. hier und im Folgenden Sobek (2002) 39

Abb. 4.3 Hubs- und Authorities-Beziehungen beim HITS-Verfahren Bei einer Suchanfrage werden nach HITS-Verfahren die besten Hubs und Authorities zurückgeliefert. Die Authorities sind die Web-Seiten, auf die sehr häufig durch Hyperlinks verwiesen wird, und die eine hohe Autorität in Bezug auf ein bestimmtes Themengebiet aufweisen. Die Hubs sind die Seiten, die auf Authorities verweisen. Eine Eigenschaft von Hub- und Authority-Webseiten ist, dass je mehr Hyperlinks von Hubs auf eine Authority-Seiten verweisen, desto höher kann deren Qualität bewertet werden. Man kann eine Hub-Seite als „gut bezeichnen“, wenn auf dieser die Links zu guten Authorities, also die Links guter Qualität, gesammelt sind(z.B wenn eine Seite mit ihrem Link das Yahoo-Verzeichnis empfiehlt).

Also bezogen auf diese Eigenschaft lässt sich nach HITS-Verfahren für eine Web-Seite ein Hub-Gewicht (Hp) und ein Authority-Gewicht (Ap) berechnen.

H ()p = ∑ A ()u u∈B:p→u

A()p = ∑ H ()v v∈B:v→ p

Hub-Gewicht H ()p einer Web-Seite p berechnet man mittels Aufaddieren der Authority-Gewichte A()u aller Seiten u, auf die die Seite p einen ausgehenden link hat.

Entsprechend wird das Authority-Gewicht A(p) mittels Aufaddieren der Hub- Gewichten H ()v aller Seiten v, die einen Hyperlink auf p enthalten.

Die Hub- und Authority-Gewichte berechnet man mit einem iterativen Verfahren, wobei zuerst die Ausgangswerte festgelegt und in jedem Schritt weiter bestimmt und 40

anschließend normalisiert werden. Zum Beginn werden die Hub- und Authority- Gewichte aller Seiten in B auf den Wert eins gesetzt. Schon nach wenigen Schritten ändern sich die Gewichte nur noch geringfügig. Für das Bestimmen der Werte sollen in der Regel schon 20 Durchläufe ausreichen61.

Das Ergebnis ist für jede Seite ein Hub- und ein Authority-Gewicht. Meistens haben die Web-Seiten mit hohem Authority-Gewicht nur ein geringeres Hub-Gewicht und die Web-Seiten mit starkem Hub-Gewicht ein geringeres Authority-Gewicht.

Also mit dem HITS-Verfahren von Kleinberg ist es möglich, nicht nur die „wichtigsten" Seiten zu einer Suchanfrage festzustellen, sondern auch die Seiten zu ermitteln, die einen Sucheinstieg zu den bedeutenden Quellen bieten.

Die Kleinbergs Ideen wurden in den Algorithmen der Suchmaschine Teoma vor ihrem Verkauf an Ask Jeeves in 2001 umgesetzt. Es ist natürlich nicht möglich, zu überprüfen, ob es Ranking von Teoma exakt nach dem Kleinberg-Algorithmus abgelaufen ist, aber es ist klar, dass die Hub- und Authorities-Seiten bei einer Suche zu unterscheiden sind.

Die Trefferlisten bei Teoma wurden in Ergebnisse, Ressourcen und Vorschläge zur Verbesserung der Suchanfrage unterteilt. Unter Ergebnissen wurden die nach ihrer Autorität sortierten Suchergebnisse angezeigt und die Ressourcen entsprachen den Kleinbergs Hub-Seiten.

4.4.4 Hilltop-Verfahren

Der Hilltop-Algorithmus wurde von Bharat und Mihaila an der Universität Toronto entwickelt und 1999 veröffentlicht. Im Jahr 2003 hat die Suchmaschine Google das Patent an diesem Algorithmus gekauft.

Die grundlegende Idee dieses Verfahrens ist, die besten Web-Seiten zu populären Themen Anhang ihrer eingehenden Links von so genannten Experten-Seiten zu bewerteten. Eine Experten-Seite zu einem bestimmten Thema ist eine Web-Seite, die Links zu vielen unabhängigen Seiten (in der Version von Bharat und Mihaila sind es mindestens 5) zu diesem Thema besitzt(z.B. Web-Verzeichnisse). Man soll hier auch die unabhängigen Seiten streng definieren. Die Seiten sind unabhängig, wenn sie nicht zum gleichen Class-C Netz gehören, d.h. die ersten drei Blöcke der IP-Adresse stimmen nicht überein, und nicht den gleichen Domainnamen haben (z.B. www.ltur.com und www.ltur.de). Weiterhin handelt es sich auch nicht um eine transitive Beziehung, d.h. Seite A steht in Verbindung mit Seite B und Seite B in Verbindung mit Seite C, so stehen Seiten A und C in Verbindung.

61 vgl. Kleinberg (1999), S614 41

Die Webseiten, die viele eingehenden Links von besten Experten-Seiten besitzen, sind dann die Autoritäten-Seiten und sind in den Ergebnislisten gut rangiert. Je mehr Links von Experten-Seiten eine Web-Präsenz auf sich bezogen hat, desto höher steht sie schließlich im Ranking.

Bei diesem Verfahren können aber auch die Situationen vorkommen, dass zu einer Suchanfrage keine Seiten gefunden werden, weil nicht genügend Experten-Seiten zur Verfügung stehen, um ein sinnvolles Ranking zu ermöglichen.

Weil angenommen ist, dass der Nutzer nicht in der Lage ist, die gesamte Treffermenge einer Suchmaschine durchzusehen, liefert man nach dem Hilltop-Algorithmus nur geringere Treffermengen zurück, die nur die wichtigsten Seiten beinhalten.

Da Google 2003 das Patent an Hilltop-Algorithmus erworben hat und einer der Entwickler dieses Algorithmus Krishna Bharat mittlerweile ein Mitarbeiter von Google ist, kann man davon ausgehen, dass Hilltop-Verfahren in Ranking-Mechanismen von Google einbezogen wurde.

Eine Suchmaschinenoptimierung wird beim Hilltop-Algorithmus durch das Sammeln von den Backlinks von Experten-Seiten erreicht. Man soll die zu optimierende Seite in möglichst vielen Webverzeichnissen registrieren lassen oder nach den Seiten suchen, die gleichzeitig auf viele top-platzierte Webseiten verweisen, um dort ein Link auf eigene Web-Präsenz zu setzen zu versuchen. 42

5 Verfahren zur Optimierung der Indexierung und des Rankings von Web-Seiten Wie in Kapitel 3.2 beschrieben wurde, die Optimierung einer Web-Seite für die Suchmaschinen ist die Durchführung aller Maßnahmen, die für bessere Platzierungen dieser Seite innerhalb der natürlichen Ergebnisse der Suchmaschinen bezüglich den bestimmten Suchbegriffen zu sorgen. Die Massnahmen zur Optimierung der Seiten- Struktur und –Inhalte gehören zu den OnPage Methoden62 und die Optimierung interner und externer Link-Struktur zur OffPage Optimierung.63 Methoden, die nicht relevante Webseiten auf vordere Plätze der Suchergebnissen bringen, werden als Spam-Methoden bezeichnet. Diese verstoßen gegen Regeln, die Suchmaschinen zum Schutz vor Manipulationen ihrer Suchergebnisse aufstellen.

5.1 OnPage Suchmaschinen-Optimierung Unter "OnPage Optimierung" versteht man alle Massnahmen, die ausschließlich auf der eigenen Website vorgenommen werden. Dazu zählen Anpassungen an der Struktur und den Inhalten der Webseiten, um eine bessere Position in den Suchmaschinen- Ergebnissen zu erzielen. Qualitativ hochwertige Informationen für die Besucher sollen optimiert werden oder mit eigenen optimierten Texten ergänzt werden. Und die Seiten, wo diese Informationen zu finden sind, sollen für die Suchmaschinen gut und schnell erreichbar sein. Eine einmal "durchoptimierte" Webseite soll nun fortlaufend um neue, ebenfalls optimierte Inhalte ergänzt werden.

5.1.1 Auswahl der Suchbegriffe

Die Auswahl der richtigen Schlüsselbegriffe für die Web-Seite ist eine der ersten und wichtigsten Phasen bei der Umsetzung einer Suchmaschinen-Optimierungsstrategie, da alle nachfolgenden Optimierungsmaßnahmen auf diesen Begriffen beruhen. Damit bestimmt man, für welche Themen die Web-Seite relevant sein soll und mit welchen Suchbegriffen die Webseite bei den Suchmaschinen gefunden werden soll. Diese kann man in einzelne Schritte zerlegen.64

Als erstes wäre ein Brainstorming notwendig, um Ideen für Keywords zu sammeln. Dabei ist natürlich die Frage zu beantworten, welche Begriffe die potentiellen Kunden bei ihrer Suche nutzen können. Sobald die Keywords-Liste erstellt wurde, kann man diese mit verschieden Keyword-Tools auf weitere Ideen überprüfen. Unter den

62 vgl. Glöggler (2003), S. 169 63 vgl. Erlhofer (2005a), S. 239 64 vgl. Glöggler (2003), S. 126ff 43

kostenlosen Online-Tools sind MetaGer-Web-Assoziator65 und das Google AdWords Keyword Tool66 zu empfehlen. Wenn die Liste von Suchbegriffen erstellt ist, kann man diese bei der Notwendigkeit auch auf den möglichen Erfolgspotential überprüfen. Das Overture Search Term Suggestion Tool67 zeigt, wie oft ein Keyword im vergangenen Monat im Overture-Netzwerk, wo z.B. die Suche von Yahoo ist, gesucht wurde und außerdem in welcher Kombinationen es mit anderen Keywords benutzt wurde. Auf diese Aussagen kann man sich nicht ganz verlassen, aber sie geben einen Anhaltspunkt und eignen sich durchaus für Vergleiche zwischen Keywords. Um der Entscheidung noch näher zu zukommen, sollte man sich an dieser Stelle einmal die Konkurrenz bei einem Keyword anschauen. Die Anzahl der gefundenen Seiten für einen Suchbegriff in den Ergebnissen einer Suchmaschine spiegelt den Schwierigkeitsgrad dieses Begriffs wieder.

Kurz zusammenfassend sind also die folgenden Faktoren die wichtigsten bei der Auswahl ihrer Keywords: Menge des zu erwartenden Traffic, Qualität des Traffics und Wettbewerb bei diesem Keyword.

5.1.2 Optimierung der Struktur der Web-Seite

Die Festlegung der Struktur der ganzen Web-Präsenz ist auch einer der wichtigen Ausgangspunkte für den Erfolg der ganzen Optimierungsmassnahmen. Hier orientiert sich der Benutzer, aber auch die Suchmaschinen finden über die Navigation die eizelnen Angebots-Seiten. Das klassische Strukturmodell einer Website ist der hierarchisch verzweigte Baum mit der Homepage als Wurzel. Jedes Content-Objekt nimmt einen bestimmten Platz in dieser Hierarchie ein. Zusätzliche Querverweise erleichtern die Navigation zwischen verwandten Elementen in unterschiedlichen Ästen.

Bei der hierarchischen Struktur stellt sich die Frage, ob die Web-Präsenz eher flach oder tief strukturiert sein soll.

Eine flach strukturierte Seite hat weniger Verzeichnis-Ebenen, dafür aber viele Auswahlmöglichkeiten auf jeder Ebene. Hier muss der Benutzer zwar nicht so oft klicken, steht aber vor grosser Auswahl verschiedener Rubriken auf jeder einzelnen Seite.

65 vgl. MetaGer (2006a) 66 KeywordTool(2006) 67 SuggestionTool (2006) 44

Root-Indexseite

Thema 1 Thema 2 Thema 3

Seite1 Seite2 Seite3 Seite1 Seite2 Seite3 Seite1 Seite2 Seite3

Abb. 5.1 Ein Beispiel für eine flach strukturierte Seite

Die tief strukturierten Seiten bieten nur wenige Auswahlmöglichkeiten pro Seite, haben aber viele Gliederungsebenen. Mit wachsender Tiefe steigt die Suchzeit und die Navigation wird immer schwieriger.

Root-Indexseite

Thema 1 Seite1 Seite2

Seite3

Thema 2

Seite1 Seite2 Seite3 Thema 2

Seite1 Seite2

Seite3

Abb. 5.2 Ein Beispiel für eine tief strukturierte Seite

Als ausgewogene Struktur wird von Jacobsen eine mit maximal vier Ebenen und nicht mehr als sieben Wahlmöglichkeiten auf jeder Seite empfohlen. Untersuchungen aus der Gedächtnispsychologie haben gezeigt, dass das menschliche Gehirn sieben Elemente optimal aufnehmen kann, höhere Anzahlen führen bei den meisten zu einer Überforderung.68

Von den meisten Suchmaschinen-Agenturen sind 3-4-Ebenen-Hierarchie auch zu empfehlen. Mit einer möglichst flachen Datei-Hierarchie kann man das Leseverhalten und die Suchmaschinen-Relevanz positiv beeinflussen. Die Anzahl der Verzeichnis-

68 vgl. Jacobsen (2002), S.99ff 45

Ebenen der Web-Präsenz hat unmittelbaren Einfluss auf die Geschwindigkeit und die Vollständigkeit, mit der die Suchmaschinen-Robots die Webseite indexieren.69 Die flache Seite-Struktur ist auch ein entscheidener Faktor für die Vergabe des PageRanks für die Angebots-Seiten. Wie schon im Abschnitt 4.3.2 erwähnt wurde, mit jeder Verzeichnisebene der dabei maximal vererbte Pagerank um einen bestimmten Wert (meistens um 1) sinkt, was natürlich die Position der Seiten in den Suchergebnissen stark beienflussen kann.

5.1.3 URLs-Design

Wie nach einer Studie von Bright Planet70 ermittelt wurde, sind etwa 80% aller Web- Seiten von den Suchmaschinen gar nicht indexiert worden und sind durch eine Web- Suche nicht findbar. Die meisten Webinhalte stehen in Datenbanken und sind erst über die dynamischen Aufrufe (z.B. http://www.e- hoi.de/search/searchresult.cfm?rid=51&datum_von=31.10.2006&datum_bis=23.12.200 6&calendar=yes&destination=104) verschiedener Art erzeugt. Genau bei solchen Web- Seiten kriegen fast alle Suchmaschinen oft einen Stop-Befehl.

„Google indiziert dynamisch generierte Webseiten, einschließlich ASPSeiten, PHP- Seiten und Seiten mit Fragezeichen innerhalb der URLs. Diese Seiten können unserem Crawler jedoch Probleme bereiten, weshalb sie dann unter Umständen ignoriert werden.“71

69 vgl. Erlhofer (2005a), S. 246 70 vgl. Berman (2001), S2.f 71 Google (2006c) 46

Abb. 5.3 Ein Beispiel für die Surfase- und Deep-Web72

Dies hat verschiedene Gründe. Die Suchmaschinen wollen mit ihrem Spider nicht über eine unbekannte Zahl von Parameterkombinationen an eine Unmenge von Dokumenten kommen, die eigentlich keine echten Seiten sind. Inhalte in Datenbanken wechseln und aktualisieren sich oft, was zu Unterschieden zwischen dem angezeigten bei Suchergebnissen und dem tatsächlichen Inhalt führt. Viele Shopsysteme, e-Commerce- Seiten oder auch normale Webseiten vergeben beim ersten Seitenaufruf oft sogenannte Session-IDs, die an die URL angehängt und von Link zu Link weitergegeben werden und somit ermöglichen, den Benutzer über viele Seiten hinweg zu identifizieren. Suchmaschinen möchten solche Seiten nicht indizieren, denn eine Benutzersitzung kann benutzerspezifischen Inhalt haben und die Sitzung wird nach einer gewissen Zeit ungültig, sodass diese Seiten später nicht mehr aufrufbar sind.73

Auch ein Grund gegen die dynamischen Seiten ist, dass verschiedene Parameterkombinationen zu gleichem Inhalt führen, und damit im Index der Suchmaschine die redundanten Inhalte entstehen. Besonders problematisch ist für die Suchmaschinen-Speider durch die Post-Formulare an die Inhalten zu kommen. Das heißt, dass mit Post-Variablen erzeugten Seiten, bei denen es oft um ein Endprodukt geht und die besonders attraktiv aus der Benutzersicht sind, bleiben in der

72 Berman (2001), S2. 73 vgl. Lewandowski (2005), S. 51 47

Suchmaschine nicht auffindbar. In diesem Fall sind die interne Verlinkunken auf die Ziel-Seiten sehr hilfsreich.

Die statischen Seiten hingegen sind für alle Suchmaschinen-Roboter sehr attraktiv zu indexieren, da es hier um einen eindeutigen und in der Regel konsistenten Inhalt handelt. Zu den Vorteilen der statischen Seiten bei den Suchmaschinen können die Aussagen der Suchmaschinen-Betreiber selbst sprechen.

Google:

„...Beachten Sie, wenn Sie dynamische erzeugte Seiten verwenden (d.h., wenn die URL das Zeichen '?' enthält), dass einige Crawler dynamische Seiten im Unterschied zu statischen Seiten nicht durchlaufen. Verwenden Sie wenige und kurze Parameter.“74

MSN:

“...Ihre URLs sollten einfach und statisch sein. Komplizierte oder häufig geänderte URLs sind als Ziel von Links kaum geeignet. So kann für den URL www.beispiel.com/meine_seitedas Crawling durch MSNBot einfacher durchgeführt werden als für einen langen URL mit zahlreichen Erweiterungen.“75

Seekport:

„...Weil wir bei Seekport möglichst keine überflüssigen Seiten präsentieren wollen, sind wir bei der Aufnahme solcher Seiten mit dynamischer URL sehr zurückhaltend.“76

Somit geben die meisten Suchmaschinen-Betreiber in ihren jeweiligen Optimierungstipps das klare Statement ab, dass dynamische URLs nicht so gut wie statische für die Suchmaschinenplatzierung sind.

Dazu kann man noch die Ranking von statischen Seiten verfeinern, indem man die Suchbegriffe in URL der Seite aufnimmt. Da die Ranking-Mechanismen der einzelnen Suchmaschinen geheim bleiben, ist die Gewichtung der Keywords in URL der Seite unklar. Aber davon ausgehend, das diese bei der Suchergebniss-Anzeige extra hingewiesen werden, spielen sie definitiv eine Rolle bei der Seiten-Bewertung.

5.1.4 Optimierung der Meta-Informationen

Die Meta-Tags der Seiten beinhalten Informationen, die etwas über ihre Eigenschaften aussagen.77 In Meta-Informationen kann man verschiedene nützliche Anweisungen für

74 Google (2006f) 75 MSN (2006a) 76 Seekport(2006) 48

WWW-Server, WWW-Browser und automatische Suchprogramme im Internet notieren. Einige der Meta-Tags sind speziell für die Suchmaschinen-Spider und -Roboter gedacht. Diese Informationen werden von jeder Suchmaschine gelesen und entsprechend ausgewertet. Meta-Tags können mehr oder weniger das Ranking, den Inhalt und das Aussehen einer Angabe in der Trefferliste einer Suchmaschine auswirken.

Die Metainformationen werden innerhalb des Dokumentenkopfes(im Header-Bereich des HTML-Codes) platziert und sind für den User, ausser Titel-Tag, nicht sichtbar. Die Idee, dass die Autoren ihre Web-Seiten anhand der Meta-Informationen beschreiben, fanden die Suchmaschinen noch vor wenigen Jahren sehr gut, und zogen diese Informationen in für die Relevanzbeurteilung ein. Aufgrund der ständig wachsenden Zahl der Internet-Nutzer und immer wachsender Konkurenz im WWW wurde die Suchmaschinenoptimierung ein immer wichtigerer Faktor. Dies führte dazu, dass diese Form der Inhaltserschließung von den Website-Betreibern missbraucht wurde, indem falsche Angaben die Suchmaschinen-Relevanz vortäuschen sollten. So konnte z.B. eine Web-Seite, die keine Informationen über Kreuzfahrten enthielt, dennoch bei den Suchanfragen zu den entsprechenden Suchbegriffen berücksichtig werden, das Meta- Tag Keywords mit den entsprechenden Begriffen gefüllt wurde:

Aus diesem Grund verzichten heutzutage alle wichtigen Suchmaschinen auf die Auswertung der Meta-Tags in ihren Ranking-Mechanismen. Ganz ohne Nutzen für die Suchmaschinen-Otimierung sind einige Meta-Tags aber dennoch nicht. So verwenden viele Suchmaschinen das Meta-Tag Description zur Erstellung der Anzeige bei der Ausgabe von Suchergebnisen. Eine attraktiv aussehende Anzeige steigert die Wahrscheinlichkeit, von dem User angeklickt zu werden.

Die andere Meta-Tags aus der Suchmaschinenoptimierung-Sicht sind uninteressant und nutzlos, da diese in die Ranking-Algorithmen nicht eingezogen werden. Eine ausführliche Abhandlung findet sich beispielsweise in Erlhofer.78

77 vgl. Lewandowski (2005), S. 92 78 vgl. Erlhofer (2005a), S. 38-47 49

5.1.5 Optimierung der Inhalten der Seite

Grundsatzlich suchen alle Suchmaschinen nach Übereinstimmung der Suchbegriffe und Inhalte der Seite – wie oft und wo wird der Begriff innerhalb der Seite gefunden.

Der Text innerhalb des Title-Tags im Head-Bereich wird nicht nur von allen Suchmaschinen in hohem Maße gewichtet, sondern erscheint auch in der Ergebnisliste jeder Suchmaschine meistens in gefetteter und unterstrichener Schrift, und gehört damit zu den wichtigsten Elementen bei der Optimierung. Die hohe Bedeutung des Titels ist damit verbunden, dass nirgendwo sonst der Inhalt des Dokuments so knapp und präzise formuliert werden muss.79 Deshalb ist die Nennung aller entsprechenden Schlüsselwörter im Titel natürlich Pflicht. Die Suchmaschinen indexieren zwischen 80 und 250 Zeichen des Title-Tags. Die optimale Länge des Title-Tags sollte aber nur zwischen 40 und maximal 100 Zeichen beinhalten. Das entspricht etwa vier bis zehn Wörtern.80 Benutzt man zu viele Wörter, nimmt die Bedeutsamkeit der einzelnen Begriffe ab.

Der Body-Bereich enthält in einer suchmaschinenfreundlichen Webseite den Fließtext, der das Thema inhaltlich vermitteln soll. Die beste Optimierung einen Text zu schreiben, der das beabsichtigte Thema intensiv behandelt und wo die relevanten Schlüsselbegriffe genannt werden. Der wichtigste Aspekt beim Schreiben eines Fließtextes ist ein altes journalistisches Grundprinzip - das Wichtigste soll an den Anfang eines Textes gestellt werden und die Bedeutung mit der Länge des Textes stets abnimmt.81 Generell gilt für jede Seite, dass der enthaltene Text eine gewisse Kompetenz beweisen muss, d.h. die Schlüsselbegriffe in einem gesunden Verhältnis zum Gesamttext stehen müssen.82 Eine zu hohe Suchbegriff-Dichte (Keyword-Density) kann zum Betrugsverdacht im Sinne eines Spamversuchs bringen.83 Die optimale Stichwort-Dichte hängt natürlich von den einzelnen Parametern einer Suchmaschine ab. In der Praxis hat sich jedoch eine Suchbegriff-Dichte zwischen einem und sieben Prozent als optimal erwiesen.

Um Nutzern das Scanning zu erlauben und gegebenenfalls einen Einstieg mitten in den Text zu bieten, sollte die Aufmerksamkeit auf bestimmte Wörter innerhalb des Textes gelenkt werden. Dabei stellt HTML eine Vielzahl von Möglichkeiten zur Verfügung,

79 vgl. Glöggler (2003), S. 131ff 80 vgl. Erlhofer (2005a), S. 218 81 vgl. Erlhofer (2005a), S. 220f. 82 vgl. Kapitel 4.2.1 83 vgl Glöggler (2003), S. 189f; vgl. auch Erlhofer (2005a), S. 270ff. 50

die eine Hervorhebung einzelner Zeichen bzw. Wörter erlaubt.84 Die folgende Tabelle zeigt eine Auswahl an Tags zur Hervorhebung von Termen:

Tab. 5.1 Auswahl an Tags zur Hervorhebung von Termen mittels HTML Tag Bedeutung Fett(bold) Fett(strong) Kursiv(italic) Durchgestrichen (strike) Hervorgehoben (emphasized) Zitat (citation) Tiefergestellt Text Höhergestellter Text

Nichts ist besser geeignet, das Thema eines Abschnittes zu bestimmen, als eine beschreibende Überschrift. Diese Erkenntnis machen sich natürlich auch die Suchmaschinen bei ihrer Analyse zu Nutze. In HTML sind Überschriften (Headings) mit dem H1- bis H6-Tag vorgesehen. Der H1-Tag stellt somit die höchste Ebene dar. Hier sollten dementsprechend auch die primären Schlüsselbegriffe positioniert werden.

Der Beschaffenheit der Links kommt bei der Optimierung ebenfalls eine wichtige Rolle zu. Denn die a-Tags werden insbesondere unter Berücksichtigung des Anchor-Textes analysiert und bilden somit in Bezug auf die hypertextuellen Gewichtungen ein wichtiges Kriterium der Suchmaschinen-Optimierung. Dem Anchor-Text kommt daher eine besondere Bedeutung zu.

Bei der Verwendung des Linktextes ist darauf zu achten, dass die Schlüsselwörter des Dokuments verwendet werden, auf das der Verweis zeigt. So sollte ein Verweis von Dokument A, der auf Dokument B verlinkt und auf den Begriff „Aida Kreuzfahrten“ optimiert wurde, auch diesen Begriff enthalten: Aida Kreuzfahrten. Das erhöht die Link-Popularity des Dokuments B, insbesondere, weil der Linktext korrekt auf den zu erwartenden Inhalt hinweist.85

Das Title-Attribut des a-Tags erlaubt es, jedes Verweis mit einem kommentierten Text in Sinne einer Metainformation zu versehen. Aus diesem Grund wird das Title-Attribut auch von Suchmaschinen berücksichtigt. In der Praxis sollte man eine entsprechende Linkbeschreibung unter Verwendung der Schlüsselwörter im Title-Attribut platzieren.

84 vgl. hier und im Folgenden Glöggler (2003), S.151ff; vgl. auch Erlhofer (2005a), S. 225 85 vgl. Erlhofer (2005a), S. 265f. 51

So bietet man die Gelegenheit, dem Benutzer und den Suchmaschinen-Spider mehr Informationen über das Linkziel zu geben.

Das Alt-Attribut des img-Tags gilt als alternative Beschreibung einer Grafik in der HTML-Seite. Hier können die zusätzlichen Informationen über das Bild, den Entstehungsort, den Fotografen oder Ähnliches gegeben werden. Aus diesem Grund wird das Alt-Attribut auch von Suchmaschinen berücksichtigt.

5.1.6 Auslagerung der JavaScripts und Styles in externe Dateien

Ein weiterer Faktor, der die Position einer Seite in der Suchergebnissen beinflussen kann und der auch zu optimieren ist, ist die Dateigrösse und damit verbundene Zeit beim Laden der Seite durch Spiders. Ist die Seite nach 10 Sekunden nicht ausgeliefert, brechen die meisten Suchmaschinen Crawler sogar das Indizieren ab.86 Für die Seitengrösse existiert bei fast allen Suchmaschinen eine obere Schranke. Es ist davon auszugehen, dass eine Seite nicht mehr von allen Suchmaschinen aufgenommen wird, wenn die Dateigrösse über 210 Kb liegt. In diesem Bereich liegt die Schranke der Suchmaschine von Yahoo. Google erlaubt maximal 520 Kb und MSN indiziert sogar Dateien, die über 1 MB gross sind.87 Wenn man die Suchergebnise für einen beliebigen Suchbegriff anschaut, kann man feststellen, dass die ersten Plätze durch die Seiten besetzt sind, deren Grösse weniger als 100Kb ist. Sogar in top 10 findet man eine Seite, die grösser als 100Kb ist, sehr selten. Die meisten Suchmaschinen-Agenturen und Suchmaschinen-Optimierer empfehlen die Dateigrössen zwischen 20 und 80 Kb.

Die Trennung von Inhalt und Design durch die -Dateien bietet auf vielen Feldern bessere Möglichkeiten. Allein die Vielfalt an verschiedenartigen Formatierungsmöglichkeiten macht den Einsatz sinnvoll. Ein Schlüsselelement bei der Entwicklung von CSS war die Auslagerung der grafischen Beschreibungssprache. Zum Auslagern schreibt man lediglich die CSS-Formatierungen in eine eigene Datei und speichert diese von den Dokumenten zentral erreichbar ab. Anschließend bindet man die CSS-Datei (z.B. site.css) über folgenden Befehl in den Head-Bereich des HTML- Dokuments ein:

Die JavaScript-Funktionen verbessern zwar die Usability der Seite, sind aber für die Suchmaschinen-Spider oft ein Problem. Da die JavaScript durch Spiders nicht gelesen wird und das Einbinden solcher Inhalte innerhalb der Seite nur die Dateigrösse vergrössert, ist es sinnvoll, diese in externe JavaScript-Dateien auszulagern. Man kann es auch in den Head-Bereich einbinden:

86 vgl. Tabke (2003), S. 335 87 vgl. Bondar (2006) 52