Masterarbeit Im Rahmen der Vertiefungsrichtung Wirtschaftsinformatik

Informationsextraktion aus Weblogs Grundlagen und Einsatzmöglichkeiten der gezielten Informationssuche

vorgelegt am Wirtschaftswissenschaftlichen Zentrum WWZ

Prof. Dr. Christian Kleiber & Dr. Urs Hengartner Universität Basel

Frühjahressemester 2008

Vorgelegt von: Edy Portmann 99-151-532 Stollbergstrasse 30 CH-6003 Luzern +41 (0)41/240’06’32 [email protected]

Ausgabedatum: 27.02.2008 Abgabedatum: 11.06.2008

Informationsextraktion aus Weblogs Edy Portmann

Stichworte

Blog, -Anbieter, Blog-Anwendung, Bloggereigenschaft, Blogklassifikation, Blog- Retrieval, Blogtypologie, Information Retrieval, Internet, Page Rank, Semantisches Web, , Web 1.0, Web 2.0, Web 3.0, Weblogs, Web Suchmaschinen, Wikis, , WWW

Zusammenfassung

Für den eiligen Leser wird an dieser Stelle eine kurze Darstellung über die folgende Masterarbeit geboten. Es sei dabei bemerkt, dass in diesem Abstract nicht alles erläutert werden kann, sondern nur auf das Essentiellste eingegangen wird. Dem Weiterinteressierten empfiehlt sich die Konsultation des entsprechenden Kapitels und/oder der im Literaturverzeichnis genannten Quellen. Laut neusten Studien gewinnen Weblogs, kurz , im deutschsprachigen Raum kontinuierlich an Boden. Ein Weblog ist eine Art Internet-Tagebuch, das neben Texten mit Bildern und Videos angereichert werden kann und auf diese Weise für den Editoren ein einfach bedienbares Medium zur Illustration von Perspektiven und Ansichten darstellt. In Amerika ist das Phänomen der Blogs schon weit verbreitet, weshalb die Beschäftigung mit Weblogs aus unternehmerischer Sicht ein unabdingbares Muss darstellt. In Europa trifft man Weblogs noch nicht in derselben Häufigkeit an, obwohl auch hier eine deutliche Wachstumstendenz erkennbar ist. Um Weblogs verstehen zu können, wird deren Ursprung und die technische Umgebung erklärt und verschiedene Anwendungsmöglichkeiten erläutert. Weiter wird, um sich ein Bild über die potentiellen Informationsgeber zu verschaffen, auf die entsprechenden Nutzer von Blogs eingegangen. So ist es äusserst hilfreich, sich bewusst zu werden, wer hinter den Weblog-Einträgen steht, um die Tragweite der Informationen abschätzen zu können. Zum unternehmerischen Nutzen der Weblogs gibt es schon diverse Arbeiten mit vielen Möglichkeiten, welche sich jedoch häufig auf Corporate Blogs beschränken. Diese dienen als Kommunikations- oder Marketingmittel zur Erlangung unternehmerischer Ziele und erfordern vielfach einen beachtlichen Ressourcenaufwand und erhebliches Verantwortungsbewusstsein. Vor allem Unternehmen, welche der Informatik und dem Internet nahe stehen, beschäftigten sich bisweilen mit dem Einsatz eines Blogs. An dieser Stelle wird die herkömmliche Thematik der Corporate Blogs ausgeweitet und das methodische Suchen nach Informationen erweitert. Das Ergebnis einer angewandten Suche sollte sein, für die Unternehmen einen Wissensvorsprung zu generieren und/oder die Blogosphäre nach Schlagworten, wie zum Beispiel dem Namen des eigenen Unternehmens, der Konkurrenz oder nach Kapitalbeteiligungen zu durchsuchen. Das Problem an Informationen aus Weblogs ist, dass der Wert der Informationen nicht immer im Voraus erkannt wird und teilweise erst nachdem die Informationen gesammelt wurden, bewertet werden kann. Hierzu kann eine Häufung von bestimmten Einträgen in den Weblogs als Filter für die Relevanz von Informationen dienen, wobei Informationen mit hoher Erwähnungshäufigkeit in verschiedenen Weblogs unter Umständen wichtige Erkenntnisse enthalten können. Zur Erreichung dieses Ziels werden technische Wege aufgezeigt, wie Daten systematisch gesucht werden können, um sich einen Informationsvorsprung zu verschaffen. Zur Verdeutlichung werden im ganzen Text theoretische Erkenntnisse an Beispielen demonstriert und aktuelle Studien miteinbezogen.

Mai 08 Masterarbeit FS 2008 II Informationsextraktion aus Weblogs Edy Portmann

Vorwort

Informatik hat mich seit meiner Kindheit fasziniert. Erstmals in Kontakt mit ihr kam ich in den achtziger Jahren durch einen Schulkollegen, welcher einen Commodore 64 besass. Dieser C64, wie er auch genannt wurde, hatte einen zwanzig Kilobyte Festspeicher und wurde 1982 von Commodore International lanciert. Der Arbeitsspeicher betrug 64 Kilobyte, so dass sich mit dem Computer bestens spielen liess. Über den Vater eines anderen Schulkollegen kam ich, ebenfalls in den Achtzigern, in Kontakt mit den ersten Netzwerken. Der betreffende Vater arbeitete damals in einer Informatikfirma, welche ihre Geschäftscomputer miteinander zu einem Netzwerk verbunden hatten. Mir und meinen Freunden bereitete es grossen Spass, einander von unterschiedlichen Rechnern aus Textnachrichten zuzusenden. Für die allgemeine Gesellschaft waren diese Kommunikationssysteme damals allerdings noch nicht geeignet. Zu teuer und kompliziert war die damalige Technologie. Meistens wird Technologie für die Masse erst interessant, wenn sie preiswert und einfach zu bedienen ist. Diese Wandlung kann am Beispiel des Weblogs gut nachvollzogen werden. Durch eine rationalisierte Möglichkeit der technisch nötigen Anpassungen auf ein Minimum, wurde es auch den ungeübten Nutzern möglich gemacht, sich über eine Plattform auszutauschen. Dementsprechend ist es nicht mehr nötig, sich um Bits und Bytes zu kümmern und man kann sich durch das Bloggen voll und ganz dem „Social Networking“ widmen. Somit braucht man also nicht zu wissen, wie darunter liegende Technik im Detail funktioniert, obschon diese sehr erstaunlich ist. So sind Null oder Eins die beiden einzigen erreichbaren Zustände, welche ein Bit, also die kleinstmögliche Speichereinheit, je einnehmen kann. Das bis heute verwendete, weltbekannte World Wide Web (WWW) wurde im Jahre 1992 durch das CERN freigegeben. Der Erfinder Tim Berners-Lee träumte damals davon, dass Wissen für alle uneingeschränkt zur Verfügung stehen sollte. So sollte es möglich werden, über ein Hypertext-System wissenschaftliche Arbeiten unkompliziert mit Kollegen auszutauschen und miteinander zu verlinken. Am Anfang bestand das WWW vor allem aus statischen HTML-Seiten, von denen ein Grossteil selten upgedatet, verändert oder gar ausgetauscht wurden. Damals war das Web in eine Art Zweiklassensystem unterteilt: Auf der einen Seite gab es die Informationsanbieter, welche die Inhalte ins Web brachten, auf der anderen Seite die Benutzer, für die das Web eine Informationsplattform war. Mit neuen technischen Möglichkeiten wie Cascading Stylesheets (CSS), JavaScript oder Flash wurde dieses Zweiklassensystem durchbrochen und das Web vielseitiger und interaktiver. Nun traten vorgefertigte Content-Management-Systeme (CMS) auf den Plan, mit welchen jedermann per „Drag & Drop“ in kurzer Zeit einfach selber zu einem Informationsanbieter werden konnte. So entwickelten sich, erst im Schatten der statischen Homepages, ab Mitte der neunziger Jahre die ersten heute unter Social Software bekannten Anwendungen. Sie wurden Wikis und Weblogs genannt und waren Webseiten, auf denen Internetnutzer regelmässig Einträge machten. Nach einem schleppenden Start wiesen solche Seiten Ende der 1990er Jahre ein rasantes Wachstum auf. Im Jahre 2007 gab es laut Lange [Lang07] weltweit schon mindestens 50 Millionen aktive Weblogs. Einerseits ist es erstaunlich, dass im deutschsprachigen Raum das Wort Weblog weitgehend unbekannt ist, andererseits gibt es in der Blogosphäre schon eine beträchtliche Unterscheidungsfülle verschiedener Blog-Arten. So gibt es, um ein paar zu nennen, , Corporate Blogs, Linkblogs, Litblogs, Metablogs, Wahlblogs, Warblogs, Knowledge-Blogs, Projekt-Blogs und so weiter. Stetig kommen neue Blog-Arten hinzu oder verschwinden wieder. Die Szene rund um Weblogs ist sehr dynamisch und Veränderungen gehören zur Tagesordnung. Unter dem Aspekt des Findens eines Startpunktes kann dies den Einstieg in die Thematik erschweren. Entsprechend war das Gebiet der Weblogs für mich relativ neu und das Erstellen dieser Masterarbeit beanspruchte ein erhöhtes Studium von Literatur, mit dem

Mai 08 Masterarbeit FS 2008 III Informationsextraktion aus Weblogs Edy Portmann

Ziel, mir das nötige Wissen anzueignen. Als Wirtschaftsinformatiker beschäftigte ich mich in diesem Hinblick bis anhin vor allem um technische Belange des Internets. Die vorliegende Arbeit ermöglichte mir aber einen tieferen Blick in die Welt des Web 2.0, der Blogger und des modernen Information Retrieval. Nicht nur Informatiker, sondern auch Personen, welche wie Wirtschaftsinformatiker als Bindeglied zwischen Informatik und Betriebswirtschaft fungieren, sollten sich mit diesen neuen, aus dem Grunde aufstrebenden Themen beschäftigen, da die Verbindungen zu Unternehmen mannigfaltig sind. Durch die Schaffung dieser Social Software wurden Möglichkeiten hervorgerufen, welche Chancen und Gefahren für alle am Markt operierenden Gesellschaften beinhalten können. Deshalb bin ich mir sicher, dass ich später von den erworbenen Kenntnissen profitieren kann. Zum Schluss möchte ich noch einen Dank an alle beteiligten Mitdenker, Schulterklopfer und Kritiker abfassen. Als erstes geht ein grosses Dankeschön an meine Lebenspartnerin Eveline, welche mir jederzeit Unterstützung beim Schreiben meiner vorliegenden Arbeit bot. Ein weiteres Dankeschön geht an die zwei Korrekturleser, meine Schwester Astrid und meinen Vater Karl. Zudem bedanke ich mich bei meinem Betreuer der Universität Basel, Dr. Urs Hengartner, für die gute und angenehme Zusammenarbeit. Alle diese Personen standen mir jederzeit mit gut gemeinten Ratschlägen zur Seite.

Übrigens, als letztes an dieser Stelle noch: Erstaunlicherweise haben die erwähnten Schulfreunde aus den achtziger Jahren beruflich ebenfalls in irgendeiner Weise mit Informatik zu tun. Die frühe Beschäftigung mit Computern und Netzwerken hat uns allem Anschein nach für unseren weiteren Lebensweg geprägt.

Eine erkenntnisreiche Lektüre wünscht

Luzern im Juni 2008 Edy Portmann

Mai 08 Masterarbeit FS 2008 IV Informationsextraktion aus Weblogs Edy Portmann

Allgemeine Hinweise

Geschlechtsneutrale Formulierung Aus Gründen der verbesserten Lesbarkeit wird in diesem Text die männliche Form als geschlechtsübergreifende Bezeichnung für Autorinnen und Autoren, Leserinnen und Leser, Bloggerinnen und Blogger, etc. verwendet.

Glossar Am Ende dieser Masterarbeit (vgl. Kap. 11) findet sich ein Glossar, wo man Blog- und arbeitsspezifische Wörter abrufen kann. Allerdings werden beim Lesen dieses Textes gewisse Informatikkenntnisse vorausgesetzt und deswegen ist das erwähnte Glossar nicht abschliessend. Die wichtigsten Begriffe rund um das Thema Weblogs werden allerdings erwähnt.

BlogRetrieval Während dem Verfassen des vorliegenden Manuskripts wurde vom Autor ein persönlicher Weblog geführt, um das Wissen rund um Weblogs an einem zentralen Punkt zu sammeln. Der Blog sollte als digitales Sammelsurium aller arbeitsrelevanten Details, wie Links zu Internetforschungen, wissenschaftlichen Arbeiten, Online-Artikeln und als Austauschplattform dienen. Was am Anfang zum Kennenlernen der Blogs und deren Möglichkeiten gedacht war, reifte zu einem Austausch-Projekt mit anderen Interessierten. Als Reaktion auf BlogRetrieval erhielt der Autor ebenfalls viele E-Mails, da viele Personen im Umgang mit Weblogs noch ungeübt sind oder nicht öffentlich Ideen darlegen wollten. Unter der Web-Adresse http://blogretrieval.wordpress.com/ kann der zur Arbeit gehörende Weblog erreicht werden. Daneben besteht die Möglichkeit auf BlogRetrieval das gesamte Literaturverzeichnis abzurufen und den entsprechenden Web-Links ohne Abtippen zu folgen.

Web-Adressen Diese Arbeit beruht auch auf Quellen, welche im Internet bereitgestellt sind. Bei den Literaturangaben sind die Web-Adressen (im Text in digitaler Form direkt anklickbar) angegeben, unter welchen die verwendeten Dokumente abgerufen werden können. Die Webseiten, von welchen im Verlauf dieser Arbeit die Rede sein wird und welche nicht als Literaturquellen dienten, wurden bei der ersten Nennung direkt in Klammern hinter den Namen gesetzt, zur Verdeutlichung BlogRetrieval (http://blogretrieval.wordpress.com/) als Beispiel. Weiter wurden wissenschaftliche Manuskripte, wie Projekt- und Seminararbeiten, welche sich mit arbeitsrelevanten Themen beschäftigen, in diese Masterarbeit eingebunden. Leider können diese nicht alle online abgerufen werden, der Interessent sei an die angegebene Stelle (vgl. Kap. 9.3) weiter verwiesen. Die einzelnen Web-Adressen wurden alle am 31. Mai 2008 noch einmal auf ihre Gültigkeit überprüft.

Mai 08 Masterarbeit FS 2008 V Informationsextraktion aus Weblogs Edy Portmann

Inhaltsverzeichnis

Stichworte ______II Zusammenfassung ______II Vorwort ______III Allgemeine Hinweise ______V Abkürzungsverzeichnis ______VIII 1 Einleitung ______1 2 Gegenstand, Ziele und Aufbau der Arbeit______4 2.1 Gegenstand ______4 2.2 Ziele ______6 2.3 Aufbau______6 3 Typisierung der Weblogs ______8 3.1 Neue Visionen und Konzepte ______8 3.2 Das Web 2.0 ______9 3.3 Social Software______10 3.4 Weblogs______14 3.5 Kritik am Web 2.0 ______14 4 Soziologische Aspekte______16 4.1 Bloggereigenschaften ______16 4.2 Blogtypologien ______18 4.3 Vor- und Nachteile von Weblogs ______20 4.3.1 Vorteile ______20 4.3.2 Nachteile ______21 5 Technische Aspekte ______23 5.1 Wesentliche Elemente eines Weblogs______23 5.2 Funktionsweise von Weblogs ______25 5.3 Workbench Weblog ______27 5.3.1 Erstkonfiguration______27 5.3.2 Profil anlegen und ändern ______28 5.3.3 Individualisierung durch Templates ______28 5.3.4 Kategorien und Posts______29 5.3.5 Kommentarmoderation ______30 5.3.6 Anti-Spam-Massnahmen______30 5.3.7 Team-Blogging ______31 5.3.8 Weblog-Clients und ______31 6 Anbieter und Anwendungsmöglichkeiten ______33 6.1 Verschiedene Anbieter von Weblogs ______33 6.1.1 Blog-Services von Communities ______33 6.1.2 Webbasierte Blog-Services______34 6.1.3 Festinstallierte Server-Applikationen ______36 6.2 Wirtschaftlicher Einsatz von Weblogs______38

Mai 08 Masterarbeit FS 2008 VI Informationsextraktion aus Weblogs Edy Portmann

7 Weblogs und Suchmaschinen ______43 7.1 Vorbemerkungen ______43 7.2 Suchmaschinen______44 7.2.1 Arten von Suchmaschinen ______44 7.2.2 Funktionsweise von Web Suchmaschinen ______46 7.3 Weblog Suchmaschinen______47 7.3.1 Freie Weblog Suchmaschinen______48 7.3.2 Kostenpflichtige Weblog Suchmaschinen ______51 8 Fazit und Ausblick ______52 8.1 Fazit______52 8.2 Ausblick ______53 9 Verzeichnisse ______IX 9.1 Abbildungsverzeichnis______IX 9.2 Tabellenverzeichnis ______IX 9.3 Literaturverzeichnis ______IX 10 Anhang ______XIV 10.1 Liste ausgesuchter Welog-Anbieter ______XIV 10.2 Liste ausgesuchter Weblog-Software ______XVI 10.3 Liste ausgesuchter Weblog Suchmaschinen ______XVIII 11 Glossar ______XXI 12 Index ______XXX 13 Eidesstattliche Erklärung______XXXI

Mai 08 Masterarbeit FS 2008 VII Informationsextraktion aus Weblogs Edy Portmann

Abkürzungsverzeichnis

Ajax Asynchronous Java Script and XML API Application Programming Interface ARPA Advanced Research Projects Agency ASF Syndication Format CEO Chief Executive Officer CMS Content Management System CRM Customer Relationship Management CSS Cascading Style Sheets EQ EverQuest FAQ Frequently Asked Questions FTP File Transfer Protocol HTML Hypertext Markup Language HTTP Hypertext Transfer Protocol ICQ I seek you IP Internet Protocol IRC Internet Relay Chat MMOG Massen-Mehrspieler-Online-Gemeinschaftsspiel NIMHE National Institute for Mental Health P2P Peer-to-Peer PDA Personal Digital Assistant PR Public Relations RPC Remote Procedure Call RSS Really Simple Syndication SFTP Secure File Transfer Protocol TCP Transmission Control Protocol URL Uniform Resource Locator W3C WWW Consortium WoW World of Warcraft WWW World Wide Web WYSIWYG What You See Is What You Get XML Extensible Markup Language

Mai 08 Masterarbeit FS 2008 VIII Informationsextraktion aus Weblogs Edy Portmann

1 Einleitung

Bundesrat Moritz Leuenberger hat in der Schweiz ein ganz berühmtes, der Chief Executive Officer (CEO) Jonathan Schwarz hat eines, welches aus dem unternehmerischen Alltag von Sun Microsystems erzählt und Brad Fitzpatrick hatte eines der ersten. Das von Debbie Swenson wurde eingestellt und morgen eröffnet vielleicht Paris Hilton ihr eigenes.1 Die Rede hierbei ist von Weblogs, einer Webseite auf welcher die Einträge normalerweise chronologisch rückwärts geordnet erscheinen. Es gibt Weblogs, welche täglich und andere dagegen, die weniger oft upgedated werden. Viele beinhalten qualitativ hoch stehende Inhalte, während andere vor allem Informationsmüll enthalten. Um uns dem Thema Weblogs anzunähern, begeben wir uns als erstes auf eine kurze Zeitreise, um darauf basierend die Chancen und Gefahren von Informationen aus dem Internet und den Weblogs darzulegen. Laut Portmann [Port07] hat sich der Mensch seit Urbeginn Gedanken gemacht, wie er sich und seine Ideen an andere überliefern kann. Deshalb ist es nicht erstaunlich, dass das moderne Individuum dies auf eine neue Art und Weise tut. Allerdings ist vieles schneller geworden. So hat das Internet eine wahre Explosion von Daten hervorgerufen und deshalb erscheint es in der heutigen Zeit als essentiell, überhaupt an relevante Informationen zu kommen. Waren es anfangs unserer Menschheitsgeschichte noch Bilder, welche an Höhlenwände gemalt wurden oder Figuren, die gehauen wurden um für die Nachwelt Information zu speichern, bekam das Ganze mit den Papyrusrollen der Ägypter, den Schriftrollen der Griechen und Römern und dem kommenden Buchdruck in Asien und Europa eine eigene Dynamik. Dadurch wurde eine schnelle Verbreitung von Ideen ermöglicht und technische Beschränkungen konnten mehr und mehr behoben werden, was zu einer kleinen Datenexplosion schon vor dem digitalen Zeitalter und damit auch vor dem Internet und den Weblogs führte. Heute stellt sich hingegen die Frage, ob mit mehr zur Verfügung gestellter Information auch der entsprechende Nutzen vergrössert wurde. Konnten bis hin zum Buchdruck nur wenige und dies auf mühsame Art ihr Wissen weitergeben, kann es heute, im Zeitalter des Internets, jedermann. So wurde mit der Erfindung des Internets eine wahre Informationsflut begründet. Als Folge stellten viele Nutzer Beiträge in die Datennetze und hofften auf zahlreiche Leser. Plötzlich wurde es wichtig, zwischen Quantität und Qualität zu differenzieren. Der Informationsgehalt im Internet ist sehr durchmischt und man findet Informationen zu allen möglichen und unmöglichen Themen. Auch zu solchen, die überhaupt nicht von Interesse sind. Dies verlangt folglich nach entsprechenden Möglichkeiten für die Suche, um gleich den Spreu vom Weizen, die wichtigen Informationen von den unwichtigen trennen zu können. Nicht jedermann und schon gar kein wirtschaftlich geführtes Unternehmen findet die Zeit und ist gewillt, tausende von Daten zu durchsuchen, um bescheidene, bis gar keine neuen Informationen zu gewinnen. Diese Suche wurde zur Aufgabe des Information Retrievals, also der Wissenschaft, welche sich mit der Suche von Informationen in Dokumenten, der Suche der Dokumente selber, der Suche von Metadaten oder aber der Suche in Datenbanken beschäftigt. So erweist sich das Information Retrieval als interdisziplinär, basierend auf den Computerwissenschaften, der Mathematik, den Bibliotheks- und Informationswissenschaften, der Informationsarchitektur, der kognitiven Psychologie, der Linguistik, der Statistik und der Physik. Für die überwiegende Mehrheit wird heute bei einer Suche die Suchmaschine Google (www.google.com) herangezogen und für eine ausgeweitete Suche eventuell noch ein paar

1 Vgl. folgende Weblogs: Moritz Leuenberger (http://moritzleuenberger.blueblog.ch/), Jonathan Schwartz (http://blogs.sun.com/jonathan/) und Brad Fitzpatrick (http://bradfitz.com/). Für Debbie Swenson vgl. Boese [Boes08] und Thompson [Thom01].

Mai 08 Masterarbeit FS 2008 1 Informationsextraktion aus Weblogs Edy Portmann

weiter bekannte Suchmaschinen, wie beispielsweise Altavista (http://www.altavista.com/), Yahoo (http://www.yahoo.com/) und MSN (http://www.msn.com/). Laut Lewandowski [Lewa05] ist vielen Benutzern von Suchmaschinen eine tiefschürfendere Möglichkeit der Informationssuche, wie Metasuchmaschinen2 oder spezialisierte Suchmaschinen3 teilweise oder ganz unbekannt. So ist es auch häufig nicht verwunderlich, dass die Fülle von Informationen für den Suchenden ein unüberwindbares Hindernis darstellt. Durch die Schaffung neuer Kommunikationsformen, wie den Weblogs und Wikis, ist die Situation nicht besser geworden. Vielmehr ergeben sich dadurch weitere Herausforderungen an das Information Retrieval, Daten anhand von Logik zu unterscheiden und zu durchsuchen. Täglich kommen Tausende von Dokumenten neben den statischen Homepages hinzu, welche auf irgendeine Art durchsucht und aufgearbeitet werden müssen. Wie Baker und Green in der Business Week in einem Bericht über Weblogs berichten, darf die Bedeutung für Unternehmen keinesfalls vernachlässigt werden: “There are some 9 million blogs out there, with 40,000 new ones popping up each day. Some discuss poetry, others constitutional law. And, yes, many are plain silly. […] Let's assume that 99.9% are equally off point. So what? That leaves some 40 new ones every day that could be talking about your business, engaging your employees, or leaking those merger discussions you thought were hush-hush.” (Baker und Green [BaGr05]). Die Kombination von Weblogs und entsprechenden Suchmöglichkeiten gewinnt infolgedessen konstant an Bedeutung. Weiter scheint durch das Internet und die weltweite Vernetzung die kritische Grösse überschritten worden zu sein, welche für das Phänomen der so genannten kollektiven Intelligenz, oder Schwarmintelligenz nötig ist. Zur Erklärung dieses Phänomens existieren verschiedene wissenschaftliche Ansätze, Surowiecki [Suro05] beschreibt in seinem Buch „Die Weisheit der Vielen“ auf Seite 32 vier Bedingungen für einen intelligenten Schwarm: „Meinungsvielfalt, Unabhängigkeit, Dezentralisation und Aggregation“. Somit vereinfacht das Internet wie nie zuvor, dezentral verstreutes Wissen4 der Menschen zu koordinieren und so deren kollektive Intelligenz nutzbar zu machen. Dies kann Gefahren mit sich bringen, von welchen Unternehmen nur durch zielgerichtetes Suchen rechzeitig erfahren. Hätten die Verantwortlichen beim Fahrradschlosshersteller Kryptonite (http://www.kryptonitelock.com/) gewissermassen schon vorab die Bedrohung erkannt, hätten sie vermutlich richtig auf die sich anbrauende Krise reagieren können. Im Jahr 2004 zirkulierten auf diversen Blogs Anleitungen und Videos, in welchen demonstriert wurde, wie man mit einem einfachen Kugelschreiber deren Schloss knacken konnte. Weil Kryptonite erst darauf nicht reagierte, mussten sie nach ein paar Wochen, schlussendlich nach einer explosionsartigen Ausbreitung dieses Themas, alle ihre Schlösser unter hohen Kosten zurückrufen (Wolf [Wolf06], S. 74f.). Im Internet lauern ausserdem Gefahren, welcher sich viele Nutzer nicht bewusst sind. So ist es möglich, durch methodisches Suchen im WWW an gepostete Informationen zu gelangen, welche in einem anderen Kontext nicht preisgegeben worden wären. Die leichte Nutzung der neuartigen Plattformen kann dazu verleiten, etwas über den Arbeitgeber ins Netz zu stellen, was dem nicht gefällt, wie Mark Jen erfahren musste. Dieser wurde von Google entlassen, nachdem er auf seinem Weblog Unternehmensgeheimnisse publizierte.5 Weiter gibt es bezüglich Gebrauch und Wiederverwendung von Daten versteckte Rechtsstreitigkeitsgefahren. Die Frage, wem welche Daten gehören, wird in Zukunft vermehrt zu einer Schlüsselfrage werden. Wer auf Amazon (http://www.amazon.com) als Beispiel eine

2 Vgl. bspw. die Metasuchmaschine Turbo10 (http://www.turbo10.com), bei welcher mit einer einmaligen Eingabe eines Suchkriteriums mehrere Suchmaschinen simultan durchsucht werden können (Hamilton [Hami03]). 3 Z.B. Musipedia (http://www.musipedia.org/), um Musikstücke zu suchen und Retrievr (http://labs.systemone.at/retrievr/) um Bilder zu suchen. 4 Vgl. hierzu auch Schiller [Schi84]. 5 Vgl. hierzu den Originaleintrag im Weblog von Mark Jen [Jen05] und sein Interview mit John Foley von der Newsweek, [Fole05]. Ein deutscher Beitrag diesbezüglich kann im Online-Magazin Heise [Heis05] gefunden werden.

Mai 08 Masterarbeit FS 2008 2 Informationsextraktion aus Weblogs Edy Portmann

Kritik schreibt, übergibt damit automatisch das Recht an diesem Bewertungsartikel. Wenn diese Person jetzt auf einer weiteren Seite dieselbe Kritik abgibt, verletzt sie das Copyright von Amazon. Ein weiteres Problem ist das durch die technische Beschränkung des Zugangs zum Internet hervorgerufene Zweiklassen-System. Das Internet teilt die Nutzer und Nicht-Nutzer in zwei Klassen und so verschliesst sich den Nicht-Nutzern Information. Diese soziale Ungleichheit ist vielfach künstlich, sei es beispielsweise durch ein Nord-Süd-Gefälle oder der Einschränkung in diktatorischen Staaten.6

Der Text richtet sich vorrangig an einen technisch und betriebswirtschaftlich interessierten Leserkreis, aber ebenfalls auch an diejenigen, welche an einer wissenschaftlichen Abhandlung zum Thema Blogging und dem heutigen Information Retrieval interessiert sind. Das Material kommt aus verschiedenen Quellen, wie Büchern, Artikeln, dem Internet und der Blogosphäre selber. Im Kapitel 2 folgt eine Übersicht über die Arbeit, mit der Beschreibung des Gegenstands, des Aufbaus und der Ziele. Um sich einen Überblick zu verschaffen, empfiehlt sich die Lektüre dieses Kapitels oder das Studium des Inhaltsverzeichnisses. Im Kapitel 11 findet sich ein Glossar, wo man Blog- und Arbeits-spezifische Wörter abrufen kann und relevante Stichworte kann man über den Index im Kapitel 12 leichter und schneller finden.

Ein wesentlicher Hinweis sei an dieser Stelle noch abgegeben: Weblogs sind sehr dynamisch. So kann es sein, dass in dieser Arbeit die allerneusten Trends nur tangiert werden und möglicherweise auf Gegebenheiten vertieft eingegangen wird, welche zu einem späteren Zeitpunkt (für den Leser) unwesentlich erscheinen mögen. Allerdings ist der Autor darum bemüht, die blogrelevanten Details zum Zeitpunkt des Verfassens (Mai 2008) möglichst umfassend wieder zu geben.

6 Vgl. zu Nord-Süd-Gefälle den Bericht im Informationsdienst Soziale Indikatoren vom Juli 2003 (ISI30) von Hüsing [Hues03], wo auf das Gefälle in Europas hingewiesen wird. Ein interessanter Artikel zu den Zensuren der Chinesischen Regierung bezüglich des Olympischen Fackellaufes 2008 kann bei Online Focus [Focu08] nach verfolgt werden.

Mai 08 Masterarbeit FS 2008 3 Informationsextraktion aus Weblogs Edy Portmann

2 Gegenstand, Ziele und Aufbau der Arbeit

Weblogs können aus verschiedenen Blickwinkeln betrachtet werden. Wissenschaftlich werden Weblogs vor allem aus soziologischer, psychologischer, juristischer, betriebswirtschaftlicher und technischer Sicht untersucht. Diese Liste ist nicht abschliessend, da sich die Basis der Weblogs schnell ändern kann, was wiederum zu einer Spektrumsänderung führen kann. Das Kapitel 2.1 geht näher auf ein paar der genannten Blickwinkel ein. Von da an beschäftigt sich dieser Text vorwiegend mit der technischen und betriebswirtschaftlichen Perspektive, welche auch juristische Aspekte beinhalten kann. In einem weiteren Teil dieses Kapitels, dem Kapitel 2.2, werden die Untersuchungsziele formuliert. Das Hauptziel und die Teilziele begleiten die ganze Arbeit. Im letzten Teil dieses Kapitels, dem Kapitel 2.3, werden der Aufbau und die Lesemöglichkeit der Arbeit erläutert. Um es dem Leser möglichst einfach zu machen, werden die beim Lesen zu beachtenden Zusammenhänge bestimmt. Man erfährt wie die Arbeit zu lesen ist und wo welche Information geholt werden können, falls solche benötigt werden. Es wird gezeigt, welche Stellen man bei entsprechender Vorkenntnis weglassen kann und welche Stellen besonders empfehlenswert sind.

2.1 Gegenstand Bislang wurde schon mehrmals das Wort Weblog verwendet ohne es genauer zu erläutern. Doch was sind eigentlich Weblogs? Die Definitionsweisen verschiedener Autoren gehen vereinzelt recht weit auseinander. Eine erste Annäherung an eine Definition kommt von Rebecca Blood: „Initially a weblog (or blog for short) was a chronological listing of links that the blogger thought were interesting, funny, informative, etc, with commentary. Can now mean anything from online journals and diaries, to just links then commentary.” (Blood et al. [Bloo02], S. 232). Eine neuere Festlegung kommt von Sven Przepiorka7, welcher im Buch „Weblogs professionell“ von Arnold Picot und Tim Fischer schreibt: „Ein Weblog ist eine häufig aktualisierte Webseite, auf der Inhalte jeglicher Art in chronologisch absteigender Form angezeigt werden. Ein Weblog kann typischerweise die Form eines Tagebuches, eines Journals, einer What’s-New-Page oder einer Linksammlung zu anderen Webseiten annehmen. Der Autor ist dabei entweder eine einzelne Person oder auch eine Gruppe. Alle Inhalte sind in der Regel durch Links mit anderen Webseiten verlinkt und können unmittelbar durch den Leser kommentiert werden.“ (Picot und Fischer [PiFi06], S.14). Demzufolge kann man unter einem Weblog eine Art Internet-Tagebuch verstehen, das neben Texten mit Bildern und Videos bereichert wird und den jeweiligen Editoren ein unkompliziert zu handhabendes Medium zur Illustration von Perspektiven und Anschauungen zu häufig spezifischen Inhalten zur Hand gibt. Zudem besteht bei den meisten Blogs die Möglichkeit einer Kontaktaufnahme durch einen Kommentar-Button. An dieser Stelle werden verschiedene wissenschaftliche Anforderungen und Blickwinkel für die Weblogs konkretisiert.

Soziologen So beleuchtet die Soziologie vor allem die Interaktion der beteiligten Menschen. Deshalb wurden in dieser Disziplin von diversen Verfassern verschiedene Typisierungen zur

7 Sven Przepiorka promoviert momentan an der Universität Ulm mit dem Titel „Weblogs, Wikis und die dritte Dimension“. Zu diesem Zweck entwickelt er die Software gupsi:media (http://tzwaen.com/projekte/gupsi/), in welcher unterschiedliche Elemente von Social Soft- ware in einem Tool vereinigt werden.

Mai 08 Masterarbeit FS 2008 4 Informationsextraktion aus Weblogs Edy Portmann

Charakterisierung von Weblog-Autoren vorgeschlagen. Zerfass und Boelter [ZeBo05] gliedern die Blogger aus diesem Grunde in ihrem Buch „Die neuen Meinungsmacher“ auf Seite 50f. in vier Nutzungstypen, also in die Beobachter und Kommentatoren, die Autoren und Erzähler, die Themenanwälte und Vernetzer und die Botschafter und Moderatoren. Diese vier Typen werden in der Tabelle 2.1 unterschieden.

Beobachter/Kommentatoren Autoren/Erzähler Verfolgen Diskussionen in der Blogosphäre, Nutzen ihr (meist privat betriebenes) beteiligen sich aber nur selten durch eigene Weblog, um Konversationen mit ihnen Beiträge oder Kommentare daran. bekannten Personen zu treiben. Themenanwälte/Vernetzer Botschafter/Moderatoren Konzentrieren sich auf spezifische Inhalte, Sind diejenigen Autoren, die im stärksten für die ihr Weblog eine Fokussierungsfunk- Masse sichtbar sind, weil sie eine Vielzahl tion übernehmen kann. von aktuellen Informationen filtern und kommentieren. Tabelle 2.1: Typologien der Blogger

Psychologen Die Psychologie beschreibt und erklärt das Erleben und Verhalten des Menschen, seine Entwicklung im Laufe des Lebens und alle dafür massgeblichen inneren und äusseren Ursachen und Bedingungen. Im Bezug auf Weblogs sind aufgrund der Natur und Anwendung möglicherweise Rückschlüsse auf den Charakter des Bloggers denkbar. Dieser Tatsache sollten Blogger sich bewusst sein, zumindest im Hinblick darauf, dass Weblog- Einträge stark verbreitet und langfristig archiviert werden können.8

Journalisten Von dieser Möglichkeit der Archivierung und dem Zugriff auf Daten zur Verfolgung von Abläufen machen auch Journalisten gebrauch. Für diese ist es zudem wichtig, schnell zu aktueller, vertrauenswürdiger Information zu gelangen. Anhand von Weblogs und mit gezielter Suche lässt es sich so schnell zu Information kommen. So gibt es auch schon etliche dokumentierte Fälle, bei welchen es Themen aus Weblogs bis in die Printmedien geschafft haben.9

Juristen Bezüglich der Verwendung von Information kommen wir auf den Blickwinkel der Juristen zu sprechen. Diese werden sich in Zukunft vermehrt mit den rechtlichen Ansprüchen der Daten beschäftigen müssen. So schreibt Paul Miller in einem Artikel zum neuen Web 2.0, auf welches im dritten Kapitel noch genauer eingehen wird: „Web 2.0 is about sharing: code, content, ideas. That does not mean there is not money to be made. […] Web 2.0 is built upon Trust, whether that be trust placed in individuals, in assertions, or in the uses and reuses of data.“ (Miler Mill05]). Eine Lösung könnten hier standardisierte Lizenzverträge, wie “Some Rights Reserved” bieten.10

8 Z.B. die Non-Profit-Organisation Internet Archive (http://www.archive.org/), welche eine Online-Bibliothek aller Web- und Medien- ressourcen unterhält. 9 Der meistgenannte ist der Jamba Fall. Im Dezember 2004 veröffentlichte Johnny Haeusler in seinem Blog Spreeblick (http://www.spreeblick.com/) eine viel beachtete Satire, die Jambas Geschäftspraktiken kritisierte. Haeuslers Kritik löste ein Medienecho auch ausserhalb des Internets aus (vgl. u.a. Wolf [Wolf06], Schmidt [Schm06] und Picot und Fischer [PiFi07]). 10 Die Non-Profit-Organisation Creative Commons (http://creativecommons.org/) veröffentlicht verschiedene Standard-Lizenzverträge, mittels derer Autoren der Öffentlichkeit Nutzungsrechte an ihrer Werken einräumen können, z.B. http://creativecommons.org/licenses/by- nc-sa/1.0/.

Mai 08 Masterarbeit FS 2008 5 Informationsextraktion aus Weblogs Edy Portmann

Betriebswirtschafter In der Betriebswirtschaft wurden bereits zahlreiche Möglichkeiten geschaffen, die junge Technologie zu nutzen. Viele Artikel und Bücher sind diesbezüglich schon erschienen, vor allem das Thema Corporate Blogging betreffend. Corporate Blogs werden bisher vor allem von US-amerikanischen Konzernen genutzt, mittlerweile finden sie aber auch im deutschsprachigen Raum weite Verbreitung. Ein aktuelles Beispiel hierzu ist der Blog vom Tiefkühlkosthersteller Frosta (http://www.frostablog.de/blog/). Corporate Blogs treten in mannigfaltigen Arten auf und können unterschiedliche Aufgaben haben. Charakteristisch lassen sich mit ihnen unter anderem Kommunikations- oder Marketingziele eines Unternehmens verfolgen.

Informatiker Eine nüchternere Sicht auf Blogs haben Informatiker. Sie beschreiben häufig nur die zugrunde liegende Technik, ohne sich um die übermittelten Inhalte zu kümmern. Es gibt hierzu eine Fülle von Techniken, welche sich als Standards für Weblogs etabliert haben. Die verwendeten Techniken, Funktionen und Elemente werden im Kapitel 5 genauer erläutert.

2.2 Ziele Beabsichtigt wird mit dieser Arbeit, welche sich mit dem aus dem Information Retrieval stammenden Problem der Extraktion von relevanten Informationen beschäftigt, eine Gliederung der technischen Möglichkeiten Weblogs nach Informationen zu durchforsten. Nach professionellem Suchen von Informationen in Weblogs können gewonnene Informationen zum Beispiel von Unternehmen für Marketing- und Verkaufszwecke, von Anlegern an Börsen oder von Journalisten zur Recherche genutzt werden. Ein Problem an Informationen aus Weblogs ist, dass der Wert der Informationen nicht immer im Voraus erkannt wird und teilweise erst nachdem die Informationen gesammelt wurden, bewertet werden kann. Hierzu kann eine Häufung von bestimmten Einträgen in den Weblogs als Filter für die Relevanz von Informationen dienen. Informationen mit hoher Erwähnungshäufigkeit in verschiedenen Weblogs können den Anspruchsgruppen unter Umständen wichtige Erkenntnisse liefern. Algorithmen, welche die Relevanz eines Artikels bestimmen, werden bei verschiedenen Suchmaschinenanbietern mehr oder weniger erfolgreich eingesetzt. Mit dieser Arbeit wird nach Möglichkeiten geforscht, wie nach wesentlichen gebloggten Informationen gesucht werden kann und wie diese für Unternehmen nutzbar gemacht werden können. Diesbezüglich wird geklärt, ob es schon brauchbare Möglichkeiten gibt, mit welchen Unternehmer oder Journalisten Weblogs durchleuchten. Um dem Leser mit dieser Arbeit ein Mehrwert zu schaffen, werden die gefundenen technischen Möglichkeiten aufgliedert und deren Einsatz beschrieben.

2.3 Aufbau An dieser Stelle folgt eine Übersicht über den Aufbau der Arbeit. Im aktuellen Kapitel 2 wurde genauer auf den Gegenstand „Weblogs“ eingegangen, die Ziele dieser Arbeit formuliert und hier wird der Aufbau und die Gliederung des Textes erläutert. Nach der Lektüre dieses Kapitels 2.3 sollte es dem Leser möglich sein, bereits Bekanntes nicht noch einmal lesen zu müssen. Allerdings kann es sein, dass an dieser oder jener Stelle der Arbeit auf andere Aspekte eingegangen wird, als bei anderen Autoren. Es empfiehlt sich, alle Kapitel in vorgegebener Reihenfolge durchzugehen, da die wesentlichen Informationen aufeinander aufbauend dargelegt werden.

Mai 08 Masterarbeit FS 2008 6 Informationsextraktion aus Weblogs Edy Portmann

Im folgenden Kapitel 3 entfernen wir uns vorrangig von den Weblogs, um diese in den Gesamtkontext von Web 2.0 und Social Software integrieren zu können. Man kann sich von diesem Punkt an ein Zoomen auf immer genauere Aspekte bis hin zur charakterisierenden Technik vorstellen. Im Kapitel 3 werden dazu die Rahmenbedingungen erläutert, um danach auf die Möglichkeiten von Social Software und Weblogs einzugehen. Im Kapitel 4 wird genauer auf die soziologischen Aspekte der Weblogs eingegangen. Wer sind Blogger, was ist ihre Motivation und wie sieht die Entwicklung von Weblogs aus? Dies sind Fragen, mit welchen wir uns in diesem Kapitel beschäftigen werden. Zudem werden die Weblogs typologisiert und es werden entsprechende Vor- und Nachteile von Weblogs erläutert. Für die Kapitel 3 und 4 wird ebenfalls eine psychologische Sichtweisen miteinbezogen. Im Kapitel 5 tauchen wir in die technische Funktionsweise und Elemente von Weblogs ein. Zudem wird in diesem Kapitel die Grundlage geschaffen, um im Kapitel 7 die Verschmelzung von Web Suchmaschinen und Weblogs nachvollziehen zu können. Dazu werden in einem ersten Teil die wesentlichen Elemente und in einem weiteren Teil die Funktionsweise eines Weblogs aufgegliedert. In letzten Teil dieses Kapitels wird gezeigt, wie man praktisch mit Weblogs arbeiten kann. Im Kapitel 6 werden in einem ersten Teil eine mögliche Unterteilung von Weblogs und verschiedene Anbieter dargeboten. Daneben werden im zweiten Teil abrundend ausgesuchte Angebote klassifiziert und mit Beispielen angereichert aufgezeigt. Im Kapitel 7 wird das Finden und Extrahieren von Informationen verdeutlicht. Im ersten Teil dieses Kapitels wird die Bedeutung der Auffindung von Informationen beschrieben. Um das Finden von Informationen zu aufzuzeigen wird im zweiten Teil die Funktionsweise von Suchmaschinen erläutert und technische Details diesbezüglich erklärt. Im dritten Teil beschäftigen wir uns mit dem Kern dieser Arbeit, der Extraktion von Informationen aus Weblogs. Dazu werden Möglichkeiten einer gezielten Suche aufgezeigt und bewertet. Im Kapitel 8 wird im ersten Teil ein Fazit gezogen und im zweiten ein Ausblick in die Zukunft gewagt.

Mai 08 Masterarbeit FS 2008 7 Informationsextraktion aus Weblogs Edy Portmann

3 Typisierung der Weblogs

Um eine Typisierung vorzunehmen entfernen wir uns primär vom Kernpunkt dieser Arbeit, um die Weblogs in den Gesamtkontext von Web 2.0 einbetten zu können (vgl. Kap. 3.1). Anfangs des neuen Jahrtausends kamen neue Formen der Kommunikation auf, welche der O’Reilly-Verlag mit dem Schlagwort Web 2.0 betitelte [Orei05]. Im Kapitel 3.2 wird basierend auf Portmann [Port07], Baur [Baur07], Przepiorka [Prze07] und Lange [Lang07] kurz auf das Phänomen des Internets, bis hin zum O’Reilly-Schlagwort Web 2.0 eingegangen. Im Kapitel 3.3, Social Software, wird dann der Weg hin zu den Aspekten der softwaretechnischen Möglichkeiten für die erleichterte Kommunikation zwischen Individuen beschritten. Die Floskel „Social Software“ tauchte um 2002 in Beziehung mit Anwendungen wie Wikis und Weblogs erstmals auf, charakterisiert vielfach aber auch ältere Dienste wie Webforen, , Virtuelle Welten, usw. All der unter dem Begriff Social Software subsummierten Anwendung ist gemein, dass sie dazu dienen, Gemeinschaften aufzubauen und zu pflegen und dass sie sich selbst organisiert weiterentwickeln (vgl. Hippner in Hildebrand und Hofmann [Hipp06], S. 10ff). Im Kapitel 3.4 wird auf die im Zusammenhang mit dieser Arbeit wichtigste Form von Social Software eingegangen, nämlich auf die Weblogs. Im Kapitel 3.5 wird die Kritik am Web 2.0 von Sir Tim Berners-Lee und seine Idee des Semantischen Webs erwähnt. Das von Tim Berners-Lee im Semantischen Web verfolgte Ziel ist, die Semantik in maschinenlesbaren Daten formal festzusetzen, um Informationen nicht nur für den Benutzer verständlich zu halten, sondern Maschinen Interpretationsmöglichkeiten an die Hand zu geben, damit diese Daten selbständig weiterverarbeiten können (Laningham [Lani06]).

3.1 Neue Visionen und Konzepte Das Internet hat sich in den letzten Jahren zu einem nicht mehr wegzudenkenden Bestandteil der Gesellschaft entwickelt. Täglich nutzen es Millionen von Menschen, um sich auf einfache Art über verschiedenste Inhalte zu informieren. Erstaunlich ist die rasante Entwicklung, welche das heute noch sehr junge Internet hinter sich hat und dessen Geschichte sich verkürzt in drei wesentliche Phasen einordnen lässt: Ende der fünfziger Jahre schickte die UdSSR ihren ersten künstlichen Satelliten Sputnik ins Weltall und demonstrierte damit Amerika ihre technischen Fähigkeiten. Der Schock für die Amerikaner kann in dieser Frühphase als Anstoss für das heutige Internet genommen werden, in welcher die Grundlagen für das Arpanet11 erstellt wurden. Die zweite Phase, Mitte der Siebziger, wurde mit dem Wechsel von der militärischen zur akademischen Forschungsförderung eingeleitet, in welcher das Wort „Internet“ durch Vinton Cerf und Bob Kahn in einem Papier zum Transmission Control Protocol (TCP) erstmals erwähnt wurde. 1990 entstand mit der Abschaltung des Arpanet die dritte, kommerzielle Phase des Internets, in welcher das bis heute verwendete, berühmte World Wide Web im Jahre 1992 durch das CERN veröffentlicht wurde. Das Ziel dieses Hypertext-Systems war, Dokumente und Informationen unkompliziert mit Kollegen austauschen zu können. Die Idee von Tim Berners-Lee war mit Hilfe von Hyperlinks digitale Dokumente in bidirektionaler Richtung miteinander zu vernetzen, so dass jeder Produzent und Konsument werden konnte, egal wo die Dokumente gespeichert waren. So erhoffte dieser sich die Entstehung eines globalen Datennetzes (im Nachhinein heute Web 1.0 genannt), um

11 Das Arpanet (Advanced Research Projects Agency Network) ist ein militärisches Computernetzwerk und Vorläufer des heutigen Internets. Vgl. hierzu auch Modisett [Modi07].

Mai 08 Masterarbeit FS 2008 8 Informationsextraktion aus Weblogs Edy Portmann

Informationen weltweit finden und zur Verfügung stellen zu können (sinngemäss nach [HaLy00]). Von da an wurde diese Möglichkeit von Forschern und Informatikern mit dem nötigen technischen Hintergrundwissen rege genutzt. Die grosse Allgemeinheit kam jedoch nicht, und wenn doch, dann meist nur lesend, in den Genuss des WWWs; zu schwierig war es für die Laien Inhalte zu publizieren. Erste Abhilfe verschafften so genannte Content-Management- Systeme (kurz CMS), mit dessen Hilfe sich leichter Inhalte in Netzwerke stellen liess. Gemäss Przepiorka [Prze07] war das Arbeiten mit den CMS trotzdem immer noch relativ komplex und zudem waren solche Systeme meistens von hohen Investitionskosten begleitet. Daneben engte der noch sehr teure Zugang ins Internet die Nutzung der Netzte im Sinne von Tim Berners-Lee ein.

3.2 Das Web 2.0 Die Erstnennung des Begriffs Web 2.0 wird Dale Dougherty und Craig Cline von MediaLive zugeschrieben, die gemeinsam ein Seminar vorbereiteten. So meinten sie, dass das Web nach dem Platzen der dot-com-Blase eine Art Comback durchlaufen werde, bei der sich Gewohnheiten und Geschäftsmodelle der Zukunft verändern würden. Dougherty zog John Battelle zu und kurz darauf arrangierten O’Reilly Media, Battelle und MediaLive im Oktober 2004 die erste Web-2.0-Konferenz, welche von da an jährlich im Oktober stattfindet. Auch wenn der Term Web 2.0 eine neue Version des WWW zu verkünden scheint, so ist er nichts desto trotz nur ein Erklärungsansatz, wie in Zukunft Softwareentwickler und Endnutzer das Netz brauchen werden. In keiner Weise sollte der Ausdruck als technisches Update oder als eine technische Spezifikation verstanden werden. Dazu schreibt Tim O’Reilly in einem Neuversuch der Definition des Begriffes: „Web 2.0 is the business revolution in the computer industry caused by the move to the internet as platform, and an attempt to understand the rules for success on that new platform. Chief among those rules is this: Build applications that harness network effects to get better the more people use them. (This is what I've elsewhere called "harnessing collective intelligence.")“ (O’Reilly [Orei07]). Web 2.0 löste als Marketing-Schlagwort eine vergleichsweise grosse Resonanz in den Medien aus, obwohl durch dieses Schlagwort keine namentliche Technologie, sondern mehr das Zusammenspiel verschiedener Methoden und Werkzeuge und eine mögliche soziale und ökonomische Evolution angenommen wird. Einzelne Techniken können für das Ganze an sich belanglos sein und nur in der Aggregation ihre Wirkung entfalten. Dies erklärt die laut werdende Kritik an der Unschärfe des Begriffs Web 2.0. Dieser kann nahezu beliebig verwendet werden, um die Popularität von Angeboten oder Techniken zu fördern oder Trends zu formen. Web 2.0 ist ein Begriff für eine Anzahl interaktiver und kollaborativer Elemente des Internets. Gemäss O‘Reilly [Orei05] sollen Web 2.0 Webseiten den Benutzern mehr erlauben als nur an Informationen zu gelangen. Das Ziel ist, mittels Webbrowsers, eigene Webseiten auf einfachste Weise zu erschaffen. Der Kern sollte sich weg von der Kontrolle der Hard- und Software, hin zu den Daten bewegen. Tim O’Reilly stellt das Web 2.0 als eine Art Sternsystem ohne fassbares Ende dar, dafür mit einem Kernpunkt, in welchem die Grundelemente der Web 2.0-Services zusammengefasst werden. Je nachdem wie viele Attribute auf ein bestimmtes Element zutreffen, wird es näher oder weiter weg vom Kernpunkt platziert. Die Abbildung 3.1 illustriert dieses Bild: Es zeigt die während eines Brainstormings entwickelte, so genannte „MemeMap“ des Web 2.0. Kernkompetenzen (Mitte), sowie daraus entstandene Ideen (Unten) und Webservices, die diesen Kriterien entsprechen (Oben).

Mai 08 Masterarbeit FS 2008 9 Informationsextraktion aus Weblogs Edy Portmann

Die im Web 2.0 enthaltene Technik besteht vielfach aus einer Kombination der schon Ende der 90er Jahre gefertigten Methoden, welche aber gerade wegen der grosse Zahl breitrandiger Internetzugänge erst verspätet global und generell verfügbar wurden. Derartige Verfahren nutzen häufig Web-Service-APIs12, Ajax13 und Abonnement-Dienste wie RSS (Really Simple Syndication). Der Einfluss und das Potential des Web 2.0 kann erst einwandfrei ausgeschöpft werden, wenn die Kooperation der verschiedenen Verfahren ausgenutzt wird, wie es bei den so genannten Mashups der Fall ist.

Abbildung 3.2: Web 2.0 MemeMap

Weiter beschreibt das Wort Web 2.0 ohne genauere Spezifikation von technischen Details eine veränderte Nutzung des Netzes. Wichtigster Bestandteil sind die Benutzer, welche in quantitativ und qualitativ entscheidendem Masse selbst Inhalte erstellen und bearbeiten. Ausschlaggebende Inhalte werden gemäss der NZZ [Nzzo07] nicht mehr nur von Medienunternehmen erstellt und verbreitet, sondern ebenfalls von einer Vielzahl unabhängiger Individuen, die sich mit Hilfe von Social Software gegenseitig vernetzen. Charakteristische Anwendungen sind Wikis, Blogs, Foto- und Videoportale, soziale Online- Netzwerke, Social-Bookmarking-Portale, aber auch die schon länger bekannten Tauschbörsen. Im Folgekapitel werden die einzelnen, an dieser Stelle genannten Formen der Social Software genauer erläutert.

3.3 Social Software

12 Application Programming Interface (API), engl. für Programmierschnittstelle in der Informatik. Für die technischen Grundlagen vgl. Bosch [Bosc07], S. 37ff. 13 Asynchronous JavaScript and XML, ein Konzept der Webprogrammierung.

Mai 08 Masterarbeit FS 2008 10 Informationsextraktion aus Weblogs Edy Portmann

Als Social Software wird eine Auswahl von netzwerkbasierter Software bezeichnet, welche es den Benutzern erlaubt, Daten und Informationen unkompliziert mit anderen zu teilen und daneben miteinander zu interagieren. Diese Form der Kommunikation unter Beihilfe eines Computers wurde dank Anwendungen wie MySpace (http://www.myspace.com/), Facebook (http://www.facebook.com/), Flickr (http://www.flickr.com/), YouTube (http://www.youtube.com/) und kommerziellen Seiten wie Amazon und Ebay (http://www.ebay.com/) populär (vgl. auch Beck [Beck07], S. 9f). Die meisten dieser Programme werden durch offene APIs und der Möglichkeit von Daten- und Medien- Up- und Downloads charakterisiert. Social Software ermöglicht schliesslich das Web, wie es sich Tim Berners-Lee von Anfang an erträumt hatte. Die Eröffnung seines Weblogs leitete er im Dezember 2005 mit folgenden Worten ein: "In 1989 one of the main objectives of the WWW was to be a space for sharing information. It seemed evident that it should be a space in which anyone could be creative, to which anyone could contribute. The first browser was actually a browser/editor, which allowed one to edit any page, and save it back to the web if one had access rights. Strangely enough, the web took off very much as a publishing medium, in which people edited offline. Bizarely, they were prepared to edit the funny angle brackets of HTML source, and didn't demand a what you see is what you get editor. WWW was soon full of lots of interesting stuff, but not a space for communal design, for discource through communal authorship. Now in 2005, we have blogs and wikis, and the fact that they are so popular makes me feel I wasn't crazy to think people needed a creative space." (Berners-Lee [Bern05]). Die Unterstützung von humaner Kommunikation, Interaktion und Kooperation auf Basis sozialer Geflechte steht bei Social Software immer im Mittelpunkt. Als wesentlichstes Charakteristikum jedoch gilt, dass der Mensch im modernen WWW immer stärker in den Vordergrund rückt. Ähnlich zu der Erkenntnis, welche wir unter dem Aspekt Web 2.0 erhielten, wird durch den Aspekt der Social Software die Vernetzung der Menschen untereinander immer wichtiger (Richter und Koch [RiKo07]). Technik spielt in diesem Stadium keine essentielle Rolle mehr und es kann sich jeder durch die simple Bedienung einzelner Anwendungen integrieren. Dadurch dass die Menschen durch den Umgang mit neuen Kommunikationsformen auf ein besseres Verstehen des Umgangs mit Netzwerken vorbereitet wurden, ist diese Form der sozialen Interaktion herangereift. Deshalb wird im nächsten Teil des Textes genauer auf einige Aspekte eingegangen und verschiedene Formen und Techniken der Social Software aufgezeigt.

Instant Messaging Instant Messaging bedeutet eine private, textbasierte Form der Echtzeitkommunikation zwischen zwei oder mehr Menschen. Der Instant Messaging Text wird durch eine P2P-Verbindung14 oder über das Internet weitergeleitet. Bekannte Formen des Instant Messaging sind Skype (http://www.skype.com/intl/en/), ICQ15 (http://www.icq.com/), MSN Messenger (http://webmessenger.msn.com/), Yahoo! Messenger (http://messenger.yahoo.com/) und AOL Instant Messenger (http://dashboard.aim.com/aim).

Internet Relay Chats Internet Relay Chats (IRC) und andere Online-Chat-Technologien ermöglichen es den Nutzern durch den Gebrauch von Chaträumen sich mit mehreren Menschen gleichzeitig öffentlich auszutauschen. Dabei können die einzelnen Benutzer einen schon existierenden Chatraum benutzen oder auch einen eigenen kreieren. Ein Beispiel ist der Chat der Schweizer Dating Plattform Swissfriend (http://www.swissfriends.ch/).

14 Eine Peer-to-Peer-Verbindung (P2P-Verbindung) charakterisiert eine Kommunikation unter Gleichen, hier bezogen auf ein Netzwerk von Computern. 15 Das Homophon für „I seek you“ (ICQ) kennzeichnet ein Instant-Messaging-Programm.

Mai 08 Masterarbeit FS 2008 11 Informationsextraktion aus Weblogs Edy Portmann

Internet Forum Ein Internet Forum ist eine Webapplikation mit der Möglichkeit benutzergenerierte Inhalte oder Meinungen auszutauschen. Internetforen werden oft als Webforen, Message- oder Diskussionsboards, (elektronische) Diskussionsgruppen, Diskussionsforen, Bulletinboards oder einfach nur Forum genannt. Nachrichten in diesen Foren werden entweder in chronologischer oder aber in sachlogischer Form angezeigt. Erfolgreiche Anbieter kombinieren neue Möglichkeiten mit älteren Formen von Newsgroups und Mailinglisten, wie Yahoo! Groups (http://groups.yahoo.com/) und Google Groups (http://groups.google.com/).

Wikis Wikis sind Webpages, deren Inhalte von den Besuchern des Wikis bearbeitet werden können. Wiki ist eine Abkürzung vom Hawaiischen „wikiwiki“ und meint soviel wie schnell. Sobald zwei Wörter in Grossschreibung aneinander geschrieben werden führt dies zu einer neuen Webseite. Mit einem Klick auf den entsprechen generierten Link, erschliesst sich die Seite, falls sie zuvor mit Inhalt angereichert wurde. Ansonsten öffnet sich ein Formular, in welches man den entsprechenden Text schreiben kann. Wikipedia (http://www.wikipedia.org), eine offenen Enzyklopädie im WWW, ist das bekannteste Anwendungsbeispiel für Wikis. Laut der Gratiszeitung 20 Minuten [20mi08] zählt die Enzyklopädie mittlerweile weit mehr als zehn Millionen erstellter Beiträge in mehr als 70 Sprachen. Auch im Projektmanagement finden sich zahlreiche Einsatzmöglichkeiten für Wikis, wie beispielsweise als Knowledge-Managment-System (vgl. Knowledge-Blogs in Kap. 6.2).

Kollaborative Echtzeit Editoren Kollaborative Echtzeit Editoren wie Google Docs (http://docs.google.com/) und Zoho (http://www.zoho.com/) erlauben es verschiedenen Nutzern zusammen ein Dokument zu bearbeiten. Die Benutzer sehen Änderungen in ihrem Dokument erst nach dem Speichern.

Soziale Netzwerkdienste Soziale Netzwerkdienste erlauben es Individuen online zusammen zu kommen und untereinander Gemeinsamkeiten auszutauschen. Zum Beispiel gibt es Seiten, welche Datingservices anbieten, wo die Benutzer ihr persönliches Profil, Ort, Alter, Geschlecht und so weiter eingeben und nach geeigneten Partnern suchen können. Weitere Möglichkeiten ermöglichen Businessnetzwerke, wie Ryze (http://www.ryze.com/), XING (http://www.xing.com/) und LinkedIn (http://www.linkedin.com/).

Social Network Search Engines Social Network Search Engines sind eine spezielle Klasse angewandter nutzungsstatistischer Verfahren von Suchmaschinen, welche soziale Netzwerke nutzen, um Resultate zu organisieren, priorisieren und zu filtern. Im personalisierten Rankingverfahren geht der Einfluss der Gruppe der ihm Gleichgesinnten auf das Ranking der Ergebnisse in die Suche eines Nutzers über. Ein Beispiel hierzu ist Wink (http://wink.com/).

Social Guides Social Guides empfehlen für ortsunkundige Besucher in einem fernen Land oder einer unbekannten Stadt zu besuchende Lokalitäten, wie Coffeeshops, Restaurants und WiFi-Hotspots, etc. Eine solche Applikation sind beispielsweise Google Earth (http://earth.google.com/) und Wikitravel (http://wikitravel.org/).

Mai 08 Masterarbeit FS 2008 12 Informationsextraktion aus Weblogs Edy Portmann

Social Bookmarks Social Bookmarks oder ebenfalls soziale Lesezeichen sind Internet- Lesezeichen, die in einem Netz mit Hilfe eines Browser von verschiedenen Nutzern mittels gemeinschaftlichen Indexierens erschlossen und mittels RSS-Feeds angeboten werden. Beispiele hierzu sind del.icio.us (http://del.icio.us/), digg (http://digg.com/), furl (http://www.furl.net/), reddit (http://reddit.com/) und StumbleUpon (http://www.stumbleupon.com/).

Social Citations Ähnlich wie Social Bookmarks versuchen Akademiker mit Social Citations Zitate zu verfolgen, welche im Internet oder einer Webseite, einer Onlinedatenbank wie Academic Search Premier oder LexisNexis Academic University, einem gefundenen Buch in einem Bibliothekskatalog, usw. gefunden wurden. Diese Zitate können in vordefinierte Kategorien oder in neue Kategorien unter zu Hilfenahme von Tags organisiert werden. Beispiele für diese Art von Services sind CiteULike (http://www.citeulike.org/), Connotea (http://www.connotea.org/), BibSonomy (http://www.bibsonomy.org/) und refbase (http://refbase.sourceforge.net/).

Social Libraries Social Libraries erlauben es den Besuchern auf der Fährte ihrer Sammlerstücke, Bücher, Aufnahmen, DVDs, usw. zu bleiben. Benutzer können an dieser Stelle auch ihre Sammlungen präsentieren und weiter können Empfehlungen aufgrund von Ratings und Statistiken abgeholt werden. Discogs.com (http://www.discogs.com/), imdb.com (http://www.imdb.com/) und LibraryThing (http://www.librarything.com/) sind die gängigsten Beispiele hierzu.

Virtuelle Welten Virtuelle Welten sind Services, in welchen es möglich ist sich zu treffen und miteinander in einem künstlichen Umfeld zu interagieren. Deshalb wird in diesem Zusammenhang häufig der Term „Virtuelle Realität“ gebraucht. Typischerweise agiert der Benutzer in dieser künstlichen Welt mittels eines Avatars und kommuniziert durch ein Chatsystem oder Voicechat. Ein berühmtes Beispiel ist Second Life (http://secondlife.com/).

Massive Multiplayer Online Game Der Begriff Massen-Mehrspieler-Online- Gemeinschaftsspiel (MMOG) bzw. englisch Massive Multiplayer Online Game charakterisiert eine Art eines Computerspiels, das den Spielern einen virtuelle persistenten Kosmos bietet und von unzähligen Spielern synchron über das Internet gespielt werden kann. Die zwei wohl berühmtesten Spiele sind World of Warcraft, kurz WoW (http://www.worldofwarcraft.com/index.xml) und EverQuest, genannt EQ, (http://eqplayers.station.sony.com/index.vm).

Diese Beispiele sind nur ein möglicher Ausschnitt für Formen der Social Software. Es gibt eine Vielzahl von weiteren Anwendungsmöglichkeiten, wie zum Beispiel auch Applikationen für E-Learing. Eine wichtige Form von Social Software wurde an dieser Stelle unerwähnt gelassen: Die Weblogs. Der Erläuterung dieser Form dient das Folgekapitel 3.4, in welchem diese charakterisiert werden. Weil sich dieser Text mit der Informationsextraktion aus Weblogs auseinandersetzt, werden Weblogs genauer betrachtet als andere Formen von Social Software und erhalten deswegen ein eigenes Kapitel.

Mai 08 Masterarbeit FS 2008 13 Informationsextraktion aus Weblogs Edy Portmann

3.4 Weblogs Im Internet manifestiert sich heute zunehmend die Idee von Weblogs, mit deren Hilfe selbst Anfänger auf elementare Art und Weise persönliche Inhalte publizieren können. Wie wir im Kapitel 2.1 bereits erfahren haben, gehen die Definitionsmöglichkeiten für Weblogs auseinander. Im Sinne der Social Software versteht man unter Blogs Online-Journale einer bestimmten Person. Der oder die Besitzer veröffentlichen darauf periodisch Mitteilungen und erlauben es anderen Anmerkungen einzuflechten. In den meisten Fällen bestehen Weblogs aus aktuellen Beiträgen, die persönlich gefärbt sind, als dass sie neutrale, vorurteilsfreie Botschaften wiedergeben (vgl. Kap. 4.1), weshalb man in Weblogs eine weite thematische Spannbreite findet. So reicht diese thematische Streubreite von bescheidenen Linksammlungen, die das Surfverhalten des Autors dokumentieren, über persönliche Tagebücher bis hin zu sehr fachspezifischen Beiträgen. Die Macht der Blogs als Social Software wird trotz technischer Korrektheit häufig unterschätzt. Denn über eine simple Homepage hinaus erlauben viele Blogs Kommentare und gestalten dadurch Diskussionsplattformen mit ausgedehntem Einfluss. Zudem verfügen viele Blogs über eine Blogroll, also eine Linkliste zu anderen Blogs, um die soziale Bindung zu anderen Bloggern auszudrücken. und (vgl. Kap. 5.1) erlauben es den Weblogs einander mitzuteilen, sobald ein Eintrag mit Link auf einen entsprechenden Eintrag erstellt wurde. Somit wird die Möglichkeit einer Inter-Blog- Konversation geschaffen, welche bis zur Mobilisation gegen oder für bestimmte Anliegen führen kann. Blogs können die Leserschaft packen und dadurch virtuelle Comunities rund um eine Person oder einen Interessensschwerpunkt schaffen. Wie Prügl und Schuster im Buch „BlogTalks 2.0“ von Burg et al. schreiben, ist ein weiteres, wichtiges Anwendungsgebiet im Unternehmensumfeld das Projektmanagement (Burg et al. [BBMP04], S. 180ff). Hier kann ein Weblog beim Verteilen von Informationen eine zentrale Rolle einnehmen wie beispielsweise für Reporte über zugeteilte Aufgaben, Vorstellung neuer Teammitglieder, Änderungen von Zuständigkeiten, Ankündigung von Meetings, Statusberichten, Sitzungsprotokollen, Ergebnissen von Kundengesprächen oder kurze Statements (vgl. Kap. 6.2).

3.5 Kritik am Web 2.0 Als Zusammenfassung wird das bis anhin geschriebene reflektiert, um danach auf die Kritik am Web 2.0 einzugehen. Zu Beginn beschäftigten wir uns in diesem Kapitel 3.5 mit dem Web 2.0, welches das Web 1.0 ablösen soll oder bereits abgelöst hat. Um einen wesentlichen Aspekt des Web 2.0 besser zu verstehen, wurde der Begriff der Social Software hinzugezogen, unter welchem ebenfalls die Weblogs einzuordnen sind. Heute beschäftigen sich viele rund um das Internet bereits mit dem Begriff Web 3.0. Dieser Begriff wurde so gewählt, um damit die Zukunft des Internets auszudrücken. Als Tim Berners-Lee gefragt wurde, was er unter Web 3.0 versteht, erklärte er: „People keep asking what Web 3.0 is. I think maybe when you've got an overlay of scalable vector graphics - everything rippling and folding and looking misty - on Web 2.0 and access to a semantic Web integrated across a huge space of data, you'll have access to an unbelievable data resource.” (Shannon [Shan06]). Erstaunlicherweise ist der Vater des WWW und Leiter des WWW Consortiums (W3C) einer der schärfsten Kritiker des Web 2.016. Ihm entsprechend ist das aktuelle Netzverständnis des

16 Vgl. hierzu auch das Interview, welches Berners-Lee mit Roth [Roth06] führte.

Mai 08 Masterarbeit FS 2008 14 Informationsextraktion aus Weblogs Edy Portmann

Web 2.0 effektiv nicht zu unterscheiden vom Netzverständnis des Web 1.0, was er in einem -Interview mit Laningham [Lani06] erwähnte. Ein erdenkliches Motiv für die abweisende Stellung mag das Semantische Web sein, welches seit dem Hype um das Web 2.0 ein wenig in dessen Schatten zu stehen scheint. Effektiv haben aber beide Konzeptionen etliche Knotenpunkte: Weblogs, , Wikis, soziale Netzwerke und andere Services. Trotz allem unterscheiden sich die Grundideen klar voneinander. Während es im Web 2.0 hauptsächlich die Benutzer sind, welche die Strukturen und Inhalte bestimmen, liegt das Schwergewicht im Semantischen Web vielmehr bei den Autoren. Gemäss Berners-Lee et al. [BeHL01] ist das Semantische Web ist eine Weiterentwicklung des hypertextbasierten World Wide Webs, in welchem die Semantik der Informationen und die verschieden Services des Netzes definiert werden, um es dem Netz zu ermöglichen, seinen eigenen Inhalt zu erkennen, um dadurch den Anfragen von Mensch und Maschine gerecht werden zu können. Allerdings ist so ein einheitliches System nicht ganz leicht zu erschaffen und zu koordinieren, was laut Baur [Baur07] auch Tim Berners-Lee und seinem semantischen Web einige Kritik einbrachte.17 Die Arbeit rund um das Semantische Web ist technisch geprägt und setzt technisches Know-how voraus und legt dadurch das Schwergewicht der Beschäftigung in die Hände von Informatikern. Im Gegensatz dazu werden Anwendungen des Web 2.0 auch von technisch ungeschulten Personen benutzt und das Hauptgewicht wird so den einzelnen Benutzern zugesprochen. Aus diesem Grund wird nicht näher auf das Semantische Web eingegangen, dem interessierten Leser sei allerdings die im Literaturverzeichnis (vgl. Kap. 9.3) erwähnte Fachliteratur empfohlen.

Schon in naher Zukunft wird sich die Weiterentwicklung des Netzes hin zu einem neuen Web 3.0 weisen. Wer Recht und wer Unrecht hat, wer wie welche Aktionen an die Individuen bringen wird und wer durch welche Charakteristiken die einzelnen Mitglieder der Online- Comunity zu beeinflussen vermag, wird uns diese Zukunft verraten.

17 In einem Interview mit Frauenfelder [Frau04] von der Technology Review nimmt Berners-Lee zu der Kritik am Semantischen Web Stellung.

Mai 08 Masterarbeit FS 2008 15 Informationsextraktion aus Weblogs Edy Portmann

4 Soziologische Aspekte

Es ist wichtig, sich mit den Blogger auseinanderzusetzen, da von diesen die Informationen kommen, welche wir extrahieren möchten. Dazu unterscheiden eine Reihe von Studien die Autoren von Weblogs, im Hinblick auf soziodemographische Merkmale, Nutzungsmotive oder Typologien. An dieser Stelle werden einige Studien aufgegliedert und erläutert. Im ersten Teil dieses Kapitels, in der soziodemographischen Aufarbeitung, werden die Strukturen der Blogger dargestellt. Es wird beispielsweise anhand von Studien gezeigt, wie alt die Blogger sind, wo und wie sie leben, und wie ihr soziales Umfeld aussieht. Schmidt [Schm06] hat dazu im Oktober 2005 im deutschsprachigen Raum eine onlinegestützte Umfrage „Wie ich blogge?!“ durchgeführt, welche die Soziodemographie und die Nutzungsmotive verschiedener Blogger aufzeigt. Kapitel 4.2 unterscheidet verschiedene Blogtypologien anhand der drei Dimensionen Inhalt, Betreiber und Technik. Im Kapitel 4.3 werden abschliessend die Vor- und Nachteile von Weblogs abgewogen und in kompakter Form dargelegt. Diese Liste beschränkt sich auf Beispielexemplare und könnte beliebig erweitert werden. Dennoch ist die Beschäftigung mit den Vor- und Nachteilen, wiederum im Sinne einer Bildgewinnung entsprechender Blogger, wichtig.

4.1 Bloggereigenschaften Dieses Kapitel beschäftigt sich mit den Eigenschaften der Blogger. Um aufzuzeigen wer die Blogger sind und warum diese bloggen wird an dieser Stelle, mit Hilfe von Schmidt [Schm06] für den deutschsprachigen Raum und mit Pew Internet Research [Pewi05a], [Pewi05b] für Amerika auf die Soziodemographie und die verschiedenen Nutzungsmotive eingegangen.

Soziodemographie Der aus der empirischen Sozialforschung stammende Begriff Soziodemographie beschreibt Merkmale, anhand welcher die Mitglieder einer Stichprobe oder einer Zielgruppe zugeordnet werden können. Häufig werden für die Marktanalyse soziodemographische Daten erhoben, etwa um Artikel besser an die typischen Zielgruppen anzupassen oder zur Evaluation einer Bevölkerungsgruppe, welche ein Produkt mehrheitlich konsumiert. Im Bezug auf Weblogs werden die gängigsten soziodemographischen Daten anhand von zwei Studien aufgezeigt. Vorab sei jedoch erwähnt, dass es wegen der Artenvielfalt und Schnelllebigkeit von Weblogs schwierig ist, ein reales Nutzerprofil zu erstellen, welches ein exaktes Bestimmen beispielsweise des Alters und Geschlechtes verkompliziert. Orientierungshilfe für die USA geben uns Studien des Pew Research Centres, [Pewi05a] und [Pewi05b], laut welchen Blogger jung (48 % sind unter 30 Jahre), männlich (57 %), starke Internet-Nutzer und schon ausgiebig mit dem Internet vertraut sind und zudem häufig zu Hause über einen Breitbandanschluss (70 %) verfügen. Gemäss Pew Internet Research [Pewi05a] sind in Amerika mindestens 82 Prozent der Weblog-Betreiber seit mehr als sechs Jahren online. Nicht überraschend ist die Tatsache, dass überwiegend junge Personen bloggen. So betreiben laut Pew Internet Research [Pewi05b] in Amerika 20 Prozent der Jungen im Alter zwischen achtzehn und neunundzwanzig Jahren, hingegen nur fünf Prozent der über Fünfzigjährigen einen Weblog. Weiter geht aus diesen Studien hervor, dass Blogger in den Staaten über ein erhebliches Haushaltseinkommen verfügen. Laut Pew Internet Research [Pewi05a] leben 42 Prozent der amerikanischen Blogger in einem Haushalt mit

Mai 08 Masterarbeit FS 2008 16 Informationsextraktion aus Weblogs Edy Portmann

einem Einkommen von mehr als 50'000 US$. Zudem sind Weblog-Betreiber in den USA mit 39 Prozent Hochschulabschlüssen überdurchschnittlich gut ausgebildet. Im deutschsprachigen Raum gibt es bislang eine von der Universität Bamberg geführte Studie, welche deutschsprachige Blogger ebenfalls als gut ausgebildet identifiziert (Schmidt und Wilbers [ScWi06]). So besitzen rund 30 Prozent einen Hochschulabschluss und etwa 43 Prozent Abitur. Zudem sind die deutschsprachigen Blogger wiederum mehrheitlich jung (am häufigsten zwischen 20 und 29 Jahren) und männlich, bei den Blog-Betreibern unter 20 Jahren dominiert jedoch mit 66 Prozent das weibliche Geschlecht. Über die Hälfte der Befragten nutzt das Internet seit fünf bis zehn Jahren und über 25 Prozent sind 11 bis 20 Stunden pro Woche online.

Als Zusammenfassung kann festgehalten werden, dass Weblogs mehrheitlich von jungen Menschen mit hoher Bildung und hohem Einkommen18 genutzt werden, weshalb bei Schmidt und Wilbers [ScWi06] die Blogger mit „Early Adopters“ neuer Internettechnologien verglichen werden. Laut Zerfass und Boelter [ZeBo05] wird in Deutschland das Internet vorwiegend vom gehobeneren und fortschrittlicheren Milieu genutzt und je minderer die soziale Schicht ist, desto kleiner ist die Nutzung. Dies bedeutet für die Unternehmenskommunikation, dass sowieso sonderlich reg- und mitteilsame Individuen mit Weblogs potentiell neue Möglichkeiten bekommen, aktiv an der Meinungsbildung teilzuhaben.

Nutzungsmotive Laut Pew Internet Research [Pewi05a] besassen Ende 2004 sieben Prozent der US-amerikanischen Internet-Nutzer ein persönliches Weblog und 27 Prozent lasen Weblogs, wovon zwölf Prozent bereits einen Kommentar in einem anderen Weblog abgegeben hatten. Es gibt viele Gründe einen Weblog zu führen, am häufigsten wurde jedoch bei der Umfrage „Wie ich blogge?!“ von Jan Schmidt der Spass (70.8 %) als Motiv für das Führen eines Weblogs angegeben, gefolgt von der Liebe zum Schreiben (62.7 %). Die weiteren ausgewerteten Motivationen der Blogger waren persönliche Ideen und Erlebnisse festzuhalten (61.7 %), sich über persönliche Ereignisse und Ideen auszutauschen (49 %), die Gefühle von der Seele zu schreiben (44.5 %), das eigene Wissen für andere zugänglich zu machen (33.4 %), mit Freunden und Bekannten in Kontakt zu bleiben (33.2 %), neue Bekanntschaften und Kontakte zu knüpfen (27.2 %) und zuletzt berufliche Gründe (12.7 %). 10.7 Prozent der 4309 Befragten gaben weitere Gründe an, welche hier nicht einzeln genannt werden (Schmidt [Schm06], S. 43). Allerdings spornt es viele Blogger neben Redseligkeit und Eitelkeit an, zum Meinungsführer bei bestimmten Themen zu avancieren. Zudem werden von vielen Bloggern erst nach der Erstellung eines eigenen Weblogs, ausgelöst durch den sozialen Austausch und die intellektuelle Tätigkeit des Schreibens, weitere positive Effekte festgestellt. Weil in Beiträgen jeder seinen individuellen Stil finden kann, ist der Umgang in Blogs durchaus entkrampfter als im anderen schriftlichen Dokumenten anzusehen. Bundesrat Moritz Leuenberger schreibt dazu in einem Blog-Eintrag: „Ein Blog hat ja, soweit ich ihn jedenfalls begreife, auch etwas Lockeres, um nicht zu sagen Fröhliches. Damit sei die Seriosität unserer Diskussion nicht etwa in Frage gestellt, aber ich selber pflege hier im Blog doch einen etwas anderen Stil als in offiziellen Verlautbarungen, einfach deswegen, weil ich mich etwas unter Freunden fühle […].“ (Leuenberger [Leue08]).

18 Dies gilt für Amerika. Für Europa liegen diesbezüglich bislang keine repräsentativen Zahlen vor.

Mai 08 Masterarbeit FS 2008 17 Informationsextraktion aus Weblogs Edy Portmann

Auffallend ist, dass vor allem Gründe genannt werden, welche dem Individuum dienen sich selber zu verwirklichen und ihm helfen, sich in ein soziales Netzwerk einzubinden. Dadurch wurde an dieser Stelle der Bogen zu den sozialen Netzwerken wieder gespannt und wir wenden uns nun den Typologien verschiedener Weblogs zu.

4.2 Blogtypologien An dieser Stelle werden Blogs anhand ihrer Gruppenzuordnung aufgezeigt. Um die Blogs aufzugliedern werden drei verschiedene Kategorien zu Hilfe herangezogen, anhand welcher eine Unterscheidung stattfinden kann: Eine Unterscheidung nach Inhalten (nach Zerfass und Boelter [ZeBo05], S. 118ff), eine Unterscheidung nach Betreiber und zu guter letzt eine Unterscheidung verschiedener technischer Aspekte (nach McDougall [Mcdo07], S. 24ff).

Unterscheidung nach Inhalt Bei der Konzeption und Gliederung von Blogs ist das Verfahren ein elementares Merkmal, anhand wessen Autoren durch Bedeutungsvermittlung entsprechende Zielgruppen beeinflussen möchten. Dabei ist zwischen drei Prozessen informativer Vorgehensweise, persuasiver Kommunikation und Kommunikationsprozessen mit dem Ziel von argumentativer Interesseklärung zu differenzieren. Bei der informativen Kommunikation steht die Vermittlung von Ansehen und Bewusstseinsschaffung im Vordergrund, im Gegensatz zur persuasiven Kommunikation, wo Kommunikationsformen, wie das eigene Image, die persönliche Autorität oder Verträge miteinbezogen werden. Die Argumentation wird vor allem zur Überzeugung durch Tatsachen und Fakten, sowie Offenheit eingesetzt. Ein weiteres Kriterium ist die Einordnung von Weblogs anhand der Kommunikationspartner. So wird in dem Bezugsrahmen zwischen interner Kommunikation, externer Kommunikation sowie Public Relations (PR) differenziert. Interne Kommunikation richtet sich an Mitarbeiter, Geschäftsleitung und -direktion und weiter an alle Organisationsmitglieder, welche an der Identitätsbildung und Zielerreichung eines Betriebes aktiv beteiligt sind. In diesem Zusammenhang eingesetzte interne Weblogs können dem Transfer und dem Dialog zwischen einzelnen Mitarbeitern und Teams dienen. Als Beispiel sei hierzu das britische National Institute for Mental Health (NIMHE) genannt, welches durch den internen Einsatz von Weblogs den gegenseitigen Wissensaustausch unter den dezentral verstreuten Aussenstellen fördert, um dadurch die Qualität für Hilfestellungen verbessern zu können. Davon ist die Marktkommunikation abzugrenzen, welche sich an ausserbetriebliche Institutionen oder Personen richtet. Dennoch sind diese Institutionen und Personen mit dem Unternehmen in irgendeiner Art in Beziehung, bzw. an deren Zielen interessiert. In der Marktkommunikation handelt es sich hauptsächlich um geschäftliche Beziehungen, wie Kunden, Mitbewerber, Kapitalgeber oder Lieferanten. Weblogs dienen dann der Absatzsteigerung durch Werbung, Verkaufsförderung oder Product Placement. Im deutschen Sprachraum wurde im Kapitel 2.1 bereits das Beispiel von Frosta gezeigt. Analog hat der Spirituosen-Importeur Svedka Vodka das Weblog „Garden of Sweden – Adult Entertainement distilled by Svedka“ (http://www.gardenofsweden.com) geschaffen, auf dem diverse Blogger Reportagen über das Nachtleben in New York, Erotika, Filme, Reisen, das neuste Getratsche sowie über Rezepte für Wodka-Cocktails schreiben. Geht es um die Ansprache von Ämtern, Anwohnern, Kritikern oder Behörden, wird dies unter Public Relations (Öffentlichkeitsarbeit) subsumiert. Für Non-Profit-Organisationen mit relativ geringen Marktbeziehungen ist PR oft die wichtigste Kommunikationsform. Mittels Weblogs kann dialogorientiert und authentisch auf die Bezugsgruppen eingegangen werden. So

Mai 08 Masterarbeit FS 2008 18 Informationsextraktion aus Weblogs Edy Portmann

kommuniziert die dem Umweltschutz verbundene Non-Profit-Organisation Greenpeace Deutschland beispielsweise mit ihren Mitgliedern, Gönnern, Neugierigen und Interessierten erfolgreich über den eigenen Weblog (http://blogs.greenpeace.de/), welche sie neben der offiziellen Webseite unterhält.

Unterscheidung nach Betreiber In der zweiten Unterscheidungsmöglichkeit von Weblogs werden Individuen und Körperschaften differenziert. Unter Individuen werden beispielsweise Privatpersonen verstanden, welche in eigener Motivation, ohne institutionellen Auftrag, persönliche Interessen kommunizieren. So kann es Personen mit enger Bindung zu Institutionen geben, welche häufig mit begrenztem thematischem Fokus oder einem ausdrücklichen Endziel (Kundenbindung, Öffentlichkeitsarbeit, etc.) agieren. Hierzu kann der Blog von Todd Bischop (http://blog.seattlepi.nwsource.com/microsoft/) als Beispiel aufgezeigt werden, auf welchem dieser persönlich im Sinne von Microsoft blogt. Im Gegensatz dazu sind unter Körperschaften Firmen zu verstehen, welche ihre eigenen Blogs, häufig mit dem Ziel der Umsatzsteigerung betreiben. Diese Form des Blog-Einsatzes haben wir bereits in der inhaltlichen Unterteilung kennen gelernt. Um neben Frosta und Svedka Vodka ein weiteres Beispiel zu nennen, sei die Stonyfield Farm (http://stonyfield.com/weblog/) herangezogen, welche in ihrem Weblog über unverfälschte Joghurts und Milchgetränke blogt. Stonyfield spricht mit diesen Blogs vor allem Menschen an, welche auf ihre Gesundheit, Ernährung und zugleich auf die Umwelt achten.

Unterscheidung technischer Aspekte Hier wird zwischen den Blog-Services von Communities, webbasierten Blog-Services und festinstallierten Server Applikationen unterschieden. Blogs einer Community sind beispielsweise Blog-Angebote von Friendster (http://www.friendster.com/blogs.php), MySpace (http://blog.myspace.com/) und Facebook (http://blog.facebook.com/). Im Kapitel 6.1.1 wird näher auf die Blogs einer Community eingegangen. Unter Blogservices wird die einfache Möglichkeit zum Betreiben eines Blogs, wie Blogger (https://www.blogger.com/), TypePad (http://www.typepad.com/), Wordpress (http://www.wordpress.com) und Blogigo (http://www.blogigo.de) verstanden. Benutzer können sich bei diesen Blog-Providern einfach registrieren und erhalten dadurch Zugang zu einem persönlichen Weblog-Portal. Der Benutzer benötigt hierzu keine speziellen Kenntnisse, da die Webseite und die Designvorlagen bereitgestellt werden (vgl. Kap. 6.1.2). Für Firmen und Individuen mit spezifischen Fachkenntnissen bietet sich als zusätzliche Alternative das Betreiben von Weblogs auf eigenen Servern an, wobei jedoch die Installation einer Weblog-Software erforderlich wird (vgl. Kap. 6.1.3). Bekannte Produkte hierzu sind Movable Type (http://www.movabletype.org/) sowie die kostenfreien Open-Source-Lösungen Wordpress (http://wordpress.org/) und LifeType (http://www.lifetype.com). Eine lauffähige Datenbank und Kenntnisse der Scriptsprache Perl, bzw. PHP19 werden allerdings für die Einrichtung dieser Softwarelösungen vorausgesetzt.

19 PHP: Hypertext Preprocessor (PHP) ist eine Skriptsprache zur Erstellung von dynamischen Webseiten oder Webanwendungen verwendet wird. Vgl. hierzu die Seite der PHP Group (http://www.php.net/).

Mai 08 Masterarbeit FS 2008 19 Informationsextraktion aus Weblogs Edy Portmann

4.3 Vor- und Nachteile von Weblogs Um Blogger besser zu verstehen ist es sinnvoll, sich mit den Vor- und Nachteilen eines Weblogs zu beschäftigen. Die ausschlaggebenden Urteile für die Vor- und Nachteile wurden anhand Picot und Fischer [PiFi06] aufgearbeitet.

4.3.1 Vorteile Zuerst wird auf mit Hilfe von Przepiorka [Prze03a] auf die Vorteile von Weblogs eingegangen. Anstelle einer statischen Homepage gibt es für einen Weblog-Betreiber vor allem administrative, aber auch kommunikative Vorteile. Diese Vorteile deuten schlussendlich auf eine Informationsflut hin, womit sich erneut die Notwendigkeit einer gezielten Informationssuche in Weblogs ergibt.

Schnelligkeit Der wichtigste Vorteil von Weblogs überhaupt ist deren Schnelligkeit. Wegen der Fülle verschiedener Weblogs und deren Möglichkeit der Verlinkung verbreiten sich Informationen in Weblogs viel schneller als in herkömmlichen Medien. Diese Schnelligkeit wird durch Linklists, welche wie permanent aktualisierte Newstickers funktionieren, noch gesteigert, was dazu führt, dass gerade internetspezifisches in Weblogs zuerst diskutiert wird. Dies führt vielfach zu einer Meinungsbildung, schon bevor andere Medien überhaupt Einfluss darauf nehmen könnten.

Leichte Handhabung Was sicher für viele ein ausschlaggebender Grund ist einen Weblog zu erstellen, ist die leichte Handhabung. So sind die meisten Weblogs nach Inbetriebnahme sehr einfach zu bedienen. Nach der Erstellung sind Weblogs ähnlich wie auf einfache Bestandteile optimierte CMS zu bedienen. Weil oft keine HTML-Kenntnisse20 mehr nötig sind, ist durch die meisten Weblog-Anwendungen selbst für Laien ein einfacher Zugang gesichert und sie können sich ganz auf die Schaffung von Inhalten konzentrieren.

Kostengünstig Nachdem die Einstiegspreise für die Netzerschliessung zum Internet gefallen sind, kann ein Weblog als kostengünstig angesehen werden. Heutzutage zahlen die meisten Benutzer des Internets für die Nutzung nicht mehr im Minutentakt, sondern haben sich ein Abonnement gesichert, mit welchem sie in der Lage sind, unlimitiert im Netz zu surfen. Zudem sind die meisten Weblog-Systeme für Privatanwender frei erhältlich und Business- Anwender zahlen vielfach nur einen kleinen Betrag an die Entwickler des Systems, um eine erweiterte Sammlung von Methoden wie beispielsweise Werbemöglichkeiten und Online- Bezahlsysteme zu erhalten.

Weblogs sind interaktiv Weil durch die Kommentarfunktion die Möglichkeit der direkten Kommunikation mit dem Schreiber eines Beitrags gefördert wird, können neue Ideen entwickelt werden. Dies kann zu neuen Ideen führen und diese klönten wiederum einen erheblichen Mehrwert darstellen. Der Besonderheiten hierbei gegenüber von Foren ist, dass Individuen ohne sich zu registrieren einen Kommentar abgeben können, was eine niedrige Hemmschwelle für Anmerkungen bedeutet. Weiter können in einem Weblog im Gegensatz zu Foren Themen durch entsprechende Vorgaben durch den Blogger besser gesteuert werden.

20 HTML kennzeichnet die Hypertext Markup Language (HTML), eine textbasierte Auszeichnungssprache.

Mai 08 Masterarbeit FS 2008 20 Informationsextraktion aus Weblogs Edy Portmann

Ortsunabhängigkeit Als letzter Vorteil sei noch die Ortsunabhängigkeit genannt. Auch wenn der Blogger nicht zu Hause an seinem Arbeitsplatz neue Inhalte auf seinen Weblog stellen möchte, kann er dies mit verschiedenen Möglichkeiten, wie mit Hilfe eines Personal Digital Assistants (PDA), eines modernen Mobiltelefons oder aus einem Internetcafe tun (vgl. u.a. Kap. 5.3.8).

4.3.2 Nachteile Wie wir bereits wissen, gibt es trotz diesen Vorteilen eine ganze Reihe Nachteile, mit welchen sich jedoch die meisten Blog-Betreiber nicht oder nur teilweise beschäftigen. Gerade deswegen wird an dieser Stelle mittels Przepiorka [Prze03b] auf die entsprechenden Nachteile eingegangen, um ein möglichst ganzheitliches Bild zu geben und, fast noch wichtiger, die Brücke zu anderen Kapiteln zu schlagen, welche sich ebenfalls mit den Gefahrenzonen dieser neuen Technologie beschäftigen.

Weblogs sind unkontrollierbar Der Vorteil der starken Vernetzung und deren Schnelligkeit, ist auch deren Nachteil, so sind Weblogs unkontrollierbar. Weil durch Verweise von einem Blog auf einen anderen Aussagen vielfach dupliziert auf verschiedenen Servern zu finden sind, welche zudem noch auf mehrere Länder verteilt sein können, wird es unmöglich, den Informationsfluss zu steuern. Es ergibt sich somit eine von niemandem kontrollierbare Verwebung von Informationen, welche ihren eigenen Lauf nehmen kann.

Weblogs verraten Firmengeheimnisse Ein zweiter, wichtiger negativer Punkt ist, dass Weblogs Firmengeheimnisse verraten können. Wenn entsprechende Arbeiter eines Betriebs über ihren Alltag berichten, kann es vorkommen, dass diese Internas ausplaudern, welche nicht für die Öffentlichkeit bestimmt wären. So kann es sein, dass Mitarbeiter alleine durch die Beschreibung ihres Tagesablaufes oder der Tagesgeschehnisse auf ihrem Weblog der Konkurrenz sozusagen öffentlich zugänglich Informationen auf dem Silbertablett servieren.

Weblogs können dem Arbeitsklima schaden Weblogs können dem Arbeitsklima schaden, wenn sie als Mobbing-Plattform missbraucht werden. Wenn durch öffentliche Blossstellung von Mitarbeitern in einem Weblog das Arbeitsklima gestört wird, kann es zu ungeahnter Dynamik kommen, was ein Unternehmen in eine heikle Situation bringen kann.

Weblogs können dem Image einer Firma schaden Weiter können Weblogs dem Image einer Firma schaden. Wenn eine negative Kritik durch Verlinkung hochstilisiert wurde und von den Suchmaschinen einen hohen Stellenwert im Page Rank erhält, kann es sein, dass eine kritische Äusserung vor den Web-Auftritt der Firma gelistet wird. Dies kann einem Unternehmen enormen Schaden zufügen, wenn interessierte Sucher auf eine kritische Äusserung, anstelle des Internetauftrittes stossen. Zudem gibt es durch das schnelle Erreichen von Massenbewegungen noch einen weiteren, möglichen Schadensgrund von Weblogs an Firmen. So gelingt es gut organisierten Gruppen immer wieder, durch entsprechende Einträge auf ihren Blogs gegen Unternehmen zu mobilisieren. Einzelne Blogs können dementsprechend während der Zeit zu einer willensstarken Community reifen, die eine signifikante Aufmerksamkeit erreichen kann. Die

Mai 08 Masterarbeit FS 2008 21 Informationsextraktion aus Weblogs Edy Portmann

Verwarnung des Bloggers Jörg Kantel (http://www.schockwellenreiter.de/) durch den Suhrkamp Verlag21 und die bereits vorgestellte Diskussion über das Finanzierungsmodell von Jamba sind bekannte Beispiele.

Weblogs können Urheberrechte verletzen Auch können Weblogs Urheberrechte verletzen. Da es in Weblogs vielfach üblich ist, fremde Inhalte zu zitieren, um damit eigene Inhalte aufzubessern, kann es zu Urheberrechtsverletzungen kommen. Durch die Schnelllebigkeit der Weblogs sank die Hemmschwelle, fremde Inhalte als eigene auszugeben.

Weblogs haben keine eigenen Inhalte Ein weiterer Kritikpunkt an Weblogs ist, dass diese vielfach keine eigenen Inhalte aufweisen. Durch häufiges Reproduzieren einer Aussage kann es dazu kommen, dass bei einer Suche auf einer Suchmaschine immer wieder dieselben Antworten ohne neue Inhalte gefunden werden. So kann es für ungeübte Sucher schwierig werden, an bestimmte Inhalte heranzukommen.

Weblogs sind gläserne Visitenkarten Last but not least, Weblogs sind gläserne Visitenkarten. Durch ein Profiling kann an Informationen über eine Person gekommen werden, welche diese Person sonst so nicht kundgegeben hätte. Besonders mühsam kann dies bei Bewerbungen oder sonstigen berufsrelevanten Themen werden, wodurch der entsprechende Mitarbeiter durch Einträge in Weblogs seine eigene Karriere verbauen kann.

Diese Vor- und Nachteile sind wiederum nicht abschliessend und könnten ergänzt werden. Weiter können entsprechende Vorteile fast immer auch als Nachteile genannt werden, und Nachteile können je nach Sichtweise als Vorteile kommuniziert werden. Wichtig ist, dass die Ansprüche an ein Information Retrieval durch Weblogs stetig steigen. Wie wir anhand der Vor- und Nachteile gesehen haben, kann es für Unternehmen, wie auch Angestellte wichtig sein, zu wissen, wie mit Informationen, sei es der Preisgabe oder der Sammlung, umgegangen wird. Dass Weblogs nicht nur positive Auswirkungen haben, sollte man sich in jedem Fall bewusst sein.

21 Als Jörg Kantel in seinem Weblog einen Link auf die illegale Kopie des neuen Walser-Romans „Tod eines Kritikers“ legte, reagierte der Suhrkamp Verlag heftig. Kantel erhielt eine Abmahnung und sollte Anwaltskosten in Höhe von 1‘200 ⁄ zahlen.

Mai 08 Masterarbeit FS 2008 22 Informationsextraktion aus Weblogs Edy Portmann

5 Technische Aspekte

In diesem Kapitel bewegen wir uns weg von der Betrachtung einzelner Blogger hin zur Technik. Um gezielt Suchen zu können, ist es wichtig, ein Verständnis über die Funktionsweise von Weblogs zu erhalten und die wesentlichen Elemente eines Weblogs zu kennen. Im Kapitel 5.1 werden kennzeichnende Elemente der Weblogs aufgelistet. So kann es vorkommen, dass bei einem Blog eine Suchfunktion gegeben ist, bei einem anderen dafür ein Blogroll angeboten wird und bei einem dritten beides genutzt werden kann. Ähnlich verhält es sich mit Kapitel 5.2, wo die generelle Funktionsweise von Weblogs erläutert wird, wobei sich die Funktionsweise von Anbieter zu Anbieter geringfügig unterscheiden kann. Dennoch wird dem Leser bei der Lektüre dieses Kapitels das nötige Fachwissen mitgegeben, um auch Blog-Abwandlungen zu verstehen. Um eine Verbindung dieser Theorie mit der Praxis herzustellen, wird im Kapitel 5.3 das Arbeiten mit Weblogs dargestellt. Dazu werden die technischen Möglichkeiten anhand von Beispielen erläutert, um dem Leser abrundend ein Bild über die verschiedenen Arten der Benutzungsmöglichkeiten zu geben.

5.1 Wesentliche Elemente eines Weblogs Die gestalterische Abstimmung an persönliche Vorlieben lässt sich bei Weblogs mit Hilfe von Templates vornehmen. Deshalb und um Weblogs besser zu verstehen, sei an dieser Stelle auf die charakterisierenden Elemente eingegangen, welche nahezu in jeder Blog-Software enthalten sind. Um eine geordnete Struktur der Aufgliederung bemüht, werden die Elemente in alphabetischer Reihenfolge aufgegliedert, wobei die Reihenfolge keine Bedeutung auf die Relevanz der einzelnen Elemente hat. Recherchiert und verfasst wurde dieses Kapitel unter Einbezug der Literatur von Picot und Fischer [PiFi06] und Lange [Lang07].

Asides Unter dem Begriff der Asides (auch Clippings, Snippets genannt), versteht man Mikroeinträge, welche lediglich aus wenigen Wörtern und Zeilen bestehen, um Inhalte anderer Weblogs oder Internetseiten zu kommentieren.

Blog-Archiv Ein wichtiger Bestandteil eines Blogs ist das Blog-Archiv, wo alle Einträge gesammelt werden. In einem Blog-Archiv ist es möglich, ein Blog nach einem Datum zu durchforsten. Vielfach wird das Archiv bereits auf der Startseite durch entsprechende Hyperlinks zugänglich gemacht, welche als Information den Monat, das Jahr und die Anzahl der Beiträge enthalten können, um dem Blog-Leser Informationen für die Recherche in die Hand zu geben.

Blogroll Eine Blogroll ist eine öffentliche, auf dem Weblog sichtbar platzierte Sammlung empfohlener Hyperlinks zu verschiedenen Weblogs oder Internetseiten, häufig zu weiterführenden Informationen welche das Weblog-Thema betreffen.

Kalender Eine weitere Möglichkeit für die Suche in Weblogs ist der Kalender, wo Beiträge ebenfalls anhand des Erstellungsdatums gefiltert werden können. Im Kalender lässt es sich gezielt nach Einträgen bestimmter Tage suchen und die Kalender erlauben es, zwischen Daten zu blättern. Auf diese Weise können Einträge über Periodenabschnitte verfolgt werden.

Mai 08 Masterarbeit FS 2008 23 Informationsextraktion aus Weblogs Edy Portmann

Kategorien Um die Blogs zu strukturieren hilft ein gutes Schubladendenken, anhand dessen man Themen verschiedenen Kategorien (Tags) zuordnet. Bei einem Weblog steht die Kategorie entweder unter- oder oberhalb eines Beitrages. Diese Kategorien werden vom Blogger oder dem Administrator des Blogs am Anfang in der Administrationsoberfläche eingerichtet, können aber selbstverständlich zu einem späteren Zeitpunkt noch editiert oder gelöscht werden. Anhand dieser Kategorien wird es den Besuchern erleichtert, nach Inhalten zu suchen.

Kommentar Bei unzähligen Weblogs besteht durch den Kommentar die Möglichkeit, eine eigene Meinung zu einem Eintrag zu veröffentlichen. Ein solcher Kommentar wird auf derselben Seite wie der Beitrag oder als Popup aufgelistet. Falls bisher noch kein Kommentar erfasst wurde, kann durch einen Klick auf „Kommentar hinzufügen“ ein solcher dem Beitrag zugefügt werden, welcher entweder direkt publiziert oder aber erst nach einer entsprechenden Freigabe durch den Blogger erscheint.

News-Feed Ein Weblog lebt von seiner Aktualität und hat in den meisten Fällen eine grosse Änderungsgeschwindigkeit, weshalb ein News-Feed erwünscht wird, welches die Inhalte eines Blogs anzeigt. Ein Feed kann mit einem Feedreader von interessierten Lesern abonniert werden, welche dadurch die Möglichkeit bekommen, über neue Posts oder neue Kommentare oder beides informiert zu werden. Eine Form eines News-Feeds ist RSS, welches ähnlich einem Nachrichtenticker Überschriften mit kurzen Textanfängen enthält. Durch einen Klick auf diese Textanfänge kann der Abonennt direkt zum gewünschten Inhalt gelangen. Eine weitere Form der News-Feeds ist das Atom Syndication Format (ASF), welches als XML- Format22 den plattformunabhängigen Transfer von Informationen ermöglicht. Mit ASF möchten die Entwickler, mehrheitlich Blogger, das Erbe vom oben genannten RSS antreten.

Permalink Der Begriff ist ein Kunstwort, aus permanent und (Hyper-) Link und eine dauerhafte (permanente) Erreichbarkeit eines Eintrages über einen Link beschreibt. Bei herkömmlichen Webseiten führt eine Änderung der Seite zum Überspeichern des bisherigen Inhalts, bei Weblogs ist es dagegen üblich, einmal gemachte Beiträge unverändert zu lassen. Um die Erreichbarkeit dieser Beiträge beispielsweise beim Verlinken vom einen zum anderen Blog, oder für Bookmarks zu garantieren, wird dieser mit einem Permalink versehen, für welchen unter anderem auch Zeitstempel verwendet werden, welche zu jedem Beitrag und bei manchen Systemen ebenso zu jedem Kommentar angelegt werden. Durch diesen Zeitstempel lässt sich einem Beitrag ein definiertes Datum und eine Uhrzeit zuordnen.

Sortierte Einträge Die sortierten Einträge (Posts) sind die Hauptelemente eines Blogs und bestehen je nach verwendeter Software aus Texten mit und ohne Hyperlinks, Bildern, Videos und MP3-Dokumenten oder einer Kombination dieser Möglichkeiten. Wie bereits erwähnt, werden diese Einträge chronologisch rückwärts in eine übergeordnete Kategorie eingeordnet, die neusten Beiträge des Bloggers stehen also an erster Stelle. Ältere Posts werden auf weiteren Seiten angezeigt oder in Archiven aufgelistet. Die Posts sind nicht mit einem Namen versehen, da diese vom Blogger selber stammen, es sei denn, es handelt sich bei dem Blog um

22 Das Extensible-Markup-Language-Format (XML-Format) ist das Format der gleichnamigen Auszeichnungssprache zur Darstellung hierar- chisch strukturierter Daten in Form von Textdateien. Für eine kurze Erklärung sei auf Eckstein und Casabianca [EcCa02] verwiesen.

Mai 08 Masterarbeit FS 2008 24 Informationsextraktion aus Weblogs Edy Portmann

einen Gruppen-Blog, welcher von mehreren Autoren betrieben wird. In diesem Fall werden die Posts mit dem Namen des jeweiligen Bloggers versehen.

Suchfunktion In fast allen Weblogs steht neben den genannten Suchmöglichkeiten Volltext- Suchfunktionen zur Verfügung, welche neben den Kalendern, Archiven und Kategorien die Suchmöglichkeiten komplementieren. Häufig besteht die Möglichkeit nicht nur den Weblog zu durchsuchen, sondern auch Ergebnisse aus der Blogosphäre oder dem gesamten Internet einzubeziehen.

Trackback/Pingback Eine Methode zur Benachrichtigung anderer Webseiten über ein gemachtes Update des Blogs heisst Trackback oder Pingback, durch welche es Servern bei entsprechender Konfiguration möglich wird, eine Nachricht als zu erhalten. Von dieser Möglichkeit wird vor allem bei verweisenden Zitaten Gebrauch gemacht. Einige Softwarelösungen senden automatisch Trackback-Pings an ein gewünschtes weiteres Blog- System, andere erlauben es, Verweise durch „Copy & Paste“ in den Weblog zu übernehmen. Gemeinsam ist allen Lösungen eine Verlinkung zwischen den Blogs zu erhalten. Aufgrund der unterschiedlichen Kommunikationsformen (XML-RPC23 beziehungsweise HTTP POST24) enthalten Informationen über die URL-Adresse25, den Namen und eine Zusammenfassung und enthalten nur den jeweiligen Link.

Dies sind die wesentlichsten Elemente, welche jede Weblog-Software aufweist. Weiter gibt es, um die entsprechenden Weblogs bekannt zu machen, bisweilen Aktionen, wie Stöckchen, Blog-Karnevals und Blogtouren, welche dem Informationsaustausch dienen. Die Bekanntheit eines Blogs kann häufig von solchen Aktionen abhängen, an dieser Stelle wird jedoch nicht näher auf diese eingegangen.

5.2 Funktionsweise von Weblogs Wie bereits erläutert, ist die leichte Publikation von Inhalt für Weblog-Systeme charakteristisch. So sind Weblog-Systeme vorwiegend einfach gehaltene CMS, welche Benutzer mit geringen technischen Kenntnissen das Einbinden neuer Inhalte erleichtern, sowie diese für die Umgestaltung bestehender Inhalte befähigen. Um zu verstehen, wie ein Weblog funktioniert, wird anhand der Abbildung 5.1 in zehn Schritten ein möglicher Ablauf vorgestellt. Die Vorgabe zu dieser Erklärung stammt von Sven Przepiorka, welcher im Buch von Picot und Fischer [PiFi06] auf Seite 15 die entsprechende Funktionsweise erläutert. Erläuterungen zu Fachbegriffe können im Glossar (vgl. Kap. 11) nachgelesen werden.

23 Die Extensible Markup Language Remote Procedure Call (XML-RPC) ist eine Definition zum Methodenaufruf (oder Funktionsaufruf) durch verteilte Systeme. 24 HTTP POST übermittelt HTML-konforme Daten an einen vordefinierten Ort, wobei die Daten im Körper der Übermittlungsanfrage eingefügt sind. 25 Eine Uniform-Resource-Locator-Adresse (URL-Adresse) identifiziert eine Ressource über das verwendete Netzwerkprotokoll und den Ort der Ressource in Computernetzwerken.

Mai 08 Masterarbeit FS 2008 25 Informationsextraktion aus Weblogs Edy Portmann

Abbildung 5.1: Funktionsweise von Weblogs

Nachdem sich der Blogger erfolgreich durch sein Login im administrativen Bereich seines Weblogs angemeldet hat, kann er in einem entsprechenden Formular einen neuen Eintrag kreieren und diesen durch das Speichern veröffentlichen (1). Üblicherweise erstellt dann das Weblog-Publishing-System automatisch eine neue, permanente Webseite (2) mit dem entsprechenden Inhalt und integriert den letzten Eintrag in die chronologisch rückwärts sortierte Liste aller Weblog-Einträge. Diese chronologisch sortierte Liste integriert das System in die Startseite und ebenfalls in das Archiv des Weblogs. Weiter erneuert das Weblog-System das vielfach XML-basierte RSS-Feed, durch welches, mittels einem Aggregatorprogramm oder einem Feedreader, einem weiteren Benutzer erlaubt wird, die brisantesten Headlines und Kurzbeschreibungen automatisch herunter zu laden und die gesammelten Informationen geordnet anzeigen zu lassen. Zu diesem Zweck braucht der RSS- Aggregator (3) nur einen Link auf den RSS-Feed. Gleichzeitig informiert das System durch einen Blogping26 einen oder mehrere Ping-Server (4), wie beispielsweise blo.gs (http://blo.gs/), über den realisierten Update des Weblogs. (5) Technorati (http://www.technorati.com/), eine der grössten Echtzeit-Internet-Suchmaschinen für Weblogs, so wie herkömmliche Suchmaschinen wie beispielsweise Google und Yahoo bekommen von diesen Ping-Servern in periodischen Abständen die entsprechenden Updates mitgeteilt. In den Updates sind Informationen über die Aktualisierung enthalten, anhand deren die Suchmaschinen (6) ihre Indizes neu ordnen und in ihre Datenbestände einarbeiten können. Technorati und Google etwa setzen verwandte Suchalgorithmen wie Page Rank ein, in welchem die Relevanz einer Webseite durch die Anzahl auf diese verweisende Links bestimmt wird. Deshalb sind bei Weblogs Hyperlinks bedeutend, weil viele Blogs davon leben, andere Webseiten zu kommentieren. Das macht sich Technorati zu Nutze und stuft oft erwähnte Seiten höher ein als weniger häufig kommentierte (vgl. Kap. 7). Weiter erstellt Technorati neben den Suchergebnissen automatisch Webseiten, die eine Übersicht über neuste Beiträge in der Blogosphäre liefern. Der Internet-Nutzer erhält dadurch eine zusätzliche Möglichkeit, sich über aktuelle Weblogs zu informieren (7). Der Nutzer bekommt dadurch eine weitere Möglichkeit, sich schnell über Neuigkeiten zu informieren. Mittels den erwähnten Feedreader (8) können verschiedene Weblogs durch ein einzelnes Programm auf neue Inhalte durchforstet werden. Dabei wird auf die von den Weblog-Systemen erstellten RSS-Feeds (9) zurückgegriffen. Ein Feed kann in den meisten Browser leicht als dynamisches Lesezeichen abonniert werden. Dazu klickt der Internetnutzer das Feed-Symbol im Suchfeld/Adressfeld einmal an und fügt den Feed durch „Feed abonnieren“ den Lesezeichen

26 Unter einem Blogping versteht man ein Signal an den Blog-Server, durch welches dem Blogserver angegeben wird, das sich ein Blog- beitrag geändert hat, oder das ein neuer Beitrag verfasst wurde (vgl. dazu auch Kap. 5.2).

Mai 08 Masterarbeit FS 2008 26 Informationsextraktion aus Weblogs Edy Portmann

hinzu. Daraus ergibt sich folglich den Nutzen, dass nicht mehr von Hand jede Webseite aufgerufen werden muss (10), sondern dass diese über Lesezeichen erreicht werden können.

5.3 Workbench Weblog Ganz gleich ob die Entscheidung für die Nutzung eins Blog-Providers oder die Installation und den Betrieb einer eigenen Blog-Software ausfällt (vgl. Kap. 6.1), das Arbeiten in einem Blog ist bei den meisten Systemen sehr ähnlich. In diesem Abschnitt wird deshalb die Nutzung eines Blogs beschrieben, wobei es dabei vor allem um eine generelle Sicht der Arbeit mit Weblog-Systemen geht. Dabei wird nicht auf spezielle Umgebungen verschiedener Blog-Anbieters eingegangen. Grundsätzlich steht der Gedanke dahinter, dass es nach der Lektüre möglich sein sollte, einzelne Tätigkeiten rund um die Weblog-Administration zu verstehen. Dieses Kapitel wurde unter Einbezug von Lange [Lang07] erstellt und mit zusätzlichen Erfahrungen angereichert.

5.3.1 Erstkonfiguration Nachdem der Blogger sich für einen Weblog entschieden, das entsprechende System evaluiert und sich einen Namen für seinen Weblog ausgesucht hat, steht die Erstkonfiguration an. Bei dieser Erstkonfiguration trägt er den gewählten Namen als Blog-Titel in das System ein und beschreibt den Blog in einem dafür vorgesehenen Feld. Diese Beschreibungen nutzen später Menschen und Suchmaschinen, um das Thema des Blogs zu finden. Weiter müssen bei einer Erstkonfiguration Angaben wie E-Mailadresse, verwendete Sprache, Genehmigung von News-Feeds, Kalenderformat, Zeitzone und der benutzte Zeichensatz angegeben werden. Es gibt Weblog-Systeme, welche es erlauben, die Anzahl der Beiträge anzugeben, welche pro Seite erscheinen sollen. Bei anderen Blog-Systemen kann der Blogger sich für ein Design entscheiden und hat dadurch diese Vorgaben schon bestimmt. Allerdings ist nicht jede Blog- Software identisch komfortabel oder restriktiv (je nach Sichtweise) und erlaubt die Auswahl von vorgegebenen Designs, graphischer Elemente (Schrift, Farbe, usw.), Einstellungen zur Zusammensetzung der oder eines eigenen Bereichs für die Datenbankkonfiguration. Vielfach jedoch kann die erwähnte Struktur der Permalinks angepasst werden, so dass die Links zu bestimmten Blog-Einträgen sprechende Namen erhalten und für Menschen lesbar werden (vgl. Kap. 6.1, wo ausgesuchte Weblog-Systeme erläutert werden.). Auf diese Weise lassen sich in die Permalink-Zusammensetzung der Titel, das Datum mit , Monat und Jahr, entweder der Name, oder Benutzername oder aber die E- Mailadresse des Autors und die ID des Beitrages einfügen. Eine ID sollte enthalten sein, um einer Datenbankabfrage durch die Blog-Software entgegenzukommen. Neben den genannten Möglichkeiten besteht die Gelegenheit, eine Kategorie in den Permalink zu integrieren. Eine weitere wichtige Aufgabe bei der Erstkonfiguration ist die Überlegung der Aktivierung von Kommentarfunktionen (vgl. Kap. 5.3.5) und wie diese erscheinen sollen. Hier steht zur Diskussion, ob eine gegenseitige Kommunikation mit den Lesern geplant ist und wie die Kommentare erscheinen sollen. Für das Erscheinen ergeben sich grundsätzlich zwei Varianten: Entweder direkt unterhalb des Eintrages oder als Popup, wobei jedoch die hohe Verbreitung von Popup-Blocker in die Überlegungen miteinbezogen werden sollte. Bei diversen Blog-Anbietern arbeitet im Hintergrund eine Datenbank, welche gelegentlich bei einer Erstkonfiguration angepasst werden muss. Es handelt sich meistens um eine MySQL- Datenbank, welche für eine Selbstinstallation auf einem Webserver eingerichtet werden muss. In diese Datenbank werden die Beiträge, Bilder und andere Dateien, so wie die gewählten

Mai 08 Masterarbeit FS 2008 27 Informationsextraktion aus Weblogs Edy Portmann

Templates für das Design geladen. Bei einfachen Systemen, welche direkt über das Netz erreichbar sind und keine eigene Installation erfordern (vgl. Kap. 6.1), erübrigen sich diese Konfigurationen meistens. Bei vielen Weblog-Programmen besteht die Möglichkeit der Einrichtung von News-Feeds (vgl. Kap. 5.1), um die entsprechenden Leser automatisch mit aktuellen Meldungen zu versorgen. Diese können ebenfalls nach Bedarf angepasst und mit sprechenden Namen versehen werden. Die persönliche Konfiguration kann weiter zu anderen Anbietern transferiert werden, wodurch ein späterer Wechsel zu einer anderen Blog-Software dank der Import-/Export- Funktionen der einzelnen Anbieter sichergestellt wird, sofern ein Konverter verfügbar ist. Die meisten Weblog-Systeme erlauben diesen Wechsel untereinander.

5.3.2 Profil anlegen und ändern Nach der Erstellung eines Blogs sollte dieser unbedingt, wenn nicht während der Erstkonfiguration schon gemacht, in der Administrationsoberfläche eingerichtet werden. Zur Konfiguration gehören der Name des Bloggers, seine E-Mailadresse, die gewünschte Sprache, Zeitzone, usw. Wird mehr als ein Autor veröffentlichen, empfiehlt es sich, Nutzer mit Profilen und entsprechenden Privilegien anzulegen und zu Gruppen zu bündeln. Diese Gruppen, wie beispielsweise Administrator, Chefredaktor und Redaktor können dann bedarfsgerecht erstellt und/oder geändert werden. Generell können einzelnen Gruppen Rechte vergeben werden, wie zum Beispiel eine direkte Veröffentlichung von Beiträgen. So kann es sein, dass Redaktoren Beiträge nicht direkt veröffentlichen können, sondern diese zuerst über Chefredaktoren freischalten lassen müssen. Der Administrator besitzt sämtliche Rechte. Vielfach besteht im Profil die Möglichkeit eine Nachrichten-Abonnement zu erstellen, welches über neue Beiträge und aktuelle Kommentare informiert. Auf diese Weise kann sich ein Chefredaktor beispielsweise per Mail über anstehende Prüfungen von Beiträgen der Redaktoren informieren lassen. Auch Trackbacks können so an den oder die entsprechenden Blogger gelangen. Im Profil wird es den Autoren ermöglicht, zwischen HTML-Editoren und WYSIWYG- Editoren (What You See Is What You Get) zu wählen. Natürlich wird eine spätere Änderung dieser Einstellungen durch den Blogger gewährleistet.

5.3.3 Individualisierung durch Templates Um einen Weblog den Wünschen des Bloggers anzupassen, verfügen viele Weblog-Systeme über Templates, welche aktiviert werden können, um dem Blog eine persönliche Note zu verleihen. Ein Template ist eine Designvorlage, welche mit eigenem Inhalt gefüllt werden kann. Vielfach steht dem Blogger auch ein Template-Wizard zur Verfügung mit wessen Hilfe er eigene Templates entwickeln kann. Mit entsprechenden PHP- und CSS-Kenntnissen lassen sich ausserdem weitere Änderungen am Design des Blogs vornehmen. Obwohl die meisten Blogs schon nach der Installation mit vielen Funktionen versehen sind, sehnen sich viele Blogger nach weiteren technischen und gestalterischen Möglichkeiten für ihren Weblog. Deshalb gibt es durch Plugins eine weitere Möglichkeit den Weblog zu personalisieren. So ist das riesige Angebot an Addon-Programmen27 nicht verwunderlich,

27 Ein Addon (to add engl. für hinzufügen) ist ein optionales Modul, zur Ergänzung oder Erweiterung bestehender Hard- oder Software. Ein Plugin wird dagegen in eine bestehende Software integriert und stellt ein eigenständiges Programm dar.

Mai 08 Masterarbeit FS 2008 28 Informationsextraktion aus Weblogs Edy Portmann

wobei die Bandbreite des Angebotes häufig vom ausgewählten Weblog-Programm abhängt. Falls ein spezielles Plugin gewünscht wird, kann dieses ebenfalls selber mit PHP- oder Perl- Programmierkenntnisse in kurzer Zeit programmiert werden. Wenn nicht selber programmiert werden kann, gibt es oft Programmierer, welche für ein kleines Trinkgeld dem Blogger ein gewünschtes Programm erstellen. Die letzte Möglichkeit der Personalisierung von Blogs, ist die Integration in eine Webseite, um deren Design zu übernehmen. Die jeweilige Weblog-Software liefert dazu die aktuellen Inhalte.

5.3.4 Kategorien und Posts Bevor der Blogger auf seinem neu erstellten Blog das erste Mal einen Eintrag erstellt, ist es sinnvoll, Kategorien anzulegen. Häufig ist eine Oberkategorie als Vorgabe eingestellt, mit der Möglichkeit weitere Kategorien hinzuzufügen. Das Hinzufügen weiterer Kategorien kann auch zu einem späteren Zeitpunkt vorgenommen werden, ebenso wie Änderungen bereits bestehender Kategorien. Wenn eine Kategorie gelöscht werden sollte, besteht die Möglichkeit, die sich darin befindende Post in eine andere Kategorie zu überführen, so dass diese Einträge nicht verloren gehen. Beim Anlegen einer Kategorie wird ein Name vergeben und die Kategorie mit wenigen Worten etikettiert. Zudem lässt sich einer Kategorie auch ein passendes Symbol zuordnen. Zum Erstellen eines neuen Eintrags wird der Eingabedialog über „Neuer Eintrag“ geöffnet. Dieser neue Eintrag wird automatisch mit einem Datum und der Uhrzeit versehen, vom Blogger mit einem Titel beschriftet und einer Kategorie zugefügt. Falls der Eintrag nicht direkt einer Kategorie zugefügt wird, kommt er in die Oberkategorie. Der jeweilige Eintrag kann vom Blogger seinen Wünschen entsprechend formatiert und mit anderen Dateien, wie Bilder, Musik und Film, sowie Links angereichert werden. Wenn der Eintrag fertig erstellt wurde, besteht die Möglichkeit, diesen direkt zu veröffentlichen oder ihn, mit dem Gedanken einer späteren Veröffentlichung, als Entwurf zu speichern. Um den, entweder über einen WYSIWYG- oder HTML-Editor, erstellten Beitrag vor Veröffentlichung zu begutachten, besteht die Gelegenheit, diesen in einer Vorschau-Funktion (Preview) anzusehen. Mit der Funktion Speichern wird der Beitrag veröffentlicht, falls er nicht zuvor als Entwurf gekennzeichnet wurde. Eine weitere Funktion ist das zeitversetzte Publizieren. Unter einem zeitversetzen Publizieren versteht man die automatische Veröffentlichung eines Artikels zu einem dem System vorgegebenen Zeitpunkt. Beim Betrieb eines Blogs durch mehrere Autoren kann die Veröffentlichung, wie gezeigt, von der Genehmigung eines anderen Autors abhängen. Weiter ist mit entsprechender Berechtigung die Modifikation bereits bestehender Beiträge möglich. Wie erwähnt, können den einzelnen Beiträgen auch ergänzende Medien zugeordnet werden, welche entweder verlinkt oder aber auf einen Server hochgeladen werden. Um die entsprechenden Medien in den Beitrag einzufügen, stellt die Software einen Befehl zur Verfügung, wo man die entsprechende Datei und deren Speicherplatz angibt. Wenn zu einer Datei verlinkt wird, muss sichergestellt werden, dass diese Datei auf Dauer dort verfügbar sein wird. Wenn der Blogger dies nicht garantieren kann, drängt sich manchmal die Anlage eines eigenen Medienarchives auf, wo alle verwendeten Medien gespeichert und die Beiträge damit gespiesen werden. Für die verwendeten Medien lassen sich auch Privilegien vergeben, sodass sie nicht allen Bloggern eines Team-Blogs zur Verfügung stehen müssen.

Mai 08 Masterarbeit FS 2008 29 Informationsextraktion aus Weblogs Edy Portmann

5.3.5 Kommentarmoderation Die Kommentarfunktion erlaubt es den Besuchern eines Weblogs, ihre eigenen Ideen und Meinungen zu einem Eintrag zu veröffentlichen. Diese werden entweder als Popup oder unterhalb des Beitrages angezeigt. Dem Administrator des Blogs wird die Möglichkeit gegeben, Kommentare entweder direkt zuzulassen, oder erst nach einer Begutachtung (Freigabe) zu veröffentlichen. Bei einer Freigabe wird der entsprechende Kommentarschreiber darauf aufmerksam gemacht, dass dieser zuerst geprüft werden muss. Beim Weblog-Autor werden die einzelnen Kommentare in gelisteter Form aufgezeigt und diese können mittels Filter durchsucht werden. Dies kann nützlich sein, wenn der Blogger nach einem Kommentar einer bestimmten Person, einer bestimmten IP-Adresse28 oder einem Schlagwort suchen will. Jegliche Kommentare können durch den Betreiber akzeptiert, modifiziert oder permanent gelöscht werden, falls der Inhalt des Kommentars dem Blogger nicht genehm ist. Zudem besteht für den Blogger die Möglichkeit einer direkten Kontaktaufnahme mit dem Kommentator, da dieser bei der Erfassung des Kommentars eine E-Mailadresse hinterlegen muss, welche allerdings nur für den Blogger sichtbar ist. Um Spam-Kommentare (vgl. Kap. 5.3.6) zu verhindern, wählen viele Blogger die Variante der Moderation der Kommentare. Jedoch ist diese Moderation nicht unumstritten und wird vielfach kritisiert, stellt sie doch eine Art Zensur dar.

5.3.6 Anti-Spam-Massnahmen Vielfach versuchen Spammer über die Kommentarfunktion Werbebotschaften abzugeben. Der gezielte Missbrauch der Trackback-Funktion durch Spammer hat den Zweck, die Link- Popularität des Spammers oder dessen Auftraggebers auszunutzen und so die entsprechende Webseite im Page Rank einer Suchmaschine zu erhöhen. Eine erste Möglichkeit auf solche Spam-Einträge zu reagieren, stellt die konsequente Abschaltung der Kommentarfunktion dar. Allerdings sollte diese Massnahme nur in akuten Fällen benutzt werden, da Kommentare ein wesentlicher Bestandteil eines Blogs sind und andere Blogger unter Umständen das Abschalten nicht guttieren. Eine weitere, durchaus permanent gedachte Möglichkeit, stellt die Einstellung dar, dass nicht mehrere genau gleiche Kommentare abgegeben werden können. Zudem besteht die Möglichkeit, spezifische IP-Adressen zu blockieren oder von diesen nur periodisch Kommentare zu akzeptieren, wobei die Periodendauer vom Blogger selbst gewählt werden kann. Eine dritte Massnahme stellt den Ausschluss von Kommentaren über Trackback dar, welche entweder generell ausgeschlossen werden können oder aber einer Freigabe durch den Blogger bedürfen. Um jedoch den Administrationsaufwand für den Blogger in einem verträglichen Rahmen zu halten, besteht häufig auch die Möglichkeit der Einstellung, dass ältere Beiträge unmoderierte Kommentare enthalten dürfen und nur neuere Kommentare moderiert werden. Weiter besteht vielfach die Einstellungsoption, dass eine Kommentar-Moderation erst ab einer gewissen Anzahl von Kommentaren oder bei der Eingabe von vorher definierten Wörtern in der URL, dem Besuchernamen oder im Kommentar selber erforderlich wird. Weiter können in den Kommentaren Hyperlinks abgestellt werden, um die Spammer vor Einträgen abzuhalten. In diesen jeweiligen Kommentaren ist dann nur eine Textnachricht

28 Eine Internet-Protocol-Adresse (IP-Adresse) dient zur eindeutigen Adressierung von Rechnern und anderen Geräten in einem IP-Netz- werk.

Mai 08 Masterarbeit FS 2008 30 Informationsextraktion aus Weblogs Edy Portmann

erlaubt, um zu gewährleisten, dass niemand seine Link-Popularität über Kommentare steigern kann. Zudem ist es beim Verfassen eines Kommentars üblich, dass eine E-Mailadresse eingegeben werden muss, was sich ebenfalls Spam-hemmend auswirkt. Als letzte Möglichkeit sei die so genannte Captcha-Möglichkeit erwähnt. So werden Captchas oft eingesetzt, um bei Eingaben in leere Felder im Internet zu entscheiden, ob das Gegenüber ein Mensch oder eine Maschine ist. Dadurch soll sichergestellt werden, dass nur Menschen und keine Computerprogramme bestimmte Dienste nutzen. Bei Captchas entstehen zwei Herausforderungen, einerseits schwere Aufgaben in den Captchas zu stellen, andererseits solche Aufgaben lösen zu können. Die Massnahmen gegen Blog-Spamming sind unterdessen weit verbreitet und umfassend, dennoch bieten sie, wie analoge Massnahmen, beispielsweise bei E-Mails, keine absolute Sicherheit.

5.3.7 Team-Blogging Besonders der unternehmerische Gebrauch von Blogs, wie Corporate Blogs und Blogs für PR-Massnahmen, machen es häufig nötig, dass nicht nur ein Blogger den Weblog unterhält, sondern ein ganzes Team. Man spricht in diesem Fall von Team-Blogging. Für die Administration eines Team-Weblogs ist es häufig sinnvoll (wie in Kap. 5.3.2 beschrieben), Rollen zuzuteilen. Den einzelnen Rollen können Rechte vergeben und den entsprechenden Teammitgliedern zugeordnet werden. Die durchdachte Vergabe der Rollen und Rechte stellt die zentrale Herausforderung an ein Team-Blog dar. Verschiedene Blog-Software-Lösungen bieten umfassende Möglichkeiten spezifische Privilegien für einzelne Rollen und Gruppen zu definieren. Zu diesem Zweck wird am Anfang der Gruppenname festgelegt und die Rechte für diese Gruppe vergeben. In einem weiteren Schritt werden die einzelnen Teammitglieder in entsprechende Gruppen eingeteilt. So können beispielsweise einer Gruppe Rechte, wie die Anlage und Administration der Kategorien, die Administration von Kommentaren und Einträgen, die Verwaltung des Medienarchivs, das Importieren von fremden Beiträgen, die Installation von Plugins, die Modifikation des Blog-Designs mit Hilfe von Templates, die Benutzerverwaltung oder die Gesamtkonfiguration erteilt und entzogen werden.

5.3.8 Weblog-Clients und Mobile Blogging Verschiedenste Client-Software-Lösungen erlauben eine Offline-Beitragserstellung ohne Internetverbindung. Weiter gibt es auch Clients, welche auf Mobiltelefonen oder PDAs (Personal Digital Assistants) installiert werden können. So nimmt die Zahl der Moblogger, welche Einträge von unterwegs über ihr Handy oder einen PDA als Textnachricht an den Blog-Server senden, stetig zu. Diese Beiträge können wiederum mit Fotos, Videos oder Tondateien zum Beispiel direkt vom Mobiltelefon angereichert werden. Ein Beispiel für eine plattformunabhängige Desktop-Blog-Software ist Thingamablog (http://thingamablog.sourceforge.net/), welche keinen Blog-Host, keine PHP-Umgebung und auch keine Datenbank benötigt. Die auf dieser Plattform erstellten Beiträge werden als statische HTML-Dateien über das File Transfer Protocol (FTP) oder gesicherter über Secure File Transfer Protocol (SFTP) auf eine spezielle Seite hochgeladen. Eine Blog-Erstellung wird mit Hilfe eines Wizards vereinfacht und kann auch ohne Internetverbindung erreicht werden. Zudem besteht die Möglichkeit mehrere Blogs über ein Login zu betreiben.

Mai 08 Masterarbeit FS 2008 31 Informationsextraktion aus Weblogs Edy Portmann

Es können Einträge als Entwurf gespeichert oder direkt veröffentlicht werden und die Funktion der Kategoriezuordnung kann ebenfalls genutzt werden. Weiter besteht bei Thingamablog die Möglichkeit, ein eigenes Design zu erstellen, ein flexibles Archiv zu erzeugen und eine Syndikation via RSS oder Atom zu nutzen, sowie den Empfang von News- Feeds über einen integrierten Feed-Reader zu ermöglichen. Die Oberfläche eines solchen Blog-Werkzeugs erinnert an ein E-Mail-Programm, welches zahlreiche Blog-Funktionen erbringt, aber keine Kommentare von Besuchern ermöglicht. Dies funktioniert nur mittels zusätzlicher Plugins, welche die Kommentare für das Offline- Blogging-Programm empfangen.

Mai 08 Masterarbeit FS 2008 32 Informationsextraktion aus Weblogs Edy Portmann

6 Anbieter und Anwendungsmöglichkeiten

Abschliessend werden an dieser Stelle noch ausgewählte Anbieter aufgegliedert und verschiedene Anwendungsmöglichkeiten erläutert. Vorerst werden dabei im Kapitel 6.1 die wichtigsten Anbieter von Weblog-Services genannt und beschrieben. Da nicht alle Anbieter der Blogosphäre aufgezählten werden können, wird eine Beschränkung auf die wichtigsten Anbieter aus Amerika und dem deutschsprachigen Raum vorgenommen. Dazu werden die einzelnen Angebote anhand deren technischer Charakteristika untergliedert. So gibt es Blog- Services von Community, webbasierte Blog-Services und festinstallierte Server- Applikationen, welche eine Installation voraussetzen (vgl. Kap. 4.2). Für Interessierte, welche weitere Anbieter kennen lernen möchte, wird im Anhang eine Liste mit ausgesuchter Weblog- Anbieter (vgl. Anh. 10.1) und eine Liste bekannter Weblog-Software (vgl. Anh. 10.2) aus den USA und dem deutschsprachigen Raum aufgegliedert. Im Kapitel 6.2 werden diverse Anwendungsmöglichkeiten von Weblogs dargestellt. Die entsprechenden Typen relevanter Weblogs können so besser unterschieden werden, vermischen sich indessen häufig an ihren Schnittpunkten, was eine Zuteilung manchmal erschwert. Trotzdem werden die theoretischen Erkenntnisse praktisch mit diversen Anwendungsmöglichkeiten untermauert und erkläret.

6.1 Verschiedene Anbieter von Weblogs Es gibt diverse Möglichkeiten zum Erstellen und Betreiben von Weblogs. Abhängig vom Einsatzgebiet, dem gewünschten Funktionsumfang und den Kenntnissen des Anwenders sind die Lösungen zum Teil kostenlos. Um Weblog-Angebote zu verstehen, gibt es grob zwei Kategorien, anhand welcher sich diese unterscheiden lassen: Blog-Services und Selfhosting- Möglichkeiten. Die Blog-Services lassen sich wiederum in Angebote von Communities und internetbasierte Blog-Angebote untergliedern. Im folgenden Abschnitt, welcher unter Beizug von McDougall [Mcdo07] und Picot und Fischer [PiFi06] erstellt wurde, wird auf die Charakteristika der einzelnen Möglichkeiten eingegangen.

Abbildung 6.1: Technische Einteilung der Weblogs

6.1.1 Blog-Services von Communities Als die Blogosphäre zu wachsen begann, entschieden viele populäre Internetanbieter, wie beispielsweise MySpace, Facebook und Friendster ebenfalls Weblog-Services anzubieten. Allerdings sind diese Angebote oft relativ rudimentär und werden üblicherweise vor allem

Mai 08 Masterarbeit FS 2008 33 Informationsextraktion aus Weblogs Edy Portmann

von Teenager benutzt. Weil diese Art der Weblogs eine untergeordnete Rolle spielt, wird nicht vertieft auf einzelne Beispiele eingegangen. Obwohl diese Communities externe Links auf andere Blogs und Internetseiten erlauben, welche von Nicht-Membern der Community gelesen werden können, vermögen sie es trotzdem nicht, Leser von ausserhalb der Community anzulocken. Zudem werden diese Angebote von anderen Benutzern häufig als provinziell betrachtet. Dies vielfach wegen ihrem Inhalt, den speziellen Absichten der Blogger und der Aversion des Publikums gegenüber nicht-öffentlichem Bloggen. Meistens besteht ein mit einem Community-Service erstellen Weblog, aus einer Adresse wie www.beispielcommunity.com/benutzername, weswegen Besucher deshalb oft zu recht vermuten, dass sich ein Benutzer registrieren muss, um Zugriff auf den Blog zu erhalten, was abschreckend wirkt. Die grössten Portalseiten wie MSN und Yahoo haben in ihrer Angebote verschiedene Möglichkeiten eingebaut, wie beispielsweise personalisierter Photos und Templates. Yahoo ermöglicht den Einbezug einer Musik Radio Station und MSN bietet Platz für Blog-eigene Werbung von Amazon Associates oder Kanoodle, einem kontextuellen Werbungs-Netzwerk. Alle diese Services von MySpace, Friendster, Facebook, MSN und Yahoo zielen auf die Blogger, welcher den Blog benutzt, um mit Freunden und Familie in Kontakt zu bleiben (McDougall [Mcdo07]).

6.1.2 Webbasierte Blog-Services Alle unter webbasierten Blog-Services genannten Blogs sind von den anbietenden Organisationen selbst gehostete Services. An dieser Stelle werden die populärsten Services erwähnt, was nicht heissen soll, dass dies die einzig qualitativ guten Angebote sind. So gibt es weiterer Angebote, welche an dieser Stelle nicht beschrieben werden. Im Anhang 10.1 werden ausgesuchte deutschsprachige und US-amerikanische Angebote aufgelistet.

Blogger Der Weblog-Service Blogger wurde 1999 von PyraLab, einem Softwareunternehmen aus San Francisco eingeführt und versteht sich als ein Pionier der Blogging-Bewegung, wobei Blogger die Verbreitung und die Mitprägung des Begriffs Blog zugeschrieben wird. Im Jahr 2003 wurde der Weblogservice von Google gekauft und Google integrierte in Blogger Dienstleistungen wie Picasa und Hello, welche ein leichtes publizieren von Photos erlauben. Blogger ist die meistgenutzte Gratis-Blogging-Plattform und wird von Anfängern wegen der schnellen Erstkonfiguration und dem geordneten Handling geschätzt. So werden keine Programmierkenntnisse verlangt, alles kann per „Drag & Drop“ gestaltet werden. Zudem werden die Benutzer nicht durch vorgegebene Traffic-Vorschriften oder Speicherplatz limitiert. Weiter ist die Nutzung von Blogger denkbar einfach: Nach einer einmaligen Registrierung unter Angabe der E-Mail-Adresse erhält man Zugang zum System, in welchem man mehrere Weblogs anlegen bzw. von anderen Weblog-Autoren als Co-Autor eingeladen werden kann. Für die Erstellung neuer Einträge kann ein WYSIWYG-Editor verwenden werden, welcher als zusätzliches Eintragsfeld ein Titelfeld beinhaltet. Nach der Erstellung des Beitrages ist es möglich, Einträge direkt zu veröffentlichen oder als Entwurf abzuspeichern. Ein zeitversetztes Publizieren ist bei Blogger nicht möglich. Um Blogger den individuellen Bedürfnissen anzupassen gibt es ein Template-System, welches der Benutzer anpassen kann. Weiter finden sich im Internet für Blogger viele Designvorlagen welche übernommen werden können, allerdings mit technischer

Mai 08 Masterarbeit FS 2008 34 Informationsextraktion aus Weblogs Edy Portmann

Beschränkung. Ist eine Änderung von Farbe, Schriftart, usw. nicht im Template vorgesehen, muss dies im HTML-Code angepasst werden, was weniger versierte Nutzer vor Herausforderungen stellen kann. Blogger unterstützt zudem die Publikation von Beiträgen per Mail und XML-RPC (vgl. Erläuterungen zu Trackback/Pingback in Kap. 5.1) und die Möglichkeit eines Team- Bloggings. Weiter können Zeit- und Datumsformate an Länder angepasst und der Zeichensatz der Sprache geändert werden, was Blogger eine uneingeschränkte internationale Nutzung erlaubt.

Typepad 2003 wurde der Weblog-Service Typepad von den Herstellern des Weblog- Skriptes Movable Type, in den USA gegründet. Typepad ist jedoch nicht gratis nutzbar, sondern je nach gewünschtem Funktionsumfang werden verschieden teure Abonnemente lösbar. Die verfügbaren Funktionen von Typepad entsprechen gewissermassen dem Funktionsumfang des Weblog-Skriptes Movable Type (vgl. Kap. 6.1.3) und übertrifft die meisten webbasierten Weblog-Services. Dies führt jedoch dazu, dass Typepad komplizierter zu bedienen ist und technisch weniger kundige Benutzer sich vom Funktionsumfang erschlagen fühlen können. Für Benutzer mit breiteren Kenntnissen ist Typepad jedoch das geeignetste Angebot. Bei Typepad gibt es die Möglichkeit, über einen WYSIWYG-Editor Einträge vorzubereiten und zeitgesteuert zu publizieren. Zudem sind mehrere Eintragsfelder vorgesehen, welche weiter sogar in ihrer Anzahl noch individuell ergänzt werden können. Eine Speicherung von Entwürfen ist ebenso möglich. Typepad stellt vorgefertigte Templates zur Verfügung, jedoch kann das komplette Erscheinungsbild des Blogs vollumfänglich auf eigene Bedürfnisse angepasst werden. Sogar technisch weniger versierten Benutzer können in einem WYSIWYG-Editor Anpassungen vornehmen und so Designvorlagen individuell ergänzen. Um das Team-Blogging so leicht wie möglich zu gestalten, bietet Typepad ein Rechtemanagement-System an. Um Spam zu bekämpfen werden Sicherheitsfunktionen wie die Sperre von einzelnen Benutzern oder IP-Adressen angeboten. Zudem ist es bei Typepad möglich Beiträge via E-Mail oder XML-RPC zu publizieren. Als eine besondere Funktion sind die gebotenen Import-/Exportmöglichkeiten hervorzuheben, welche dem Benutzer eine jederzeitige Manipulation seiner eigenen Daten erlauben.

Wordpress Gleich wie Blogger ist Wordpress ein Gratis-Blogging-Service, welcher durch leicht zu bedienende Features auf die Bedürfnisse von Gelegenheits-Bloggern zugeschnitten wurde. Wordpress gibt es als webbasierte Form, sowie auch als downloadbare Weblog- Applikation, welche die Möglichkeit einer eigenen Installation bietet (vgl. Kap. 6.1.3). Der Erfolg der Wordpress-Applikation brachte den webbasierte Weblog-Service hervor. Bei Wordpress ist es den Benutzern möglich, ihren Blog mit Hilfe eines Dashboardes zu verwalten. Alle nutzbaren Funktionen sind leicht zu implementieren und zu nutzen. Der Hauptunterschied zwischen Blogger und Wordpress kommt bei Anpassungen zum Vorschein. So ist Wordpress in vielen Belangen viel restriktiver als Blogger. Durch die Restriktionen erhofft sich Wordpress Spamblogs zu verhindern: „We have a very low tolerance for blogs created purely for search engine optimization or commercial purposes, machine-generated blogs, and will continue to nuke them, so if what’s you’re interested in [Wordpress] is not for you.” (McDougall [Mcdo07], S. 30).

Mai 08 Masterarbeit FS 2008 35 Informationsextraktion aus Weblogs Edy Portmann

Um Einträge, welche neben dem Text noch einen Titel enthalten, zu erstellen steht bei Wordpress ein WYSIWIG-Editor zur Verfügung, mit der Option einer zeitgesteuerten Veröffentlichung. Eine Speicherung von Entwürfen ist bei diesem Service auch möglich. Um Wordpress anzupassen besteht die Möglichkeit, eines der vorgefertigten Templates auszuwählen und dieses nach eigenen Wünschen so weit wie möglich zu verändern.

Blogigo Blogigo ist ein im Winter 2003 in Deutschland gegründeter Gratis-Weblog-Service, welcher vor allem deutschsprachige Weblogs hostet. Finanziert wird dieser Service über eingeblendete Werbung, welche allerdings bei der kostenpflichtigen Version abgeschaltet werden können. Mittels WYSIWIG-Editor lassen sich bei Blogigo Einträge erfassen, welche auch zeitgesteuert publiziert werden können. Bei diesem Weblog-Service besteht die Möglichkeit der Nutzung der mehrfachen Eintragsfelder. Allerdings ist eine Speicherung als Entwurf in Blogigo nicht möglich. Um das Design anzupassen, bedient sich Blogigo dem Template-Code vom Weblog-Skript Wordpress, durch welches den Benutzern die Möglichkeiten zur Anpassung von Farbe, Schriftart und –grösse über eine Administrationsoberfläche ermöglicht wird. So können auch technisch weniger erfahrenen Benutzern, Anpassungen vorzunehmen. Bei Blogigo wird Team-Blogging nicht unterstützt, allerdings ist es möglich, durch ein Login mehrere Weblogs anzulegen. Auch nicht unterstützt sind Veröffentlichungsmöglichkeiten über XML-RPC und E-Mail. Die Funktionen sind gering gehalten, um Anwendern mit wenig Erfahrung bezüglich Weblogs eine leichte Handhabung zu gewährleisten. Zudem ist Blogigo im Unterschied zu den bisher genannten Weblog-Services eher als Online- Community ausgerichtet, was sich durch eine starke Verlinkung innerhalb des Dienstes auszeichnet.

6.1.3 Festinstallierte Server-Applikationen Unter den festinstallierten Server-Applikationen werden all diejenigen Angebote verstanden, welche der Benutzer selber installieren und unterhalten muss. Der Benutzer kann dazu ein Grundgerüst des jeweiligen Anbieters beziehen und dieses auf eigenem Platz im WWW veröffentlichen. Bei festinstallierten Applikationen ist der Nutzer sein eigener Herr, mit allen Vor- und Nachteilen. Ein wesentlicher Vorteil besteht darin, dass man totalen Zugriff auf alle Daten und Designs hat, ein Nachteil darin, dass man auch für den Unterhalt des Systems selber verantwortlich ist. An dieser Stelle werden einige Beispiele genannt, ein vollständigeres Bild der festinstallierten Server-Applikationen aus dem deutsch- und englischsprachigen Raum bietet der Anhang 10.2.

Movable Type Das Weblog-Skript Movable Type wurde im Herbst 2001 zum ersten Mal dem Publikum vorgestellt, wobei jedoch am Anfang Movable Type kein kommerzielles Projekt war. Heute bezahlt man für das Herunterladen einen Beitrag. Die Programmierer von Movable Type wurden überrascht vom Erfolg zu diesem Schritt gezwungen29. Allerdings wurden mit der Kommerzialisierung der Funktionsumfang, die Dokumentation und die

29 Eine beschränkte Version ohne Supportunterstützung kann immer noch umsonst heruntergeladen werden.

Mai 08 Masterarbeit FS 2008 36 Informationsextraktion aus Weblogs Edy Portmann

Unterstützung verbessert. Der Preis schwankt je nach Funktionsumfang zwischen 49.95 und 199.95 US$. Um Movable Type auf einem eigenen Webserver selber zu installieren, muss der Server zwingend die Skriptsprache Perl unterstützen und eine Datenbank wie zum Beispiel MySQL anbieten, um die Weblog-Dateien abzulegen. Für die Installation lädt man die Dateien hoch und passt eine Konfigurationsdatei manuell an. Dieser Prozess ist nicht ausserordentlich schwierig, verlangt jedoch Erfahrung in der Installation von Perl-Web-Skripten. Movable Type ist ein sehr durchdachtes System, allerdings wird kein WYSIWYG-Editor zur Verfügung gestellt. Nach der Abfassung eines Beitrages kann diesem ein Titel zugeordnet werden und der ganze Beitrag kann verschlagwortet, kategorisiert und mit einem Teaser versehen werden. Wenn keine unmittelbare Veröffentlichung geplant ist, kann man den Beitrag entweder als Entwurf speichern, oder aber zeitgesteuert veröffentlichen.30 Ein durch Movable Type erstellter Weblog lässt sich im Design frei anpassen, wobei ein Template-System die Implementierung persönlicher Designvorlagen oder die Implementierung von Designvorlagen aus dem Netz unterstützt. Die Designvorlagen können bezüglich Farbe, Schriftart und –grösse an die individuellen Neigungen angepasst werden. Des Weiteren wird von Movable Type ein anspruchsvolles Weblog-Rechtesystem angeboten, welches mehrere Autoren unterstützt. Auch kann man auf verschiedene Sicherheitsfunktionen zurückgreifen, wie beispielsweise der Blockierung bestimmter IP-Adressen oder einer Ausschaltmöglichkeit der Kommentarfunktion pro Kategorie. Auch eine Registrierungspflicht für einen Beitrag kann implementiert werden. Zudem ist es mit diesem Skript möglich, mehrere Weblogs durch nur eine Skriptinstallation laufen zu lassen. Movable Type unterstützt XML-RPC, um Einträge verfassen und publizieren zu können. Ein weiterer Pluspunkt ist, dass die Benutzeroberfläche mehrere Sprachen, Zeitzonen, Zeit- und Datumsformate und Zeichensätze unterstützt.

Wordpress Seit 2001 wird das Skript von Wordpress durch eine Entwicklergemeinschaft ehrenamtlich gepflegt und weiterentwickelt. Dieses Skript muss vom Benutzer manuell auf einem Server installiert werden. Der Sever muss nicht Perl-fähig sein, sondern die Skriptsprache PHP und die Datenbank MySQL unterstützen und die darauffolgende Konfiguration kann mittels Browser menügesteuert erfolgen. Wordpress versucht in ihrer Anwendung eine graphische Gestaltung und die Einhaltung von Internet-Standards und Benutzerfreundlichkeit durchzusetzen, was mittels geordneter Menüführung und standardkonformen Webseiten-Code vollbracht werden soll. Diese Standardkonformität birgt jedoch auch Nachteile, wie beispielsweise der fehlende WYSIWYG-Editor. Von diesem Mangel abgesehen, können Einträge mit Text und Titel vorbereitet, als Entwürfe gespeichert, zeitgesteuert publiziert und kategorisiert werden. Die Templates von Wordpress lassen sich vollends über CSS anpassen, ohne dass der Code der Webseite dazu umgewandelt werden muss. Zudem sind genau wie bei Movable Type zahllose CSS-Templates im Internet frei verfügbar, womit das Erscheinungsbild frei angepasst werden kann. Bei Wordpress stehen dem Benutzer im Unterschied zu Movable Type nur ein Weblog pro Installation zur Verfügung, wobei jedoch mehrere Benutzer pro Blog durch ein übersichtliches Rechtesystem unterstützt werden. In Wordpress umgesetzt ist ein Redaktionsprozess (wie im Kap. 5.3.2 beschrieben), wo Redaktoren lediglich Entwürfe im

30 Bei Movable Type werden für eine zeitgesteuerte Veröffentlichung Zusatzprogramme, sogenannte Cronjobs vorausgesetzt.

Mai 08 Masterarbeit FS 2008 37 Informationsextraktion aus Weblogs Edy Portmann

Weblog erfassen können, welche vor Veröffentlichung durch einen Chefredaktor akzeptiert werden müssen. Wordpress ermöglicht abgesehen von der Publikation per E-Mail, auch eine Publikation durch XML-RPC. Ausserdem ist der Service multilingual verfügbar und es besteht die Möglichkeit Zeitzonen, Datums- und Uhrzeitformate zu bestimmen. Bezüglich der Kommentarfunktion werden Sicherheitsfunktionen bereitgestellt, wodurch Kommentare pro Eintrag aktivieret oder deaktivieret werden können. Obendrein können Kommentare von gewissen IP-Adressen blockiert und Kommentare, welche spezifische Schlüsselworte aufweisen, abgelehnt werden.

LifeType Das Ziel der Open-Source-Plattform LifeType, welche im Jar 2003 erstellt wurde, ist Weblog-Communities zu fördern. Um dieses Ziel zu erreichen, erlaubt LifeType mehrere Benutzer ein oder mehrere Weblogs. LifeType ähnelt Wordpress hinsichtlich der Standardkonformität und Benutzerfreundlichkeit. LifeType wird von ehrenamtlichen Entwicklern bereitgestellt, wobei die zugrunde liegende Technik mit PHP und MySQL mit der von Wordpress übereinstimmt. Bei LifeType werden, im Gegensatz zu Wordpress, ein WYSIWYG-Editor, die Sperre von IP-Adressen und mehrere Weblogs pro Installation angeboten. Zudem unterstützt LifeType Weblog-Hosting, wobei das Skript von LifeType als Grundlage verwendet werden kann, um mit dem Betrieb eines individuellen Weblog-Services zu beginnen. Nach einer Installation ist LifeType für Dritte zugänglich, welche auf der LifeType-lnstallation unter Angabe der eigenen E-Mail-Adresse erfasst werden können. Danach werden entsprechende Zugangsinformationen für die Installation per E-Mail mitgeteilt. Die auf diese Weise erfassten Benutzer können LifeType wie einen normalen Weblog-Service brauchen. Somit gliedert sich LifeType funktional zwischen den reinen Weblog-Skripten, wie Movable Type oder Wordpress und den Weblog-Services wie Blogger, Typepad und Blogigo, womit ergänzende Anwendungsmöglichkeiten für Blog-Autoren entstehen.

6.2 Wirtschaftlicher Einsatz von Weblogs Um auf die wirtschaftlichen Einsatzmöglichkeiten von Weblogs einzugehen, wird an dieser Stelle zur Verdeutlichung eine modifizierte Version der von Zerfass und Boelter [ZeBo05] erstellte Klassifikation herbeigezogen (vgl. Abb.6.2), wo Weblogs entlang der horizontalen Dimension Information, Überzeugung und Argumentation und der vertikalen Dimension der internen Kommunikation, Marktkommunikation und PR aufgezeigt wurde. Dieses Kapitel wurde aus verschiedenen Quellen zusammengefügt, wobei Zerfass und Boelter [ZeBo05] mit ihrer Klassifikation die Struktur vorgeben. Viele anreichernde Beispiele wurden aus Specht [Spec07], Wolf [Wolf06] und Namics [Nami05] entnommen, andere beruhen auf Eigenrecherche.

Knowledge-Blogs Unter Knowledge-Blogs versteht man im Stil eines Weblogs geführte, individuelle Einträge von Angehörigen eines Unternehmens, um Informationen für andere Mitarbeiter nutzbar zu machen. Vielfach wird im unternehmerischen Alltag Wissen zum zentralen Faktor. Häufig ist es jedoch nicht notwendig alles zu wissen, sondern es müssen Möglichkeiten geschaffen werden, an spezifisches Wissen zu gelangen (vgl. hierzu Meier und Stormer [MeSt05], S. 211ff). Dazu legen Knowledge Blogger gefundene Links aus dem Intranet und Internet in ihrem Blog ab und kennzeichnen diese häufig durch Kommentare. Dadurch ermöglichen sie andere Mitarbeiter, anhand dieser Blogs zu lernen, nach Inhalten zu suchen und zu filtern oder Kommentare zu dem verlinkten Wissen hinzuzufügen, um somit

Mai 08 Masterarbeit FS 2008 38 Informationsextraktion aus Weblogs Edy Portmann

neues Wissen für weitere zu schaffen. Neben des genannten Beispiels der zentralen Wissenssammlung beim britischen NIMHE (vgl. Kap. 4.2) kann die Investmentbank Dresdner Kleinwort Wasserstein als weiteres Beispiel heranzitiert werden. Diese Investmentbank führt mehrere Weblogs, wo Analysten und Händler ihre Erkenntnisse teilen und Diskussionen abhalten können (vgl. z.B. http://www.socialtext.com/blog/). Der wesentlichste Vorteil von Knowlegde-Blogs gegenüber von Foren, womit diese am ehesten verglichen werden können, besteht darin, dass es in Knowledge-Blogs für alle die Möglichkeit gibt, einen Eintrag mit einem Kommentar zu versehen und so Diskussionen zu starten, welche sich über viele Blogeinträge erstrecken können. So entsteht ein Netzwerk, welches sich einer zentralen Steuerung entzieht und bei Foren kaum gefunden werden kann.

Abbildung 6.2: Klassifikation von Weblogs

Sevice-Blog Für gewöhnlich recherchieren Personen, die sich von einem Unternehmen eine Hilfeleistung zu einem Sachverhalt versprechen, in der Nähe deren Internetseite. Deshalb wird im Buch „Die Macht der Blogs“ von Wolf [Wolf06] empfohlen, einen Sevice-Blog nahe der Firmenhomepage anzulegen, um für Kunden und Händler schnell und einfach Zusatzwissen und Produktinformationen bereit zu stellen. Der grösste Vorteil, gegenüber Frequently Asked Questions (FAQ) und herkömmlichen Servicebereichen besteht darin, dass diese Service-Blogs durch ihre starke Verlinkung ausnehmend gut von Suchmaschinen gefunden werden können. Ein weiterer Vorteil ist, dass die interessierten Personen durch ein RSS-Feed-Abonnement (vgl. News-Feed in Kap. 5.1) stets mit Aktuellem versorgt werden können. Als Beispiel lässt sich der Softwarehersteller Macromedia herbei nehmen, welcher ausgesuchte Mitarbeiter Blogs (http://weblogs.macromedia.com/) betreiben lässt, die sich mit einzelnen Produkten von Macromedia befassen. Auf diesen Blogs kann ein Kunde neben der Problembetreuung ebenfalls Informationen zu Neuentwicklungen oder Updates bekommen.

Kampagnen-Blogs Gemäss Zerfass und Boelter können Kampagnen-Blogs zwischen der internen und externen Kommunikation Informationen vermitteln und Themen besetzen. So charakterisieren die beiden Autoren Kampagnen als nicht linear, crossmedial, zeitlich begrenzt, dramaturgisch angelegt und eng fokussiert. Weiter können Kampagnen temporär eingesetzt werden und dokumentieren und begleiten tagebuchartig die Thematik (Zerfass und Boelter [ZeBo05], S. 134). In diesem Sinne hat beispielsweise das Marketingunternehmen TRND, welches Marktforschung und virale Mund zu Mund Propaganda betreibt, einen Kampagnen-Blog für den Smart Roadster (http://smartroadster.trnd.com/) betrieben, worin

Mai 08 Masterarbeit FS 2008 39 Informationsextraktion aus Weblogs Edy Portmann

TRND für die Dauer der Kampagne keine technischen Details, sondern vielmehr die Erlebniswelt des Produktes Smart Roadster kommunizierte. Die grösste Bedeutung erlangten Kampagnen-Blogs bislang jedoch während politischen Wahlen. So setzte das Team rund um Howard Dean (http://deancalltoaction.blogspot.com/) während der US-Präsidentschaftskandidatur 2004 auf Weblogs und löste eine Welle von Nachahmungsblogs auch im deutschsprachigen Raum aus, wie etwa der Blog der SPD während des Landtagswahlkampfes in Nordrhein-Westfalen anfangs 2005 (http://blog.nrwspd.de/).

Themen-Blogs Intern, sowie extern können Themen-Blogs ähnlich wie Knowledge-Blogs abwechslungsreiche Inhalte in Firmen belegen. In Themen-Blogs werden Darstellungen abgefasst, gesammelt, verlinkt und begründet, um Erkenntnisse und Berichte zu verschiedenen Themen und Hilfe bei Probleme zu vermitteln. Bis anhin beschäftigen sich vor allem Berater, welche sich speziellen Themen und Branchen widmen, mit Themen-Blogs (Wolf [Wolf06], S. 33 ff). Häufig nutzen diese dabei die Gelegenheit in ihren Blogs mit Wissen zu prahlen, um andere von ihren Fähigkeiten zu überzeugen. Dies tun sie im Hinblick darauf, neue Kunden zu akquirieren, denn wenn es klappt, mittels Themen-Blogs bei möglichen Kooperationspartnern und Mitarbeitern Berühmtheit zu erlangen, lohnen sich diese auch. Weiter stellen diese Art von Weblogs für viele Juristen ein reizvolles Instrumentarium dar, Informationen im Hinblick auf ein rechtliches Spezialgebiet darzulegen und dadurch auf sich aufmerksam zu machen. Als Beispiel sei der Blog von Udo Vetter erwähnt (www.lawblog.de), welcher verschiedene juristische Fragestellungen beantwortet. Eine weitere Interessengruppe für Themen-Blogs sind Anbieter, welche sich auf neue Technologien spezialisiert haben. Nico Zorn stellt in seinem E-Mail Marketing Blog (www.E- Mailmarketingblog.de) Details rund um E-Mailnutzung in der Unternehmenskommunikation bereit. Firmen oder Einzelpersonen ist es durch Themen-Blogs möglich, ansprechende Inhalte zu präsentieren, Erkenntnisse zu vermitteln und dadurch zur eigenen Imagebildung beizutragen.

Produkt- und Marken-Blogs Bei den Produkt- und Marken-Blogs stehen, im Unterschied zu Service- oder Themen-Blogs, die persönlichen Produkte oder die Marke im Zentrum. So setzen vor allem Firmen auf diese Möglichkeit des „Word of Mouth-Marketings“, welche Produkte oder Programme mittels Weblogs vorstellen wollen. Auf diese Art verzeichnen sogar Nischenprodukte mit geringem Marketingbudget dank direkter Empfehlungen beträchtliche Chancen. Laut Specht [Spec07] haben zirka 33 Prozent von Weblog-Nutzern wegen einem Blog-Eintrag Dritten gegenüber ein Produkt oder eine Dienstleistung empfohlen, bzw. nicht empfohlen und weiter machten 32 Prozent dieser Weblog-Nutzern den persönlichen Einkauf von einem Eintrag abhängig. Dies spricht also für die Errichtung eines Produkte- oder Marken-Blogs, in welchem Unternehmen die Möglichkeit des Meinungsaustausches über Produkte oder Marken schaffen, um potentielle Kunden mit eigenen Produkten oder Marken vertraut zu machen und diese dadurch zu binden. Neben der Stonyfield Farm nennen Zerfass und Boelter [ZeBo05] diesbezüglich noch Patrice Cassard, welcher in seinem Blog „LaFraise“ (http://www.lafraise.com/blog) die Kunden Designentwürfe für neue T-Shirts mitgestalten und bewerten lässt. Das Siegerdesign aller gestalteten Vorschläge wird schlussendlich in limitierter Auflage produziert und der Designer erhält 300 ⁄.

Mai 08 Masterarbeit FS 2008 40 Informationsextraktion aus Weblogs Edy Portmann

Projekt-Blogs Laut Zerfass und Boelter [ZeBo05] stellen Projekt-Blogs eine interne Einsatzmöglichkeit von Corporate Blogs dar, welche zur Begleitung und Dokumentation von Projekten eingesetzt werden können. So eignet sich vor allem die chronologische, rückwärtsgewandte Sortierung der Einträge für die Mitarbeiter eines Projektes, sich immer über den aktuellsten Stand zu informieren. Im Unterschied zu komplexen Projektmanagement-Systemen stellen Blogs vor allem für kleine und begrenzte Projekte eine kostengünstige Alternative dar, welche sich schnell umsetzen lässt. Laut Klein [Klei06] gibt IBM den Mitarbeitern eine Blog-Plattform (http://www-128.ibm.com/developerworks/blogs/) an die Hand, um Softwareentwicklungen voranzubringen. Diese Plattform wird zum globalen Informationsaustausch von ungefähr 500 Mitwirkenden in 30 Ländern rege benutzt (Specht [Spec07], S. 27).

Kollaborative Weblogs Kollaborative Weblogs erleichtern das Zusammenwirken verschiedener Organisationen, beispielsweise für Partner- und Zuliefernetzwerke, wie auch für virtuelle Organisationen. Charakterisiert werden diese Organisationen durch die Zusammenarbeit an unterschiedlichen Orten, unter Zuhilfenahme von Informations- und Kommunikationstechnologie. Als Beispiel sei hierzu die ärztliche Hilfsorganisation Interplast (http://www.interplast.blogs.com/) erwähnt, welche mit einem Blog die freiwillige Zusammenarbeit internationaler Helfer koordiniert.

Customer/Voter Relationship-Blogs Im Mittelpunkt des Customer Relationship Managements (CRM) stehen Freundschaften im gesellschaftspolitischen Milieu, welche die Auffassung beinhaltet, dass die Pflege bereits bestehender Kontakte einfacher und kostengünstiger ist, als der Aufbau neuer Freundschaften. Somit stellen Customer Relationship-Blogs eine Möglichkeit der Beziehungspflege im WWW dar. Ein Beispiel für die Einsatzmöglichkeiten von Weblogs zur Kundenbindung ist der Fastlane-Blog (http://fastlane.gmblogs.com), wo sich alles um Produkte und den Markt von General Motors dreht. Dieser Blog wird vom Führungskader rund um den Vizepräsidenten Bob Lutz betrieben. Im politischen Milieu spricht man diesbezüglich von Voter Relationship. Findet diese politische Beziehungspflege über einen entsprechenden Blog statt, nennt man diesen Voter Relationship-Blog.

Krisen-Blogs Krisen-Blogs stellen eine weitere interne und externe Einsatzmöglichkeit von Weblogs dar. Vor einer Krise für eine Kriese vorbereitete Blogs stellen ein schnelles, dialogorientiertes und argumentatives Kommunikationsmittel dar, um potentielle Gefahren zu bewältigen. Das altgriechische Wort Krise charakterisiert eine kritische, mit einem Wendepunkt verknüpfte Entscheidungssituation, wohingegen das chinesische Wort für Krise zum einen Gefahr, aber auch Gelegenheit bedeutet (Zerfass und Boelter [ZeBo05], S. 155). Deshalb ist eine Krise immer auch eine Möglichkeit, sich durch die richtige Verhaltensweise positiv zu positionieren. Wenn das Instrumentarium der Weblogs als möglicher Kommunikationskanal für Krisen präventiv miteinbezogen wird, kann dies durch die Dialogorientierung mittels Kommentaren zu verbesserten Umgangsmöglichkeiten mit Anspruchsgruppen während der Krise führen. Weiter können Krisen-Blogs während der latenten Krise zur internen Kommunikation mit Mitarbeitern und ausserdem als primäre Informationsressource bei Katastrophen eingesetzt werden. Hätten die betroffenen Manager bei Kryptonite (vgl. Kap. 1) und Jamba (vgl. Kap. 2.1) sich vorab mit der aufkommenden Krise beschäftigt und in richtiger Art und Weise

Mai 08 Masterarbeit FS 2008 41 Informationsextraktion aus Weblogs Edy Portmann

darauf reagiert, wäre eine Imagesteigerung durchaus möglich gewesen. Ein weiteres Beispiel für eine schlechte Krisenvorbereitung ist das des Computerkonzerns Apple, welcher durch eine Blog-Kampagne (http://www.ipodsdirtysecret.com/) von unzufriedenen Kunden dazu gebracht wurde, kostengünstigere Angebote zum Austausch leerer Batterien für den populären MP3-Musikplayer iPod anzubieten.

CEO-/Executive-Blogs CEO-Blogs oder Executive-Blogs haben die Aufgabe Themen zu besetzen und durch Persönlichkeiten an der Imagebildung des Unternehmens beizutragen. Häufig kommt diese Art der Blogs in Amerika und da wiederum in der IT-Branche vor. Charakterisierend dafür ist, dass die Geschäftsführer oder Vorstände über Branchenthemen, sowie private Erlebnisse berichten können. Ein gutes Beispiel für einen CEO-Blog ist nach Wolf [Wolf06] der Blog der PR Agentur Richard Edelmann (http://www.edelman.com/speak_up/blog/), in welchem Richard Edelmann über verschiedene persönliche und geschäftsrelevante Ansichten bloggt.

Journalistische-Blogs Eine weitere Möglichkeit eines Einsatzes von Weblogs sind Journalistische-Blogs, auf welchen aktuelle Themen aufgearbeitet werden. Herkömmlicher Journalismus und Information aus Weblogs weisen unterschiedliche Eigenschaften auf, die abhängig vom Gesamtzusammenhang als Stärke oder Schwäche angesehen werden können. Generell ausschlaggebender als zugrunde liegende Technologie ist, ob ein Blog nach journalistischen Eigenschaften (gesellschaftliche Relevanz, ausgewogene Berichterstattung, authentische Quellen etc.) geführt wird oder eben nicht. So ergibt sich, dass mancher Blog mit höheren journalistischen Ansprüchen betrieben wird, als Exponate aus der traditionellen Boulevardpresse (Genner [Genn07], S. 27).

Häufig ist ein exaktes Eingliedern nicht möglich und nicht gewünscht. An dieser Stelle wurden deshalb vor allem wirtschaftlich relevante Einsatzmöglichkeiten genannt, wobei diese nicht als abschliessend zu betrachten sind und es weitere Einsatzmöglichkeiten, sowie vielfältige Zwischenformen geben kann.

Mai 08 Masterarbeit FS 2008 42 Informationsextraktion aus Weblogs Edy Portmann

7 Weblogs und Suchmaschinen

Um gezielt suchen zu können, werden in diesem Kapitel die Funktionsweise von Suchmaschinen im Allgemeinen und geeignete (Web und Weblog) Suchmaschinen erläutert. Dieses Kapitel ist als Quintessenz bezüglich der Informationsextraktion zu verstehen, nachdem Erklärungen bezüglich der sozialen Aspekte von Nutzern der Weblogs, ihren Motiven und den technischen Grundelemente abgegeben wurden. Die einzelnen Erklärungen dienten der Verbesserung einer möglichen Informationsextraktion, denn man muss sich die Benutzer, welche Daten in ihren Weblogs anbieten, und auch den technischen Möglichkeiten bewusst sein, um optimal zu recherchieren.

Im Kapitel 7.1 wird einleitend auf die zentrale Bedeutung der Suche im Internet eingegangen. Der Zweck einer Websuche ist, dem Benutzer die besten Ergebnisse seiner Suche zu liefern. Die Einführung mündet schliesslich in der Theorie des Suchens von Kapitel 7.2. Das Kapitel 7.2 setzt an einer technischen Sichtweise der Suchmaschinen an. Dieses Kapitel ist zweigeteilt und bietet im ersten Teil einen Überblick über verschiedene Arten von Suchmaschinen und im zweiten Teil die Grundlagen für das Verständnis der Funktionsweise von modernen Web Suchmaschinen Im Kapitel 7.3 werden die aktuellsten Weblog Suchmaschinen vorgestellt. Eine Reihe dieser Suchmaschinen versucht inzwischen die Möglichkeiten der verschiedensten Informationen in den Weblogs zu erschliessen.

7.1 Vorbemerkungen Suchmaschinen konnten dank der wachsenden Datenmengen im Internet ein starkes Ansehen erlangen. Gemäss Hehl werden dem Benutzer durch moderne Suchmaschinen Portale geschaffen, anhand welcher er an der digitalen Bibliothek des Internets teilhaben kann (Hehl [Hehl01], S. 11). Ein Suchprozess beginnt, wenn ein Benutzer eine Anfrage in ein System eingibt. Anfragen sind formale Angaben des Informationsbedürfnisses, beispielsweise Suchstrings in einer Websuchmaschine. Typischerweise identifiziert eine Suchanfrage nicht ein einziges Objekt in einer Kollektion, sondern es werden viele Objekte auf die Suchanfrage gefunden. Unter einem Objekt wird ein Datensatz oder gespeicherte Information in einer Datenbank verstanden. Benutzeranfragen werden auf Übereinstimmung mit den gespeicherten Objekten überprüft. Unterschieden werden diese Objekte mit unterschiedlichem Grad an Relevanz. Abhängig von der Applikation können die Datenobjekte zum Beispiel Textdokumente, Bilder oder Videos sein. Viele Suchmaschinen berechnen eine numerische Auswertung, wie gut jedes einzelne Objekt in einer Datenbank mit der Suchanfrage übereinstimmt und ordnen die gefundenen Objekte anhand dieses Wertes (vgl. Kap. 7.2.1). Die Topantworten der Objekte werden dann dem Benutzer gezeigt. Dieser Prozess kann wiederholt werden, falls der Benutzer die Suchanfrage verfeinern möchte. Daneben können Suchmaschinen von komplexer bis einfacher Bedienung variieren, immer mit entsprechenden Vor- und Nachteilen. Welche Suchmaschine wie genutzt wird, hängt davon ab, wie geübt der Benutzer im Umgang mit diesen ist. Laut Broder [Brod02] lassen sich Suchanfragen von Benutzern in drei Kategorien ordnen. Erstens in die navigationsorientierte Suche, wobei der Benutzer methodisch nach Seiten sucht, welche er schon kennt oder von denen er annimmt, dass es diese gibt. Zweitens sucht der Benutzer bei der informationsorientierten Suche Daten zu einem bestimmten Inhalt, welche mit dem Auffinden der Information beendet ist. Die dritte Art ist die transaktionale

Mai 08 Masterarbeit FS 2008 43 Informationsextraktion aus Weblogs Edy Portmann

Suche nach Seiten aus dem Internet, wie beispielsweise Webseiten, Chats, usw. Dabei finden nach Lewandowski vor allem ungeübte Nutzer die für sie relevanten Daten nicht oder nur unzureichend. Zudem geben ungeübte Nutzer vielfach zu schnell auf und vertiefen ihre Suche nicht. Entsprechende Nutzerforschungen zeigen einheitlich, dass das Wissen der Nutzer über die von ihnen verwendeten Suchmaschinen, sowohl in der Kenntnis der Funktionsweise, als auch in der Kenntnis der Suchfunktionen der Suchmaschinen, ausgesprochen gering ist (Lewandowski [Lewa05], S. 34ff und Baeza-Yates und Ribeiro-Neto [BaRi99], S. 8). Eine grosse Anforderung an moderne Suchmaschinen ist demzufolge, bestehende Suchmöglichkeiten um einfach zu benutzende Elemente, wie beispielsweise des Browsings, zu erweiterten, so dass Benutzer nach dem Abschicken einer Suchanfrage nicht mehr mit einer Trefferliste alleine gelassen werden (Baeza-Yates und Ribeiro-Neto [BaRi99], S. 386f). Das Ziel der Suche mittels Suchmaschinen sollte sein, dem Nutzer die für die Befriedigung seines Informationsbedürfnisses besten Ergebnisse zu liefern. Als zentral für eine erfolgreiche Recherche erweist sich die Möglichkeit der gezielten Beschränkung der Recherche durch den Nutzer: Die wichtigsten Faktoren sind hierbei, die Einschränkung nach Aktualität, Qualität und die verbesserte Dokumentauswahl aufgrund einer erweiterten Dokumentrepräsentation (Lewandowski [Lewa05]). In der heutigen Zeit ist Google die prominenteste Web Suchmaschine, denn nach einem Namen eines Suchmaschinenanbieters gefragt, bekommt man laut Siederkeviciute [Side05] neben Google keine weiteren aufgezählt. Laut Bausch und McGiboney sind die grössten Web Suchmaschinen Google mit 55.5 Prozent Marktanteile, Yahoo mit 18.8 und MSN mit 13.8 Prozent vertreten (vgl. Bausch und McGiboney [BaMc07]). Im deutschsprachigen Raum verteilen sich gemäss Rosada-Braum [Rosa08] die Marktanteile wie folgt: Google 89.9 Prozent, Yahoo drei Prozent und MSN (1.8 %), hinter T-Online mit 1.9 Prozent. Anhaltend gemachte Innovationen (nicht nur von Google) zeigen die Websuche als dynamisches Feld. Vor allem wird durch die Innovationen der letzten Jahre, teilweise erst der letzten Monate, klar, dass die Suche im Web erst am Anfang steht.

7.2 Suchmaschinen Im modernen Information Retrieval werden Suchmaschinen keineswegs alleine mehr für das Durchsuchen von Datenbanken, sondern auch für das Auffinden von Dokumenten im WWW gebraucht. In diesem Fall spricht man von einer „Gatekeeper-Funktion“ der Suchmaschinen, welche sich dadurch charakterisiert, dass Methoden des Web Information Retrieval darüber entscheiden, welche Informationen von Nutzern gefunden werden, und welche nicht. Suchmaschinen sind zu einflussreichen Rechercheinstrumenten im privaten, geschäftlichen und auch akademischen Bereich avanciert (Lewandowski [Lewa05], S. 13). Im ersten Teil dieses Kapitels werden technische Aspekte der Suchmaschinen aufgegliedert. Es werden dabei Suchmaschinen anhand von verschiedenen Merkmalen, wie die Art der Daten, Datenquelle und die Realisierung charakterisiert. Im zweiten Teil wird die Funktionsweise von Web Suchmaschinen erläutert.

7.2.1 Arten von Suchmaschinen Suchmaschinen können nach verschiedenen Merkmalen kategorisiert werden. Die drei gegenwärtig verwendeten Unterscheidungsmerkmale sind die Realisierung, die Art der Daten und die Datenquelle. Im folgenden Abschnitt werden diese drei Merkmale genauer erläutert.

Mai 08 Masterarbeit FS 2008 44 Informationsextraktion aus Weblogs Edy Portmann

Art der Daten Je nach Suchmaschine lassen sich verschiedene Arten von Daten durchsuchen, welche sich grob in Text, Bild, Ton und Video eingliedern lassen. Die Ergebnisse werden anhand dieser Arten strukturiert. So werden bei Suchen nach Texten beispielsweise Textfragmente zurückgegeben, welche den entsprechenden Suchtext enthalten, spezialisierte Bildsuchmaschinen zeigen Miniaturansichten der gefundenen Bilder an, usw. Wenn zwischen Dokumenten der gleichen Art nicht alle Dokumente die gleiche daten- spezifische Eigenschaft teilen, können Daten noch feiner aufgegliedert werden. Auf diese Weise kann zum Beispiel bei einer Textsuche in HTML-Webseiten nach als Titel gekennzeichneten Formaten oder in -Beiträgen nach bestimmten Autoren, usw. gesucht werden. Weiter ist nach unterschiedlicher Datengattung eine Einschränkung auf Teilmengen der Daten möglich, die mittels zusätzlicher Suchparameter, welche Fragmente gesammelter Daten ausschliessen, erzielt werden. Alternativ kann eine Suchmaschine von Begin weg nur passende Dokumente in ihren Bestand aufnehmen, wie beispielsweise die Suchmaschine Swoogle (http://swoogle.umbc.edu/) von Ding et al., die eine Suche für das semantische Web ermöglicht ([DFJP04a], [DFJP04b]) oder Weblog Suchmaschinen wie Technorati, welche nur Weblogs anstelle des vollständigen Webs in ihren Bestand aufnehmen.

Datenquelle Als zweite Kategorisierungseigenschaft können die von den Suchmaschinen erfassten Quellen hinzugezogen werden, wobei vielfach der Suchmaschinenname Hinweise auf die verwendete Quelle geben kann. Folgendermassen geben Intranet Suchmaschinen Beiträge aus dem Intranet, Usenet Suchmaschinen solche aus dem Usenet und Web Suchmaschinen Dokumente aus dem WWW und Weblog Suchmaschinen Daten aus der Blogosphäre zurück. Mit Hilfe von Desktop Suchmaschinen können lokale Datenbestände einzelner Computer durchstöbert werden. Bei einer manuellen Anmeldung oder durch Lektoren vorgenommenen Datenbeschaffung (vgl. hierzu auch Social Bookmarks in Kap. 3.3) spricht man diesbezüglich von Katalogen oder Verzeichnissen, etwa dem Open Directory Project (http://www.dmoz.org/). In diesem werden Dokumente in einem Verzeichnis hierarchisch nach Themen geordnet.

Realisierung Als letzte Möglichkeit einer Kategorisierung wird eine Unterteilung nach der entsprechenden Umsetzung vorgenommen. Aktuell sind indexbasierte Suchmaschinen, welche nach dem Einlesen passender Dokumente einen Index anlegen, die bedeutendsten. Dabei wird eine Datenstruktur erzeugt, welche bei einer späteren Recherche benutzt werden kann, was den effektiven Suchvorgang beschleunigt, jedoch eine aufwändige Pflege und Speicherung des Indexes nötig macht. Die gebräuchlichste Ausprägung dieser Form ist ein invertierter Index (Baeza-Yates und Ribeiro-Neto [BaRi99], S. 383f). Als Metasuchmaschinen werden Suchmaschinen bezeichnet, welche Benutzeranfragen an mehrere Index-basierte Suchmaschinen senden, damit der Benutzer ein Suchkriterium nur einmal eingeben muss. Diese Suchmaschinen kombinieren einzelne Ergebnisse, wobei sich als grösster Vorteil die grosse Datenmenge, sowie die übersichtliche Implementierung ergeben, weil kein Index generiert werden muss. Als Nachteil muss hingegen eine langdauernde Anfragebearbeitung in Kauf genommen werden. Zudem ist das entsprechende Ranking aufgrund purer Mehrheitsfindung zweifelhaft. Weiter kann die Ergebnisqualität auf die Qualität der minderwertigsten Suchmaschine begrenzt sein, wie bei der sprichwörtlichen

Mai 08 Masterarbeit FS 2008 45 Informationsextraktion aus Weblogs Edy Portmann

Kette, welche beim schwächsten Glied reisst. Metasuchmaschinen werden vorzugsweise bei selten vorkommenden Suchbegriffen eingesetzt. Ein letzter Ansatz sind verteilte Suchmaschinen, wobei eine Suchanfrage an mehrere einzelne Computer gesandt wird. Die einzelnen Computer betreiben jeweils ihre eigene Suche, welche von der anfragenden Suchmaschine aggregiert und als Ergebnisse ausgegeben werden. Eine Herausforderung hierbei stellt das Ranking der geeigneten Dokumente anhand der Relevanz dar. Aufgrund der Dezentralisierung ist jedoch eine hohe Ausfallwahrscheinlichkeit gegeben. Zudem gibt es Hybridformen, welche häufig einen kleinen Index besitzen, weitere Suchmaschinen konsultieren und die Endergebnisse dem Benutzer in sinnvoller Weise präsentieren. Echtzeitsuchmaschinen etwa starten mit der Indexierung erst bei einer Suchanfrage, wodurch die gefundenen Seiten aktuell, aber die Qualität aufgrund fehlender Datenbasis vor allem bei raren Suchbegriffen häufig schlecht sind.

Weil sich die einzelnen Möglichkeiten dieser Merkmale orthogonal verhalten, kann bei der Konzeption eine mögliche Kombination aus den drei Merkmalsgruppen festlegt werden ohne dadurch andere Merkmale zu verletzen. Die meistverwendete Kombination ist eine Index- basierte Web Suchmaschine auf HTML-Textdokumenten, im Falle der Weblogs eine auf Weblog-Einträge.

7.2.2 Funktionsweise von Web Suchmaschinen Heute wird vielfach die Suche im Internet mit Suchmaschinen in Verbindung gebracht. Die Hauptaufgaben der Suchmaschinen im Internet, so genannte Web Suchmaschinen, sind erstens die Erstellung eines Indexes, zweitens die Verarbeitung von Suchanfragen und drittens die Aufbereitung der Ergebnisse in einer sinnvollen Art und Weise. Das Material zu diesem Kapitel stammt vorwiegend aus Lewandowski [Lewa05], ergänzt mit Hehl [Hehl01] und Ding et al. [DFJP04a], bzw. [DFJP04b].

Indexierung Mittels Web-Crawler erfolgt die Datenbeschaffung im WWW vollautomatisch. Gemäss Baeza-Yates und Ribeiro-Neto [BaRi99] ist ein Web-Crawler ein Programm oder ein automatisiertes Skript, welches mit dem Ziel der Datenerschliessung das World Wide Web in methodischer Weise durchquert. Web-Crawlers werden genutzt, um eine Abbildung besuchter Seiten zu erstellen, anhand welcher ein Index für die Suchmaschine erzeugt wird. Dadurch garantieren Suchmaschinen eine schnelle Suche. Ein Web-Crawler startet mit einer Liste von URLs. Während dem Aufsuchen dieser URLs besucht der Web-Crawler alle auf den einzelnen URLs eingetragenen Hyperlinks und folgt diesen und erstellt dadurch einen Index.

Auffinden und gliedern von Resultaten Die Web Suchmaschinen erstellen als Basis für ihre Suche einen Schlüsselwort-Index um auf Suchanfragen schnell, mittels einer nach Relevanz geordneten Trefferliste, zu antworten. Nach dem Absenden einer Suche liefert eine Web Suchmaschine eine Liste mit Verweisen auf „relevante“ Dokumente. Beim Term Relevanz gilt es zu unterscheiden zwischen der subjektiven Relevanz, der objektiven Relevanz und der geschätzten Relevanz (Stock [Stoc06]). Bei der subjektiven Relevanz widerspiegelt die Anfrage an ein Suchsystem eine klare Erwartung, was für den Suchenden relevant ist. Die geschätzte Relevanz meint, dass das Suchsystem mit Hilfe eines (meist statistischen) Verfahrens abzuschätzen versucht, was relevant ist. Dies ist und bleibt immer eine Schätzung,

Mai 08 Masterarbeit FS 2008 46 Informationsextraktion aus Weblogs Edy Portmann

da das System nicht in den Suchenden hineinsehen kann. Viele der älteren Suchsysteme arbeiten hier sehr simpel, die neusten hingegen sammeln historische Suchanfragen, sowie besuchte Webseiten der Benutzer und versuchen daraus die entsprechenden Präferenzen zusätzlich in die Anfrage einzubeziehen. Ein Dokument ist für eine Suchanfrage objektiv relevant, wenn es objektiv zur Vorbereitung einer Entscheidung dient oder wenn es objektiv eine Wissenslücke schliesst oder aber wenn es objektiv eine Frühwarnfunktion erfüllt. Derartige Kriterien der Relevanz werden von Suchmaschinen genutzt, um Dokumente bei der Ausgabe zu sortieren. Dazu gibt es unterschiedliche Verteilungstypen der Relevanz von Dokumenten zu einem Thema.

Aufarbeitung der Ergebnisse Die Verweise werden meistens mit einem Titel und einem kurzen Auszug des jeweiligen Dokuments oder entsprechender Schlüsselworte dargestellt. Für das Auffinden entsprechender Dokumente können unterschiedliche Suchverfahren eingesetzt werden. Für die Aufarbeitung und Darstellung der Suchergebnisse gibt es verschieden Möglichkeiten nach der Relevanz der einzelnen Dokumente zu sortieren: • Der fundamentale Rang eines Dokuments (beispielsweise der Page Rank bei Google) • Stellung und Häufigkeit der Suchbegriffe im gefundenen Dokument • Anzahl und Einstufung der zitierten Dokumente • Häufigkeit von Verweisen weiterer Dokumente auf das im Suchergebnis enthaltene Dokument • Verweisen auf enthaltenem Text • Einstufung der Qualität der verweisenden Dokumente, wobei ein Verweis von einem guten Dokument mehr wert ist als einer von einem mittelmässigen Dokument (sinngemäss nach Lewandowski [Lewa05], Kap. 8).

Suchmaschinenanbieter ziehen für die Relevanz-Bestimmung ihre eigenen, meistens geheim gehaltenen Kriterien heran. Es gibt Suchmaschinen, welche nicht ausschliesslich nach Relevanz sortieren, sondern gegen Bezahlung Ausgaben weiter vorne platzieren. Bei den grossen Web Suchmaschinen hat sich in den letzten Jahren jedoch eine Trennung zwischen bezahlten und normal aufgefundenen Dokumenten durchgesetzt.

7.3 Weblog Suchmaschinen Mehrere Weblog Suchmaschinenanbieter und Auswertungs-Services versuchen mittlerweile das Potential der Weblogs zu erschliessen. Mit Hilfe dieser Suchmaschinen können Weblogs, welche sich häufig nur an die Teilöffentlichkeit wenden, gefunden und beobachtet werden. Neben meinungsbildenden Blogs können auch Fachblogs und deren spezialisiertes Wissen eingesehen werden, was häufig im Journalismus bei der Suche nach Recherchematerial getan wird.31

31 Der Skandal um Bill Clinton und Monica Lewinsky konnte als erstes im Blogg von Matt Drudge (http://www.drudgereport.com/) gefun- den werden. Vgl. hierzu Junli, [Junl07], S. 14.

Mai 08 Masterarbeit FS 2008 47 Informationsextraktion aus Weblogs Edy Portmann

Weiter kann die Kombination von Weblogs und Suchmaschinen mithelfen, Falschmeldungen aufzuklären, was durch ein Feldexperiment der Universität Eichstätt aufgezeigt wurde. Gemäss Zerfass und Boelter wurde dazu eine fingierte Pressemitteilung an hunderte Journalisten geschickt, in welchem die Entdeckung eines angeblichen Sex-Gens mit Verweisen auf eine falsche Webseite angepriesen wurde. Dadurch sollte geprüft werden, wie viele Redaktionen die Story veröffentlichen. Das Resultat war bemerkenswert: Kurze Zeit nach dem Versand der Falschmeldung veröffentlichte das Internet Magazin Telepolis (http://www.heise.de/tp/) eine erste Richtigstellung, welche wiederum später in einem Blog der Wiener Tageszeitung Kurier (http://kurier.at/) aufgegriffen wurde. Dieser Blogbeitrag mit der Richtigstellung wurde von den meisten Suchmaschinen prominent gelistet (Zerfass und Boelter [ZeBo05]).

In diesem Kapitel werden die bedeutendsten Weblog Suchmaschinen aus dem deutsch- und US-englisch-sprachigen Raum aufgegliedert. Ein grosses Problem bei Weblog Suchmaschinen ist, dass die Forschung grösstenteils von den Anbietern selbst durchgeführt wird und diese aus Angst vor der Konkurrenz, ihre Erkenntnisse nicht publizieren. So können Ergebnisse vielfach nur anhand fertig gestellter Anwendungen rekonstruiert werden. Die Unterscheidung nach Erstellung eines Indexes, der Verarbeitung von Suchanfragen und der Aufbereitung der Ergebnisse kann unter diesen Umständen nicht exakt durchgeführt werden. Um an der Funktionsweise der Web Suchmaschinen anzuknüpfen, wird auf das Aufarbeiten der Ergebnisse eingegangen (vgl. Kap. 7.2.2). Diese Aufarbeitung der Ergebnisse kann anhand der Auftritte der Suchmaschinen verglichen werden. Dazu werden die im Anhang 10.3 gelisteten Weblog Suchmaschinen herangezogen und aufgeschlüsselt. Die genannten Weblog Suchmaschinen sind alle aus den Quellen Zerfass und Boelter [ZeBo05], dmoz [Dmoz08] und InternetAdSales.com [Inte08] zusammengezogenen Weblog Suchmaschinen. Diejenigen welche als inaktiv erkannt wurden, werden nicht miteinbezogen, da diese keinen funktionierenden Internetauftritt aufweisen. Um die Strukturierung zu verfeinern, wird eine Trennung in kostenpflichtige und freie Weblog Suchmaschinen unternommen.

7.3.1 Freie Weblog Suchmaschinen Zuerst wird auf die freie Weblog Software eingegangen. Diese bieten ihre Dienste auf einer Webseite im Internet an. Die einzelnen Suchmaschinen sind alphabetisch aufgegliedert, was keine Bedeutung bezüglich deren Wichtigkeit hat. Da sich die einzelnen Angebote teilweise stark in ihrem Auftritt unterscheiden, ist eine generelle Empfehlung nicht möglich, sondern es muss situativ entschieden werden. Dazu sollte die entsprechende Beschreibung ein geeignetes Instrumentarium bereitstellen.

2RSS 2RSS (http://www.2rss.com/) bietet ein grosses kategorisier- und durchsuchbares Verzeichnis an, mit der Möglichkeit nach RSS- oder Atom-Formaten zu suchen. Ausserdem zeigt 2RSS die letzt hinzugefügten News-Feeds an und gibt eine Empfehlung lesenswerter News-Feeds ab.

Blog Catalog Blog Catalog (http://www.blogcatalog.com/) bietet ein übersichtliches Blogverzeichnis mit der Möglichkeit einer Suche. Weiter besteht bei Blog Catalog die Möglichkeit, einen eigenen Weblog listen zu lassen. Ebenso werden ausgezeichnete Blogs und ein Blog Katalog gezeigt. Auf Blog Catalog gibt es ein Blog Spotlight, wie auch Listen

Mai 08 Masterarbeit FS 2008 48 Informationsextraktion aus Weblogs Edy Portmann

mit den neusten und den populärsten Weblogs, eine Liste populärer Gruppen und Top Diskussionen.

Blog Search Engine Blog Search Engine (http://www.blogsearchengine.com/) ist eine auf Google basierende Weblog Suchmaschine, mit dem Fokus auf hoch stehenden Webloginhalt und zeigt neben einer Suche mehrere ausgezeichnete Weblogs und Topaufsteiger an. Weiter bietet die Blog Search Engine eine Liste mit den Top ausgezeichneten Blogs, den vertretenen Kategorien und einen eigenen Blogroll an.

Blogdigger Bloggdigger (http://www.blogdigger.com/) ist eine einfache und übersichtliche Metasuchmaschine mit Volltextsuchmöglichkeit nach RSS Informationen. Die Volltextsuchmöglichkeit von Blogdigger beinhaltet eine Link-, Datums-, Themen- und Titelsuchfunktion. Blogdigger beschränkt sich auf die wesentlichen Elemente einer Suchmaschine und bietet deswegen kein durchsuchbares Verzeichnis auf der Startseite.

Bloglines Bloglines (http://www.bloglines.com/) ermöglicht das Durchsuchen, Abonnieren, Kreieren und Teilen von News-Feeds, Weblogs und Webinhalten. Bloglines versteht sich als webbasierten News-Aggregator von RSS- und Atom- Feeds. Seit 2007 gibt es ferner eine iPhone Version von Bloglines, um mobil von unterwegs nach Weblogs zu suchen.

BlogPulse BlogPulse (http://www.blogpulse.com/) ist ein vom Marktforschungsunternehmen Nielsen zur Verfügung gestelltes Trendbeobachtungssystem für Blogs, welches mit künstlicher Intelligenz und natürlicher Sprachverarbeitungstechniken arbeitet. Das Tool „Conversation Tracker“ zeigt dazu die Vergangenheit eines Weblogartikels, seiner Kommentare und Verweise auf. Oft genannte Sätze werden ebenfalls in Echtzeit aufgeführt. BlogPulse betreibt über die kostenlose Grundnutzung hinaus weitere kostenpflichtige Leistungen.

BlogScope BlogScope (http://www.blogscope.net/) ist ein Analyse- und Visualisierungstool für die Blogosphäre, welches als Teil eines Forschungsprojektes der Universität von Toronto entwickelt wurde. BlogScope hilft Benutzern interessante Nachrichten, mit Hilfe von Popularitätskurven, der Identifikation von Informationshäufungen hinsichtlich verwandter Begriffe und daneben einer geographisch beschränkten Suchmöglichkeit zu entdecken.

BlogStreet BlogStreet (http://blogstreet.com/) bietet eine Weblog Suchmaschine und ein RSS-Verzeichnis. Bei der Suche nach Weblogs gibt BlogStreet ausführliche Informationen über jeden gefundenen Weblog ab und zeigt Beziehungen zwischen verwandten Blogs auf.

FeedBeagle Nach einer Registrierung erlaubt FeedBeagle (http://www.feedbeagle.com/) anpassbare News und Feeds. FeedBeagle nimmt dazu, wie eine traditionelle Zeitung, Kategorisierungen vor. Die einzelnen Themen der Kategorie können mit Hilfe eines Wizards vom Benutzer selbst ausgewählt werden, diese werden danach von FeedBeagle automatisch abgelegt.

Mai 08 Masterarbeit FS 2008 49 Informationsextraktion aus Weblogs Edy Portmann

FeedsFarm FeedsFarm (http://www.feedsfarm.com/) bietet Artikelzusammenfassungen und Suchergebnisse in verschiedenen Syndikationsformaten an. Auf der Startseite können News, Feeds, Bilder, Tags, usw. durchsucht werden. Zudem bietet FeedsFarm ein geordnetes Verzeichnis mit aktuellen Blogs pro Themenbereich.

Google Blogsearch Google Blogsearch (http://www.google.com/blogsearch) ist die Blog Suchmaschine von Google und bietet eine Suchmöglichkeit nach allen Weblogs, welche ein News-Feed (RSS, Atom) generieren. Mit der Auswahl der „erweiterten Blog-Suche“ können, gleich wie bei der herkömmlichen Web Suchmaschine von Google, genauere Einschränkungen bezüglich der Weblog Suche vorgenommen werden.

IceRocket Blog Search IceRocket Blog Search (http://blogs.icerocket.com/) ist eine Metasuchmaschine für Weblogs. Bei IceRocket Blog Search kann auf der Startseite neben der Suche noch eine Liste mit den Top-Suchen gefunden werden. Zudem besteht die Möglichkeit den eigenen Blog anzumelden.

Plazoo Plazoo (http://www.plazoo.com/) ist eine RSS Suchmaschine für News und Weblogs, welche eine persönliche und zusammengesetzte Feed-Suche ermöglicht. Weiter kann mit Hilfe von Plazoo eine Suche nach Rechercheresultaten anderer Sucher und persönliche Interessenprofile verfolgt werden.

Popdex Popdex (http://www.popdex.com/) bestimmt kontinuierlich die im Moment populärste Internetseite. Die Suche von Popdex erlaubt das Finden von Worten in News, referenzierter Links, Weblogs oder auch in Beschreibungen. Zudem können mit Popdex alle auf einen bestehenden Link verweisenden Weblogs gefunden werden.

Postami Postami (http://www.postami.com/) bietet eine Suchmöglichkeit nach Schlüsselworten in Weblogs. Zudem bietet Postami neben der Suche auch ein kategorisiertes Verzeichnis an, anhand welchem Weblogs durch browsen gefunden werden können.

Read A Blog Read A Blog (http://www.readablog.com/) ermöglicht auf der Startseite eine einfache Suche. Weiter wird auf Read A Blog eine Anzeige von neu hinzugefügten, populären, häufig gesuchten und vor kurzem angeschauter Weblogs abgegeben.

Sphere Sphere (http://www.sphere.com/) ordnet Weblogs nach Themen und bietet eine Suchmöglichkeit von Einträgen in News. Die Suchmaschine von Sphere kombiniert für das Auffinden und Erstellen von Suchresultaten Semantik mit Autoritätsfaktoren. Zudem erlaubt Sphere nach Weblogs zu suchen, welche, basierend auf dem Inhalt des betrachteten Weblogs, in Verbindung mit News Artikeln stehen.

Technorati Technorati, die wohl bekannteste Weblog Suchmaschine, ist eine Open-Source Weblog Suchmaschine für das Durchsuchen von Weblogs nach Schlagworten. Weiter sind tagesaktuelle Ergebnisse als RSS-Feed abonnierbar und es gibt eine Themenlisten oft

Mai 08 Masterarbeit FS 2008 50 Informationsextraktion aus Weblogs Edy Portmann

verlinkter Artikel. Für die Suche und Kategorisierung der Suchresultate nutzt Technorati Tags welche Weblogautoren auf ihren Seiten platzierten.

Weblogs Weblogs (http://www.weblogs.com/) zeigt alle in den letzten Minuten upgedateten Weblogs an. Um diesen Dienst zu nutzen, müssen Besitzer von Blogseiten Weblogs durch ein automatisches Skript informieren.

Dies sind die kostenlosen Angebote. Bei manchen Anbietern besteht die Möglichkeit einer Registrierung, um Zusatzdienste zu nutzen, seinen persönlichen Blog zu registrieren oder aber um kostenpflichtige Zusatzprogramme zu nutzen.

7.3.2 Kostenpflichtige Weblog Suchmaschinen Kostenpflichtige Suchangebote sind vorwiegend für das professionelle Suchen von Kommunikationsverantwortlichen in Wirtschaft und Politik gedacht. Diese können im Sinne eines Monitorings bei den folgenden Anbietern ein Abonnement lösen, mit welchem ihnen verschiedene Möglichkeiten angeboten werden. Im Brennpunkt stehen dabei kundenindividuelle Auswertungen und Analysen. Dies bringt den Vorteil, dass die Unternehmen sich nicht selber um das Monitoring kümmern müssen. Als Nachteil kann jedoch die verpasste Chance der Eigenreputation genannt werden.

Cyberalert Cyberalert (http://www.cyberalert.com/) ist eine Weblog Suchmaschine für komplexe Suchanforderungen, welcher regelmässige Reports über Erwähnungen von Produkten, Marken oder Themen in Weblogs erstellt.

Nielsen BuzzMetrics BuzzMetrics (http://www.nielsenbuzzmetrics.com/) ist ein Dienst, der Onlinequellen und Interviews mit Hilfe von Analysten auswertet und Word of Mouth- Strategien vorschlägt. BuzzMetrics beobachtet die Weblog-Szene und identifiziert einflussreiche Blogger. BuzzMetrics ist die kostenpflichtige Version der Firma Nielsen (vgl. BlogPulse in Kap. 7.3.1).

Techdirt Techdirt (http://www.techdirt.com/) ist ein speziell auf den Informationsbedarf von Geschäftskunden zugeschnittenes, Suchsystem. Techdirt verfolgt dazu Diskussionen in verschiedenen Feldern, wie beispielshalber Automotive.

Erwähnt müssen in diesem Zusammenhang noch Möglichkeiten werden, welche Medienbeobachtungsdienste, wie in der Schweiz beispielsweise Argus (http://www.argus.ch/) anbieten. Allerdings sind diese Abonnemente nicht nur auf Weblogs spezialisiert und werden deswegen nicht genauer erläutert.

Mai 08 Masterarbeit FS 2008 51 Informationsextraktion aus Weblogs Edy Portmann

8 Fazit und Ausblick

In diesem abschliessenden Kapitel wird zuerst ein Fazit gezogen (Kap. 8.1), um dann im folgenden Kapitel 8.2 einen kurzen Ausblick in die Zukunft der Weblog Suchmaschinen zu wagen.

8.1 Fazit Die Weitergabe von Informationen hat die Menschheit schon immer beschäftigt. Mit den neuen digitalen Medien hat dieser Informationsaustausch einen vorläufigen Höhepunkt erreicht. Obwohl das Internet noch sehr jung ist, kann es schon eine turbulente Geschichte aufweisen. Mit dem Aufkommen von Social Software wurden für eine grosse Mehrheit Möglichkeiten geschaffen, sich global an andere zu wenden. Mittels Wikis und Weblogs organisiert sich der moderne Mensch seine Welt, tauscht sich aus, verbindet sich. Im englischsprachigen Raum sind Weblogs nicht mehr wegzudenken, im deutschsprachigen Raum fanden sie bis anhin noch nicht denselben Anklang. Trotzdem sind auch hier grosse Aktivitäten erkennbar. Viele Unternehmen beschäftigen sich mit Weblogs und man darf deren Macht nicht unterschätzen. Allerdings sind möglicherweise die Mentalitätsunterschiede zwischen Amerikanern und deutschsprechenden Menschen diesbezüglich zu gross, als dass man diese vergleichen und dadurch denselben Trend wie in den Staaten auf das deutschsprachige Europa übertragen könnte. Die deutschsprachigen Menschen sind eher zurückhaltend, wenn es darum geht persönliche Dinge öffentlich zu bearbeiten. Deshalb können in der Entwicklung von Weblogs keine Schlüsse von Amerika auf Europa gezogen werden. Es bleibt abzuwarten, wie sich diese hier entfalten. Demgemäss ist es diesbezüglich noch zu früh, eine genaue Prognose zu wagen. Der Hype um Weblogs könnte weiter ebenso schnell abflachen, wie er gekommen ist. Zudem ist ein Trend wieder hin zu redigierten Daten feststellbar. Ob diese aufgearbeiteten Daten mit dem Semantischen Netz von Tim Berners-Lee umgesetzt werden oder auf einem anderen Weg, wie mittels gemeinsamer Verschlagwortung, usw., kann nicht abgeschätzt werden. Fest steht, die Suche nach versteckten Informationen in Weblogs steckt noch in den Kinderschuhen, obwohl von bisherigen Web Suchmaschinen profitiert werden konnte. Wichtig ist, Weblogs im Auge zu behalten und sich auf weitere Änderungen in der kommunikatorischen Umwelt vorzubereiten. Für die Presse und Öffentlichkeitsarbeit erlauben Weblogs eine Möglichkeit der Kommunikation mit beteiligten Anspruchsgruppen. Durch den korrekten Umgang mit diesem Medium lässt sich für alle Beteiligten eine Win-Win-Situation erreichen. Um einen Blog unternehmerisch zu nutzen, müssen klare Zielsetzungen und Rahmenbedingungen definiert werden In diesen Rahmenbedingungen müssen die Beteiligten rechtliche, organisatorische und inhaltliche Aspekte klären. Wenn der Weblog steht, müssen laufend Evaluationen und Optimierungen vorgenommen werden, was sich als zeitintensiv erweisen kann. Jedoch gewinnt ein Unternehmen welches diesen Schritt wagt eine Online-Reputation.

Für die systematische Informationssuche nach Publikationen in Weblogs, sowie das kontinuierliche Monitoring der Blogosphäre, gibt es spezielle Weblog Suchmaschinen und Auswertungs-Services. Die häufigsten sind frei benutzbare Webseiten, die teilweise ansehnliche Fähigkeiten aufweisen, um die Verlinkung zwischen Blogs auszuwerten. So lassen sich Themengebiete erkennen, populäre Mitteilungen und Issues auflisten, sowie Entstehungsgeschichten von Themen verfolgen.

Mai 08 Masterarbeit FS 2008 52 Informationsextraktion aus Weblogs Edy Portmann

Alle Weblog Suchmaschinen möchten den Nutzern eine bestmögliche Suche ermöglichen. Die Umsetzung und die graphischen Möglichkeiten sind jedoch bei den einzelnen Anbietern unterschiedlich. Eine generell empfehlenswerte Suchmaschine für Weblogs gibt es folglich nicht. Technorati ist allerdings bezüglich Bekanntheit die geläufigste Weblog Suchmaschine. Dennoch kann auch diese nicht generell empfohlen werden. Empfehlungen können nur situativ und auf das Nutzerverhalten, die gesuchte Information und bezüglich Auswertungsmöglichkeiten abgegeben werden. Weblog Suchmaschinen weisen dieselben Schwachstellen auf, wie herkömmliche Suchmaschinen für das Internet generell. Letztlich geht es darum, die Richtung anzugeben, in welche sich Weblog Suchmaschinen entwickeln sollten, um dem Benutzer ein geeignetes Werkzeug bei seiner Informationsrecherche zu sein. Natürlich ist es zu wünschen, dass Empfehlungen sowohl in der wissenschaftlichen Fachwelt diskutiert, als auch in die Praxis integriert werden.

8.2 Ausblick Die Zukunft wird uns zeigen wie explizit nach versteckten, relevanten Informationen in Weblogs gesucht werden kann. Das Rennen, Google unter den Suchmaschinen zu werden, ist eröffnet. Deshalb wird ein Ausblick in die Zukunft gewagt. Wichtig ist, dass alle hier genannten Punkte einer Zukunftsvision der persönlichen Meinung des Autors entspringen. Es steht jedermann frei, eine divergierende Anschauung oder Zukunftsvision zu haben. Die vom Autor genannten Ideen können dazu allzeit für weiterführende Diskussionen gebraucht, kritisiert oder als Grundlage herbeigezogen werden.

Weblog Suchmaschinen müssen sich hin zu zweckmässigen Programmen weiterentwickeln. Es wird wichtig werden, dass der Suchende bei seiner Recherche maximal unterstützt wird. Dazu gehören, unter anderem, ergonomisch und auf den jeweiligen Benutzer abstimmbare Benutzeroberflächen (individuelle Suchmaske, optimierte, an den Bewegungsablauf angepasste Eingabe, usw.), wie auch Hilfen bei einer vertieften Suche. Der Benutzer darf nicht mit einer Fülle von Antworten alleine gelassen werden, welche er unmöglich überblicken kann. Es wird wichtig werden, dass die Weblog Suchmaschine nach einer ersten Suche und Anzeige der Dokumente dem Nutzer ergonomisch entwickelte, graphische Oberflächen zur Verfügung stellt, damit dieser leicht mit den gefundenen Treffern weiterarbeiten kann. Wünschenswert wäre, wenn die Weblog Suchmaschine automatisch erkennen würde, in welche Richtung sich die Suche weiterentwickeln könnte, vielleicht mittels Rückschlüssen anhand vorheriger Suchen. Möglich wären da Suchen, wie sie bei Web Suchmaschinen teilweise bereits eingesetzt werden. Wenn ein Journalist wiederholt über Autos berichtet und eine Suche nach Jaguar aufgibt, sollte die Weblog Suchmaschine in der Lage sein, zu erkennen, dass der Journalist nicht Informationen über das Tier Jaguar erhalten möchte, sondern über die Automarke Jaguar. Weiter muss es in Zukunft möglich sein, nicht nur nach harten Kriterien zu suchen. Es muss dazu ein System gefunden werden, wo auch weiche, überlappende Themengrenzen gezogen werden können. Ein mögliches Anwendungsgebiet wären folglich Fuzzy-Systeme, mit welchen anhand von Gewichtung die Suche entsprechend verbessert und erweitert werden könnte. Es sollte künftig, wieder im Sinne einer ergonomischen Benutzeroberfläche, möglich sein, beispielsweise mittels Schiebregler, die entsprechende Gewichtung des Suchbegriffes einzustellen. Eine weitere Möglichkeit einer Verbesserung in der Weblog Suche sind Anwendungen, welche im Bereich der Web Suchmaschinen schon vollzogen wurden, allerdings bei Weblog Suchmaschinen vereinzelt noch Nachholbedarf aufzeigen. Beispielsweise Suche mittels Metasuchmaschinen. Hier könnte angesetzt werden, wobei sich Weblog Metasuchmaschinen

Mai 08 Masterarbeit FS 2008 53 Informationsextraktion aus Weblogs Edy Portmann

beispielsweise mit den erwähnten Fuzzy-Systemen kombinieren liessen. Eine weitere Möglichkeit bestünde in der Kombinationen von Weblogs und Wikis. Diese Kombination könnte zu ungeahnten Informationsmöglichkeiten für den Suchenden führen. Eine weitere Möglichkeit wäre, mit Hilfe von Social Bookmarks gekennzeichneter Daten eine Verbesserung der Informationen zu erzeugen. Anhand der aktuellen Verschlagwortung sieht man, dass momentan ein Trend der Strukturierung und Gliederung im Netz stattfindet, welcher den Suchmaschinenanbietern in die Hände spielt. Dadurch wird dem Suchenden, wieder unter Einbezug einer geeigneten Oberfläche, ein Möglichkeit geboten, mittels Weblog Suchmaschinen denkverwandte Nutzer zu finden und demzufolge die individuelle Suche anhand dieser ähnlich denkenden Personen und deren Resultate genauer zu spezifizieren. Ein grosser Schritt in diese Richtung wäre mit der Umsetzung des Semantischen Netzes getan, anhand welchem Weblog Suchmaschinen die gespeicherte Information verstehen und interpretieren könnten. Allerdings ist diese Umsetzung noch realitätsfern und wenn überhaupt, nur beschränkt umsetzbar. Als letzter Punkt seien Übersetzungsprogramme wie LEO (http://www.leo.org) erwähnt, welche unter Einbezug spezialisierter elektronischer Wörterbücher, wie dem von Canoo (http://www.canoo.net/) für die deutsche Sprache, für eine Verbesserung der Weblog Suchmaschinen eingesetzt werden könnten. Dadurch könnten Suchanfragen beispielsweise in deutscher Sprache abgegeben werden, aber danach auch englische, spanische oder französische Resultate, am besten gleich wieder korrekt auf Deutsch übersetzt, angezeigt werden. Erstrebenswert wäre auch das Miteinbeziehen der im Moment noch spezialisierten Suchen auf einer einzigen Plattform.

Abschliessen möchte ich mit einer Vision für die Zukunft der Weblog Suchmaschinen. Wünschenswert wäre ein System, welches schon im Voraus Daten zur Verfügung stellen kann, ohne dass diese extra gesucht werden müssen. Diese Daten könnten bei Bedarf angeschaut werden oder auch nicht. Zudem müssten die entsprechenden Daten natürlich den theoretisch heute schon geforderten Gegebenheiten entsprechen, wie die Integration von spezialisierten Suchen auf einer Weblog Suchplattform, oder aber die übergeordnete Metasuche müsste in der Lage sein, die richtigen Untersuchmaschinen aufzurufen. Unter anderem könnte dies möglicherweise mit Hilfe der häufig gelobten Künstlichen Intelligenz möglich werden. Die Erwartung an eine Zukunft voller Spannung und brauchbaren Entwicklungen im Bereich der Weblog Suchmaschinen besteht. Hoffentlich wird diese Zukunft genau so spannend, wie ihre bisher junge Geschichte.

Mai 08 Masterarbeit FS 2008 54 Informationsextraktion aus Weblogs Edy Portmann

9 Verzeichnisse

9.1 Abbildungsverzeichnis Abbildung 3.1: Web 2.0 MemeMap, nach O‘Reilly [Orei05] Abbildung 5.1: Funktionsweise von Weblogs, nach Picot und Fischer [PiFi06], S. 15 Abbildung 6.1: Technische Einteilung der Weblogs, eigene Abbildung Abbildung 6.2: Klassifikation von Weblogs, modifiziert nach Zerfass und Boelter [ZeBo05], S. 127

9.2 Tabellenverzeichnis Tabelle 2.1: Typologien der Blogger, nach Zerfass und Boelter [ZeBo05], S. 50f.

9.3 Literaturverzeichnis [20mi08] 20 minuten (2008): Zehn Millionen Lexikon-Einträge, http://www.20min.ch/digital/webpage/story/12966176 (Zugriff am 31.03.2008). [BaGr05] Baker, S., Green, H. (2005): Blogs will change your Business, http://www.businessweek.com/magazine/content/05_18/b3931001_mz00 1.htm (Zugriff am 04.04.2008). [BaMc07] Bausch, S., McGiboney, M. (2007): News Release. Nielsen Online Announces October U.S. Search Share Rankings, http://www.nielsen- netratings.com/pr/pr_071204.pdf (Zugriff am 10.05.2008). [BaRi99] Baeza-Yates, R., Ribeiro-Neto, B. (1999): Modern Information Retrieval, 1st edition, New York, Oxford. [Baur07] Baur, D. (2007): Konzepte, Möglichkeiten und Grenzen des Web 2.0. Wirtschaftswissenschaftliches Zentrum WWZ der Universität Basel, Abteilung Wirtschaftsinformatik, Basel. [BBMP04] Burg, Th. N., Bernstein, M., Merelo, J. J., Prieto, B., Tricas, F., Wijna, E., Prillinger, H., Schuster, M., Anjewierden, A., Brussee, R., Efimova, L., Röll, M., Oswald, M. (2004): BlogTalks 2.0. The European Conference on Weblogs http://blogtalk.net, 1. Auflage, Norderstedt. [Beck07] Beck, A. (2007): Web 2.0: Konzepte, Technologie, Anwendungen, in: Beck, A., Mörike, M., Sauerburger, H. (Hrsg.):HMD. Heft 255, Praxis der Wirtschaftsinformatik, Heidelberg, S. 5 - 16. [BeHL01] Berners-Lee, T., Hendler, J., Lassila, O. (2001): Scientific American. The Semantic Web, A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities, http://www- personal.si.umich.edu/~rfrost/courses/SI110/readings/In_Out_and_Beyon d/Semantic_Web.pdf (Zugriff am 17.05.2008). [Bern05] Berners-Lee, T. (2005): So I have a blog, http://dig.csail.mit.edu/breadcrumbs/node/38 (Zugriff am 27.03.2008).

Mai 08 Masterarbeit FS 2008 IX Informationsextraktion aus Weblogs Edy Portmann

[Bloo02] Blood, R. (2002): We’ve got blog. How weblogs are changing our culture, 1st edition, Cambridge. [Boes08] Boese, A. (2008): Kaycee Nicole Swenson, http://www.museumofhoaxes.com/hoax/Hoaxipedia/Kaycee_Nicole_Sw enson/ (Zugriff am 28.02.2008). [Bosc07] Bosch, A. (2007): Ajax – Grundlagen und Funktionsweise, in: Beck, A., Mörike, M., Sauerburger, H. (Hrsg.):HMD. Heft 255, Praxis der Wirtschaftsinformatik, Heidelberg, S. 37 - 48. [Brod02] Broder, A. (2002): A taxonomy of web search, http://www.sigir.org/forum/F2002/broder.pdf (Zugriff am 10.05.2008). [DFJP04a] Ding, L., Finin, T., Joshi, A., Peng, Y., Cost, R. S., Sachs, J., Pan, R., Reddivari, P., Doshi, V. (2004): Swoogle: A Semantic Web Search and Metadata Engine. Department of Computer Science and Electronic Engineering University of Maryland Baltimore County, Baltimore MD 21250, USA, http://ebiquity.umbc.edu/_file_directory_/papers/115.pdf (Zugriff am 07.05.2008). [DFJP04b] Ding, L., Finin, T., Joshi, A., Peng, Y., Cost, R. S., Sachs, J., Pan, R., Reddivari, P., Doshi, V. (2004): Swoogle: A Semantic Web Search and Metadata Engine, Department of Computer Science and Electronic Engineering University of Maryland Baltimore County, Baltimore MD 21250, USA, http://ebiquity.umbc.edu/_file_directory_/papers/116.pdf (Zugriff am 07.05.2008). [Dmoz08] dmoz (2008): Open Directory Project. Top: Computers: Internet: On the Web: Weblogs: Search Engines, http://www.dmoz.org/Computers/Internet/On_the_Web/Weblogs/Search _Engines/ (Zugriff am 13.05.2008). [EcCa02] Eckstein, R.; Casabianca, M. (2002): XML. Kurz und gut, 2. Auflage, Köln. [Focu08] Focus (2008): Pressereise. China inszeniert Tibet für Journalisten, http://www.focus.de/politik/ausland/pressereise_aid_266718.html (Zugriff am 01.04.2008). [Fole05] Foley, J. (2005): InformationWeek. Lessons Learned From Google Blogger Who Got Fired, Two weeks after getting canned, Mark Jen talks about what went wrong and how others can avoid his mistakes, http://www.informationweek.com/news/management/training/showArticl e.jhtml?articleID=60401248 (Zugriff am 27.03.2008). [Frau04] Frauenfelder, M. (2004): Das Unvollendete. Technology Review 11/2004, Report, http://www.heise.de/tr/Das-Unvollendete-- /artikel/52516 (Zugrff am 13.05.2008). [Genn07] Genner, S. (2007): Politik 2.0 – sind Blogs Motoren oder Bedrohung für die Demokratie?, http://politikblogs.files.wordpress.com/2007/12/politik- 20.pdf (Zugriff am 01.04.2008). [HaLy00] Hafner, K., Lyon, M. (2000): Die Geschichte des Internet, 2., korrigierte Auflage, Heidelberg. [Hami03] Nigel, H. (2003): The Mechanics of a Deep Net Metasearch Engine, http://turbo10.com/papers/deepnet.pdf (Zugriff am 13.05.2008).

Mai 08 Masterarbeit FS 2008 X Informationsextraktion aus Weblogs Edy Portmann

[Hehl01] Hehl, H. (2001): Die elektronische Bibliothek. Literatur – und Informationsbeschaffung im Internet, 2., überarbeitete und erweiterte Auflage, München. [Heis05] Heise online (2005): Google feuert Weblogger, http://www.heise.de/newsticker/meldung/56291 (Zugriff am 27.03.2008). [Hipp06] Hippner, H. (2006): Social Software. Bedeutung, Anwendungen und Einsatzpotentiale von Social Software, in: Hildebrand, K., Hofmann, J. (Hrsg.): HMD. Heft 252, Praxis der Wirtschaftsinformatik, Heidelberg, S.6 – 16. [Hues03] Hüsing, T. (20003): Zunehmendes Nord-Süd Gefälle der digitalen Spaltung in der EU. Zur Messung von Ungleichheit in der Diffusion von Informations- und Kommunikationstechnologien, http://www.gesis.org/Publikationen/Zeitschriften/ISI/pdf-files/isi-30.pdf (Zugriff am 18.05.2008). [Inte08] InternetAdSales.com (2008): Search Engines: Blog Search Engines, http://www.internetadsales.com/modules/wfsection/index.php?category= 35 (Zugriff 07.05.2008). [Jen05] Jen, M. (2005): oops!, http://blog.plaxoed.com/2005/01/26/oops/ (Zugriff am 27.03.2008). [Junl07] Junli, F. (2007): Grassroots Blogging Practice in America and China. Studies on 60 American and 60 Chinese Bloggers, 1. Auflage, Saarbrücken. [Klei06] Klein, A. (2006): Weblogs im Unternehmenseinsatz. Grundlagen, Chancen & Risiken, 1.Auflage, Saarbrücken. [Lang07] Lange, Ch. (2007): Wikis und Blogs. Planen Einrichten Verwalten, 1. Auflage, Böblingen. [Lani06] Laningham, S. (2006): developerWorks Interviews: Tim Berners-Lee Originator of the Web and director of the World Wide Web Consortium talks about where we've come, and about the challenges and opportunities ahead, recorded 7-28-2006, http://www- 128.ibm.com/developerworks/podcast/dwi/cm-int082206.txt (Zugriff am 27.03.2008). [Leue08] Leuenberger ,M. (2008): Notizen zu Politik und Gesellschaft. Schafft die Winterzeit ab, http://moritzleuenberger.blueblog.ch/gesellschaft- demokratie-verantwortung/schafft-die-winterzeit-ab.html (Zugriff am 28.02.2008:) [Lewa05] Lewandowski, D. (2005): Web Information Retrieval. Technologien zur Informationssuche im Internet, 1. Auflage, Düsseldorf. [Mcdo07] McDougall, J. S. (2007): Startup. Start Your Own Blogging Business, Generate Income from Advertisers, Subscribers, Merchandising and More, 1st edition, Canada. [MeSt05] Meier, A., Stormer, H. (2005): eBusiness & eCommerce. Management der digitalen Wertschöpfung, 1. Auflage, Berlin, Heidelberg. [Mill05] Miller, P. (2005): Aridane. Web 2.0: Building the New Library, http://www.ariadne.ac.uk/issue45/miller/ (Zugriff am 27.03.2008).

Mai 08 Masterarbeit FS 2008 XI Informationsextraktion aus Weblogs Edy Portmann

[Modi07] Mike, M. (2007): Consumers and their quest to control the internet and advertising, http://www.ciadvertising.org/sa/spring_07/adv391k/mdm377/midterm/hi story.html (Zugriff am 17.05.2008). [Nami05] namics (2005): Corporate Weblogs. Einsatzmöglichkeiten und Herausforderungen, http://www.namics.com/uploads/tx_namicsdownloadlink/nam__WP_we blog.pdf (Zugriff am 27.03.2008). [Nzzo07] NZZ Online (2007): Präventivschlag gegen journalistische Neugier. Ein BBC-Reporter verliert die Fassung, http://www.nzz.ch/2007/05/18/em/articleF6QGW.html (Zugriff am 28.04.2008). [Orei05] O'Reilly, T. (2005): What is the Web 2.0? Design Patterns and Business Models for the Next Generation of Software, http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is- web-20.html (Zugriff am 23.03.2008). [Orei07] O'Reilly, T. (2007): Web 2.0 Compact Definition: Trying Again, http://radar.oreilly.com/archives/2006/12/web-20-compact-definition- tryi.html (Zugriff am 27.03.2008). [Pewi05a] Pew Internet & American Life Project (2005): Data Memo. The state of blogging, January 2005, http://www.pewinternet.org/pdfs/PIP_blogging_data.pdf (Zugriff am 06.04.2008). [Pewi05b] Pew Internet & American Life Project (2005): New data on blogs and blogging. 05/02/2005, Release, http://www.pewinternet.org/press_release.asp?r=104 (Zugriff am 06.04.2008). [PiFi06] Picot, A., Fischer, T. (2006): Weblogs professionell. Grundlagen, Konzepte und Praxis im unternehmerischen Umfeld, 1. Auflage, Heidelberg. [Port07] Portmann, E. (2007): Seminar Angewandtes Information Retrieval. Geschichte und Trends im IR, Abteilung Geisteswissenschaftliche Informatik, Universität Basel, http://pages.unibas.ch/LIlab/studies/IR- SS2007/Portmann/GeschichteundTrendsimIR.PDF (Zugriff am 28.02.2008). [Prze03a] Przepiorka, S. (2003): tzwaen.systems. Vorteile von Weblogs, http://tzwaen.com/publikationen/weblogs-vorteile/ (Zugriff am 08.05.2008). [Prze03b] Przepiorka, S. (2003): tzwaen.systems. Nachteile von Weblogs, http://tzwaen.com/publikationen/weblogs-nachteile/ (Zugriff am 08.05.2008). [Prze07] Przepiorka, S. (2008): tzwaen.systems. Der Begriff 2.0, http://tzwaen.com/publikationen/web20/ (Zugriff am 18.03.2008). [RiKo07] Richter, A., Koch, M. (2007): Social Software – Status quo und Zukunft. Technischer Bericht Nr. 2007-01, Fakultät für Informatik, Universität der Bundeswehr München,

Mai 08 Masterarbeit FS 2008 XII Informationsextraktion aus Weblogs Edy Portmann

http://www.kooperationssysteme.de/wordpress/uploads/RichterKoch200 7.pdf (Zugriff am 30.03.2008). [Rosa08] Rosada-Braum, R. M. (2008): Webhits. Hitcounter® und Live- Statistiken, Web-Barometer, http://www.webhits.de/deutsch/index.shtml?webstats.html (Zugriff am 10.05.2008). [Roth06] Roth, W. D. (2006): „Web 2.0 ist nutzloses Blabla, das niemand erklären kann. Tim Berners-Lee zum Hype des "neuen Web", http://www.heise.de/tp/r4/artikel/23/23472/1.html (Zugriff am 08.05.2008). [Schi84] Schiller, H. I. (1984): Die Verteilung des Wissens. Information im Zeitalter der grossen Konzerne, 1. Auflage, Frankfurt/Main. [Schm06] Schmidt, J. (2006): Weblogs. Eine kommunikationssoziologische Studie, 1. Auflage, Konstanz. [ScWi06] Schmidt, J., Wilbers, M. (2006): „Wie ich blogge?!“ 2005. Berichte der Forschungsstelle „Neue Kommunikationsmedien“, Nr. 06-01, http://www.fonk-bamberg.de/pdf/fonkbericht0601.pdf (Zugriff am 30.03.2008). [Shan06] Shannon, V. (2006): A 'more revolutionary' Web, http://www.iht.com/articles/2006/05/23/business/web.php (Zugriff am 27.03.2008). [Side05] Siederkeviciute, V. (2005): Seminar Angewandtes Information Retrieval. Trends im Information Retrieval, Abteilung Geisteswissenschaftliche Informatik, Universität Basel 2005, http://pages.unibas.ch/LIlab/studies/IR- SS2005/SiderkeviciuteTrends_c.pdf (Zugriff am 13.05.2008). [Spec07] Specht, S. (2007): Corporate Blogging. Grundlagen, Einsatzmöglichkeiten, Chancen und Risiken, 1. Auflage, Saarbrücken. [Stoc06] Stock, W. G. (2006): On relevance distributions, http://www.phil- fak.uni- duesseldorf.de/infowiss/admin/public_dateien/files/1/1148035638on_rele van.pdf (Zugriff am 15.05.2008). [Suro05] Surowiecki, J. (2005): Die Weisheit der Vielen. Warum Gruppen klüger sind als Einzelne und wie wir das kollektive Wissen für unser wirtschaftliches, soziales und politisches Handeln nützen können, 1. Auflage, München. [Thom01] Thomson, R. B. (2001): Daynotes Journal. Week of 21 May 2001, http://www.ttgnet.com/daynotes/2001/20010521.html (Zugriff am 28.02.2008). [Wolf06] Wolff, P. (2006): Die Macht der Blogs. Chancen und Risiken von Corporate Blogs und Podcasting, 1. Auflage, Frechen. [ZeBo05] Zerfass, A., Boelter, D. (2005): Die neuen Meinungsmacher. Weblogs als Herausforderung für Kampagnen, Marketing, PR und Medien, 1. Auflage, Graz.

Mai 08 Masterarbeit FS 2008 XIII Informationsextraktion aus Weblogs Edy Portmann

10 Anhang

10.1 Liste ausgesuchter Welog-Anbieter Weblog-Anbieter sind Dienste, die ein vollständiges Weblog aus einer Hand anbieten. Das heisst, sowohl die Weblog-Software als auch das Hosting der Internetseiten werden vom Anbieter übernommen. Ein Vorteil dabei ist, dass man so nicht allzu viele Kenntnisse benötigt, um ein Weblog zu führen. Ein Nachteil besteht darin, dass man weniger Freiheiten bezüglich des verwendeten Designs/Aufbaus des Weblogs hat. Ausserdem sind die Weblogs vieler Weblog-Anbieter in eine Weblog-Community eingebunden, was ebenfalls Vor- und Nachteile hat. Einige bekannte Weblog-Anbieter sind in der folgenden Liste aufgegliedert.

- g h i g g - h i i c h

c n t s h c

e s i e h t c l t a L c r a s m u g i r l p a R e o n f p s N U D s E - K p 20six http://www.20six.de/ Ja Nein Nein Antville http://www.antville.org/ Ja Nein Nein Blog Easy http://www.blogeasy.com/ Nein Ja Nein Blog Studio http://www.blogstudio.com/ Nein Ja Nein Blogall http://www.blogall.de/ Ja Nein Nein Blog-City http://www.blog-city.com/ Nein Ja Nein BlogDrive http://www.blogdrive.com/ Nein Ja Nein blogg.de http://www.blogg.de/ Ja Nein Nein Blogger.com https://www.blogger.com/start Ja Ja Nein BlogHof.net http://www.bloghof.net/ Ja Nein Nein Bloghorn http://www.bloghorn.com/ Nein Ja Nein Blogianer.de http://www.blogianer.de/ Ja Nein Nein blogigo http://www.blogigo.de/ Ja Nein Nein Weblogs Blogstrasse http://www.blogstrasse.de/ Ja Nein Ja blogy.de http://www.blogy.de/index.htm Ja Nein Nein l Blurty http://www.blurty.com/ Nein Ja Nein datenraum.jung http://www.datenraum.junggei Ja Nein Nein geist.net st.net/

Mai 08 Masterarbeit FS 2008 XIV Informationsextraktion aus Weblogs Edy Portmann

- g h i g g - h i i c h

n t c s h c

e s e i h t c t l a L c a r s m u i g r l a R e p o n f p s N U D s E - K p Easyjournal http://www.easyjournal.com/ Nein Ja Nein free.designblog http://www.free- Ja Nein Ja designblog.de/page/index2.ph p Freecity http://domains.freecity.de/pfle Ja Nein Nein Weblogs gen/anleitung/anleitung_webl og.phtml Freeflux http://www.freeflux.net/ Ja Nein Nein Freeroller http://www.freeroller.net/ Nein Ja Nein Blogontheweb http://blogontheweb.com/ Nein Ja Nein Blogs 23 http://blogs.23.nu/ Nein Ja Nein Diaryland http://members.diaryland.com/ Nein Ja Nein edit/welcome.phtml Freeflux http://freeflux.net/ Nein Ja Nein Blogmeister http://www.blogmeister.de/ Ja Nein Nein Blognic http://www.blognic.net/ Ja Nein Nein Blogsome http://www.blogsome.com/ Nein Ja Nein Journalspace http://www.journalspace.com/ Nein Ja Nein new/ Kaywa http://www.kaywa.com/de/ Ja Nein Nein Mybloger http://www.mybloger.de/ Ja Nein Nein Tblog http://www.tblog.com/ Nein Ja Nein Jetzt http://jetzt.sueddeutsche.de/ Ja Nein Nein Kulando http://www.kulando.de/ Ja Nein Nein Livejournal http://www.livejournal.com/ Nein Ja Nein myBlog http://www.myblog.de/ Ja Nein Nein Olinfo http://www.olinfo.de/ Ja Nein Nein SMS http://www.sms.at/ Ja Nein Nein Spinnenwerk http://jugendserver.spinnenwe Ja Nein Nein rk.de/spinnix/

Mai 08 Masterarbeit FS 2008 XV Informationsextraktion aus Weblogs Edy Portmann

- g h i g g - h i i c h

n t c s h c

e s e i h t c t l a L c a r s m u i g r l a R e p o n f p s N U D s E - K p Twoday.net http://www.twoday.net/ Ja Nein Nein Typepad http://www.typepad.com/ Nein Ja Ja Upsaid http://www.upsaid.com/ Nein Ja Nein Xanga http://www.xanga.com/ Nein Ja Nein

10.2 Liste ausgesuchter Weblog-Software Weblog-Software ist diejenige Software, welche auf einem WWW-Server installiert wird, um dort ein Weblog betreiben zu können. Meist handelt es sich um Perl- oder PHP/mySQL Systeme. Hier werden einige gängige Systeme aufgelistet.

- g e p n g i

- o i t

e g

t n

k s e g k L l P m t s n r o n a R a e l H e o a N U D b P P D B S b2 http://cafelog.com/ Ja Ja Nein Nein Nein b2evolution http://b2evolution.net/ Ja Ja Nein Nein Nein bBlog http://www.bblog.com/ Ja Ja Nein Nein Nein Beta-Blogger http://www.umsu.de/beta- Nein Ja Nein Nein Nein blogger/ Blog51 http://www.logs.laforge- Nein Ja Nein Nein Nein groups.de/ BLOGCMS http://blogcms.com/ Ja Ja Nein Nein Nein blojsom http://wiki.blojsom.com/wiki/d Nein Nein Nein Nein Ja isplay/blojsom3/About+blojso m Blosxom http://www.blosxom.com/ Nein Nein Ja Nein Nein BoastMachine http://boastology.com/ Nein Ja Nein Nein Nein CityDesk http://www.fogcreek.com/City Nein Nein Nein Ja Nein Desk/ COREblog http://coreblog.org/ Nein Nein Nein Nein Ja DotClear http://www.dotclear.net/ Ja Ja Nein Nein Nein Drupal http://drupal.org/ Ja Ja Nein Nein Nein EllisLab http://ellislab.com/ Ja Ja Nein Nein Nein Geeklog http://geeklog.info/ Ja Ja Nein Nein Nein

Mai 08 Masterarbeit FS 2008 XVI Informationsextraktion aus Weblogs Edy Portmann

- g e p n g i

- o i t

e g t n

k s e k g L l P m t s n r n o a R a e l H e o a N U D b P P D B S Greymatter http://www.noahgrey.com/gre Nein Nein Ja Nein Nein ysoft/ gupsi:weblog http://tzwaen.com/projekte/gu Ja Ja Nein Nein Nein psi/ Manila http://manila.userland.com/ Nein Nein Nein Nein Ja Movable Type http://www.movabletype.org/ Ja Nein Ja Nein Nein Nucleus http://www.nucleuscms.org/ Ja Ja Nein Nein Nein P_BLOG http://www.cosmos.ne.jp/~kaz Ja Ja Nein Nein Nein 6120/downloads/jam_stuff/ind ex.pl?id=p_blog_e PHPosxom http://sourceforge.net/projects Nein Ja Nein Nein Nein /phposxom/ Pivot http://www.pivotlog.net/ Nein Ja Nein Nein Nein Project Steve http://www.projectstevegutten Nein Ja Nein Nein Nein Guttenberg berg.org/ PyDS http://pyds.muensterland.org/ Nein Nein Nein Nein Ja Radio http://radio.userland.com/ Nein Nein Nein Ja Nein UserLand Roller http://rollerweblogger.org/pro Nein Nein Nein Nein Ja ject/ ScratchLog http://www.scratchforward.co Ja Ja Nein Nein Nein m/scratchlog/ Serendipity http://www.s9y.org/ Ja Ja Nein Nein Nein Slash http://www.slashcode.com/ Ja Nein Ja Nein Nein SnipSnap http://snipsnap.org/space/start Nein Nein Nein Nein Ja Textpattern http://textpattern.com/ Ja Ja Nein Nein Nein Thingamablog http://thingamablog.sourcefor Nein Nein Nein Ja Nein ge.net/ Tinderbox http://www.eastgate.com/Tind Nein Nein Nein Nein Ja erbox/ WordPress http://wordpress.org/ Ja Ja Nein Nein Nein XE/3 http://mirror-of- Nein Ja Nein Nein Nein erised.net/XE3/

Mai 08 Masterarbeit FS 2008 XVII Informationsextraktion aus Weblogs Edy Portmann

10.3 Liste ausgesuchter Weblog Suchmaschinen Eine Weblog Suchmaschine ist ein Programm zur Recherche von Informationen und Weblogs, welche in der Blogosphäre gespeichert sind. An dieser Stelle sind alle bekannten Weblog Suchmaschinen aus dem US-amerikanischen und deutschsprachigen Raum aufgelistet, welche vom 05. Mai 2008 bis am 09. Mai 2008 aufrufbar waren. Obwohl diese Weblog Suchmaschinen aufrufbar waren, gibt es trotzdem solche, welche als inaktiv bezeichnet werden müssen (Aktiv: Ja/Nein), da ausdrücklich darauf hingewiesen wird, oder aber der Datenstamm veraltet ist. Es wurden bewusst nur Weblog Suchmaschinen in die Tabelle aufgenommen, welche sich mit Weblogs aus Deutschland, Österreich, der Schweiz oder aber dem amerikanischen Raum beschäftigen.

-

i g - e i r

n t

h e e h v t c g i L c s t m s i n l a R o k e u f N U B b K p A 2RSS http://www.2rss.com/ Kategorisier- und Nein Ja durchsuchbares RSS Verzeichnis. Blabble http://blabble.com/ Analyse bezüglich der Nein Nein Häufigkeit und des Kontexts von Produkt- oder Firmennennungen. Blawg Republic http://www.blawgrepublic.com Volltext Weblog Suchmaschine Nein Nein / und Verzeichnis für juristische Blogs. Blog Catalog http://www.blogcatalog.com/ Blogverzeichnis einer Nein Ja Kollektion von Weblogs verschioedener Kategorien. Blog Search http://www.blogsearchengine. Weblog Suchmaschine Nein Ja Engine com/ basierend auf Google. Blogdex http://blogdex.net/ Auswertung des Internets Nein Nein anhand der ein- und ausgehenden Links aller Weblogs, minutenaktuelle Liste der häufigst verlinkten Nachrichten. Blogdigger http://www.blogdigger.com/ RSS Suchmaschine mit Nein Ja Volltextsuchmöglichkeit, Metasuchmöglichkeit nach RSS Informationen, beinhaltet Link-, Datums-, Themen-, Titelsuchfunktion. Bloglines http://www.bloglines.com/ Durchsuchen, Abonnieren, Nein Ja Kreieren und Teilen von News-Feeds, Weblogs und Webinhalten.

Mai 08 Masterarbeit FS 2008 XVIII Informationsextraktion aus Weblogs Edy Portmann

-

i g - e i r

n t

h e e h v t c i g L c s t m s i n l a R o k e u f N U B b K p A BlogPulse http://www.blogpulse.com/ Trendbeobachtungssystem für Nein Ja Blogs, arbeitet mit Künstlicher Intelligenz und natürlicher Sprachverarbeitungstechniken . BlogScope http://www.blogscope.net/ Analyse- und Nein Ja Visualisierungstool für die Blogosphäre. Blogstats http://www.blogstats.de/ Suchmaschine für die deutsche Nein Nein Blogsphäre, zeigt die meistverlinkten Nachrichten, die populärsten Blogs und liefert Statistiken über aktuelle Blog-Aktivitäten. BlogStreet http://blogstreet.com/ Weblog Suchmaschine und Nein Ja RSS-Verzeichnis. Cyberalert http://www.cyberalert.com/ Regelmässige Reports über Ja Ja Erwähnungen von Produkten, Marken oder Themen in Weblogs. FeedBeagle http://www.feedbeagle.com/ Anpassbare News und Feeds. Nein Ja FeedsFarm http://www.feedsfarm.com/ Artikelzusammenfassungen Nein Ja und Suchergebnisse in verschiedenen Syndikationsformaten. Google http://blogsearch.google.com/ Verzeichnis aller Weblogs, Nein Ja Blogsearch welche ein News-Feed (RSS, Atom) generieren. IceRocket Blog http://blogs.icerocket.com/ Metasuchmaschine für Nein Ja Search Weblogs. Nielsen http://www.nielsenbuzzmetrics Beobachtung der Blogosphäre Ja Ja BuzzMetrics .com/ und Identifikation einflussreiche Blogger. Plazoo http://www.plazoo.com/ RSS Suchmaschine für News Nein Ja und Weblogs, erlaubt persönliche und zusammengesetzte Feeds, Suchresultate und persönliche Intressensprofile. Popdex http://www.popdex.com/ Kontinuierliche Bestimmung Nein Ja der populärsten Internetseite. Postami http://www.postami.com/ Globale Suchmöglichkeit nach Nein Ja Schlüsselworten in Weblogs.

Mai 08 Masterarbeit FS 2008 XIX Informationsextraktion aus Weblogs Edy Portmann

-

i g - e i r

n t

h e e h v t c i g L c s t m s i n l a R o k e u f N U B b K p A Read A Blog http://www.readablog.com/ Anzeige von neu Nein Ja hinzugefügten, populären, häufig gesuchten und vor kurzem angeschauter Weblogs. Sphere http://www.sphere.com/ Organisation der Weblogs Nein Ja nach Themen, Suchmöglichkeit von Einträgen in News. Techdirt http://www.techdirt.com/ An Informationsbedarf von Ja Ja Geschäftskunden angepasst, Diskussionen in verschiedenen Feldern mit Hilfe von Software und Analysten überwachen. Technorati http://www.technorati.com/ Durchsucht Blogs auf Nein Ja Schlagwörter, tagesaktuelle Ergebnisse als RSS-Feed abonnierbar, Themenlisten oft verlinkter Artikel. Weblogs http://www.weblogs.com/ Anzeige der in den letzten drei Nein Ja Stunden upgedatete Weblogs.

Mai 08 Masterarbeit FS 2008 XX Informationsextraktion aus Weblogs Edy Portmann

11 Glossar

Addon Ein Addon (engl. für hinzufügen) Aside Asides (engl. für Nebenbemerkung) ist ein optionales Modul, zur Ergänzung kennzeichnen kurze Einträge, welche oder Erweiterung bestehender Hard- oder lediglich aus wenigen Worten und Zeilen Software. bestehen, um Inhalte anderer Blogs oder Webseiten zu kommentieren.

Advanced Research Projects Agency Siehe ARPA. Asynchronous Java Script and XML Siehe Ajax.

Advanced Research Projects Agency Network Siehe Arpanet. Atom Siehe ASF.

Aggregator Ein Aggregator bereitet Atom Syndication Format Siehe ASF. Medieninhalte auf und stellt diese für eine andere Zielgruppe neu zusammen. Audioblog Kunstwort aus Audio und Blog. Ein Audioblog will anstelle von Ajax Ajax (Asynchronous Java Script and Lesern Hörer erreichen. XML) ist ein Konzept der

Webprogrammierung. Autocasting Kunstwort aus automatisch und Podcasting entspricht einer API API (Application Programming automatisierten Form des Podcastings. Interface) bezeichnet eine

Programmierschnittstelle in der Informatik. Avatar Avatar (sanskr. für Herabkunft) bezeichnet eine künstliche Person oder Application Programming Interface einen grafischen Stellvertreter einer echten Siehe API. Person.

ARPA ARPA (Advanced Research Biblioblogosphäre Kunstwort aus Projects Agency) ist der Name einer US- Bibliothek und Blogosphäre, meint amerikanischen Militäragentur. humoristischer Verweis in die Blog-Welt der Bibliothekare.

Arpanet Das Arpanet (Advanced Research Projects Agency Network) ist ein Blag Das Wort Blog absichtlich militärisches Computernetzwerk und humoristisch falsch buchstabiert. Vorläufer des heutigen Internets.

Blath Kunstwort aus Blog und ASF ASF (Atom Syndication Format) ist Mathematik, kennzeichnet einen eine XML-Anwendung für News-Feeds, mathematikorientierten Blog. welche es erlaubt, automatisch zu erfahren, wann eine Webseite upgedatet wurde.

Mai 08 Masterarbeit FS 2008 XXI Informationsextraktion aus Weblogs Edy Portmann

Blaudience Kunstwort aus Blog und Texten mit und ohne Links, Bildern, audience (engl. für Zuhörer). Betrifft die Videos und MP3-Dokumenten oder einer Hörer- oder Leserschaft eines Blogs. Kombination dieser Möglichkeiten.

Blawg Ein Kunstwort aus Blog und law Blogger 1. Herausgeber eines Blogs. 2. (engl. für Recht), meint einen Blog, Blogger.com, ein berühmter Blog- welcher sich mit dem Thema Recht Service. beschäftigt.

Bloggie Einer der berühmtesten Blog- Bleg Kunstwort aus Blog und beg (engl. Awards, welcher ein Blogger gewinnen für Bitten), meint einen Blogeintrag mit kann. der Bitte an die Leser Kommentare oder Informationen zu hinterlassen. Bloggroll Kunstworte aus Blog und roll (engl. für Rolle) bezeichnet eine Liste von Blistless Kunstwort aus Blog und Links auf einem Blog zu anderen listless (engl. für lustlos). Wenn ein Blogs. Blogger keine Lust am Bloggen mehr hat oder apathisch wird. Blog-Hopping Blog-Hopping (engl. für Hüpfen) nennt man die Verfolgung von Blog Client Ein Blog Client ist eine Links von einem Blog zu einem Software für die Verwaltung von Blogs, anderen.  ohne einen Browser öffnen zu müssen, bestehend aus einem Editor, einer Rechtschreibeprüfung und wenigen Blogoneer Kunstwort aus Blog und weiteren Optionen für eine leichte Pionier, also ein Blogger mit Verwaltung. Expertenstatus oder Pionierattitüde.

Blog Farm Eine Webseite, welche Blogorrhea Kunstwort aus Blog und Blogs zum gleichen Thema aggregiert. logorrhea (engl. für Schwatzsucht), meint exzessives und unzusammenhängendes bloggen.  Blog Kurzform von Weblog.

Blogosphäre Die Gesamtheit der Blogs Blog-Archiv In einem Blog-Archiv und ihrer Verlinkungen. Entspringt der werden alle von einem Blogger Wahrnehmung, dass Blogs durch ihre geschriebenen Blogeinträge gesammelt. Vernetzungen eine Gemeinschaft darstellen.

Blog-Award Ein Blog-Award ist ein online Preis, welcher manchmal für den Blogping Kunstwort aus Blog und ping „besten“ Blog verliehen wird. ist ein Signal an den Server, durch welches diesem angegeben wird, dass sich ein

Blogeintrag geändert hat oder dass ein Blogeintrag Blogeinträge sind die neuer Blogeintrag verfasst wurde. Hauptelemente eines Blogs und bestehen je nach verwendeter Software aus

Mai 08 Masterarbeit FS 2008 XXII Informationsextraktion aus Weblogs Edy Portmann

Blog-Service Blogs die ohne eigene Installation von Software im Internet Content Management System Siehe angeboten werden. CMS.

Browser (engl. für sich umsehen, Browser Unter einem Corporate schmökern, stöbern) sind Blog (engl. für Unternehmensblog) Computerprogramme zum Navigieren in versteht man den Blog eines Hypermedia-Strukturen. Unternehmens, meist mit dem Ziel marketingtechnisch mit potentiellen Kunden zu kommunizieren. Captcha Captcha (Akronym für Completely Automated Public Turing test to tell Computers and Humans Apart), ist CRM CRM (Customer Relationship ein automatischer Test, mit dem Ziel Management) bezeichnet die Computer und Menschen zu unterscheiden. Dokumentation und Verwaltung von Kundenbeziehungen mit dem Ziel den langfristigen Unternehmenserfolg zu Cascading Style Sheet Siehe CSS. steigern.

CEO CEO (Chief Executive Officer) bezeichnet den Geschäftsführer oder CSS CSS (Cascading Stylesheets) ist eine Vorstand eines Unternehmens oder den deklarative Stylesheet-Sprache für strukturierte Dokumente. Sie wird v.a. Vorsitzenden der Geschäftsführung oder   des Vorstands. zusammen mit HTML und XML eingesetzt.

CERN Das CERN (Conseil Européen pour Customer Relationship Management la Recherche Nucléaire, franz. für  Europäische Organisation für Siehe CRM. Kernforschung) ist eine Kernforschungseinrichtung in der Schweiz. Dashboard Das Wort Dashboard (engl. für Armaturenbrett, Instrumententafel) drückt eine Visualisierung von Informationen in Chief Executive Officer Siehe CEO. verdichteter Form aus.

Clipping Siehe Asides. Meint einen Blog rund um das Thema Erziehung, Lehren, Lernen und CMS Ein CMS (Content Management Bildung. Kann unterstützend zu einem System) ist ein Programm, das die Kurs, Schule, usw. geführt werden. gemeinschaftliche Erstellung und Bearbeitung des Inhalts von Text- und Multimedia-Dokumenten, meist für das EQ EQ (EverQuest) ist ein von der Firma WWW, ermöglicht und organisiert. Verant Interactive entwickeltes und von Sony Online Entertainment vertriebenes Massen-Mehrspieler-Online- Community Weblog Community Gemeinschaftsspiel. Weblogs (engl. für Gemeinschaftsblog) sind Blog-Services von Gemeinschaften. EverQuest Siehe EQ.

Mai 08 Masterarbeit FS 2008 XXIII Informationsextraktion aus Weblogs Edy Portmann

Extensible Markup Language Siehe HTTP HTTP (Hypertext Transfer XML. Protocol) ist ein Protokoll zur Übertragung von Daten über ein Netzwerk. Es wird vorwiegend eingesetzt, um Webseiten FAQ FAQ (Frequently Asked Questions, und andere Daten aus dem WWW in engl. für häufig gestellte Fragen) sind eine einen Browser zu laden. Zusammenstellung von oft gestellten Fragen und Antworten zu einem gewissen Gegenstand. HTTP POST HTTP POST übermittelt HTML-konforme Daten an einen vordefinierten Ort, wobei die Daten im Feedreader Kunstwort aus Feed (engl. für Körper der Übermittlungsanfrage Eingabe) und Reader (engl. für Leser), eingebunden sind. meint Aggregatoren von News-Feeds.

Hypertext Markup Language Siehe File Transfer Protocol Siehe FTP. HTML.

Flash Flash ist eine proprietäre Software Hypertext Transfer Protocol Siehe für die Herstellung und Wiedergabe von HTTP. interaktiven Animationen im Internet.

I seek you Siehe ICQ. Folksonomy Folksonomy bedeutet gemeinschaftliches Indexieren und ist eine Form freier Verschlagwortung, bei der ICQ ICQ (Homophon für „I seek you“, Nutzer Tags mit Hilfe verschiedener engl. für „Ich suche dich“) ist ein Arten von Social Software ohne genaue Programm, mittels welchem Benutzer über Regeln zuordnen. das Internet miteinander chatten oder zeitverschoben Nachrichten versenden können. Frequently Asked Question Siehe FAQ. Information Retrieval Information Retrieval (engl. für Informationswiederge- FTP FTP (File Transfer Protocol) ist ein winnung, -auffindung) ist ein Fachgebiet, Netzwerkprotokoll zur Datenübertragung das sich mit computergestütztem, über TCP/IP-Netzwerke. inhaltsorientiertem Suchen beschäftigt. Es ist ein Teilgebiet der Informationswissenschaft, der Fun-Blog Kunstwort aus fun (engl. für Computerlinguistik, wie auch der  Spass) und Blog. Deutet auf witzigen Informatik. Inhalt eines Blogs hin.

Internet Kunstwort aus interconnected HTML HTML (Hypertext Markup (engl. für miteinander verbunden) und Language) ist eine textbasierte network (engl. für Netzwerke) ist ein Auszeichnungssprache zur Strukturierung weltweit öffentlich zugängliches von Inhalten wie Texten, Bildern und Computernetzwerk, um global Daten  Links in Dokumenten. auszutauschen. Umgangssprachlich wird

Mai 08 Masterarbeit FS 2008 XXIV Informationsextraktion aus Weblogs Edy Portmann

das Wort Internet häufig synonym zum WWW verwendet. Massen-Mehrspieler-Online- Gemeinschaftsspiel Siehe MMOG. Internet Protocol Siehe IP. Massive Multiplayer Online Game Siehe MMOG. Internet Relay Chat Siehe IRC.

Metablog Metablogs sind Sammlungen IP IP (Internet Protocol) ist ein verbreitetes   Netzwerkprotokoll. Es ist die von Blogeinträgen anderer Blogs. Implementierung der Vermittlungsschicht des TCP/IP-Modells. Metadaten Als Metadaten bezeichnet man allgemein Daten, die Informationen über andere Daten enthalten. IRC IRC (Internet Relay Chat) bezeichnet ein textbasiertes Chat-System, welches Gesprächsrunden mit einer beliebigen Metasuchmaschine Eine Anzahl von Teilnehmern oder Gespräche Metasuchmaschine ist eine zwischen zwei Teilnehmern ermöglicht. Suchmaschine, welche Benutzeranfragen an mehrere Suchmaschinen und/oder Datenbanken Knowledge-Blog Kunstwort aus sendet, damit der Benutzer ein knowledge (engl. für Wissen) und Blog, Suchkriterium nur einmal eingeben muss. bezeichnet Weblogs für das unternehmensinterne Wissensmanagement. Mikropatronage Als Mikropatronage werden kleine Spenden als Unterstützung Link Hervorgehobene Text- oder für einen Blog bezeichnet. Bildstelle, die mit der Maus angeklickt werden kann und zu einer neuen Datenquelle führt. MMOG MMOG (Massen-Mehrspieler- Online-Gemeinschaftsspiel) bezeichnet einen Typ eines Computerspiels, das den Linkblog Kunstwort aus Link und Spielern eine virtuelle, persistente Welt Blog. Als Linkblogs werden Blogs bietet und von mehreren Spielern mit einer kommentierten Linksammlung  bezeichnet. gleichzeitig über das Internet gespielt werden kann.

Litblog Kunstwort aus Literatur und   Moblog Kunstwort aus Mobile (engl. für Blog. Litblogs sind Blogs, welche  Kommentare, Empfehlungen und Mobilfunktelefon) und Blog. Ein Moblog ist ein Blog, der von einem Interpretationen literarischer Texte  darbieten. Mobiltelefon oder PDA mit Inhalten gefüllt wird.

Mashup Mashup (engl. für vermischen) bezeichnet die Erstellung neuer Inhalte MySQL MySQL ist ein relationales durch die nahtlose (Re-) Kombination Datenbankverwaltungssystem. bereits bestehender Inhalte.

Mai 08 Masterarbeit FS 2008 XXV Informationsextraktion aus Weblogs Edy Portmann

News-Feed Ein News-Feed ist ein PHP PHP (PHP: Hypertext Preprocessor) Datenformat, welches gebraucht wird, um ist eine Skriptsprache die zur Erstellung Benutzer regelmässig über upgedateten von dynamischen Webseiten verwendet Inhalt zu informieren. Bekannte News- wird.   Feeds sind RSS und Atom. Pingback Eine Methode zur P2P P2P (Peer-to-Peer) bezeichnet eine Benachrichtigung anderer Webseiten Kommunikation unter Gleichen, hier über ein gemachtes Update des Blogs. bezogen auf ein Netzwerk von Computern.

Placeblog Kunstwort aus place (engl. für Page Rank Page Rank ist ein Verfahren, Ort) und Blog. Ein Placeblog ist ein eine Menge verlinkter Dokumente anhand Blog mit Berichten aus Städten, ihrer Struktur zu bewerten und zu Stadtteilen, Dörfern und Regionen. gewichten. Dabei wird jedem Element ein

Gewicht aufgrund seiner Verlinkungsstruktur zugeordnet. Plugin Ein Plugin wird in eine bestehende Software integriert und stellt ein eigenständiges Programm dar. PDA (Personal Digital Assistant) ist PDA ein kompakter, tragbarer Computer, der neben vielen anderen Programmen Podcasting Kunstwort aus iPod und hauptsächlich für die persönliche Broadcasting (engl. für Rundfunk, Kalender-, Adress- und Sendung), bezeichnet das Produzieren und Aufgabenverwaltung benutzt wird. Anbieten von Mediendateien über das Internet.

Peer-to-Peer Siehe P2P. Popup Ein Popup (engl. für plötzlich auftauchen) ist ein visuelles Element eines Permalink Kunstwort aus permanent und Computerprogramms. Der Name kommt Link beschreibt eine dauerhafte daher, dass Popup-Elemente „aufspringen“ Erreichbarkeit eines Blogeintrages über und dabei andere Teile überdecken.  einen Link.

Post Post (engl. für Eintrag). Siehe Personal Digital Assistant Siehe PDA. Blogeintrag.

Phlog 1. Kann einen  meinen PR PR (Public Relation) ist die Gestaltung oder 2. Kunstwort aus Gopher und Blog, guter, positiver und fruchtbarer der Art eines Blogs, welchem das Beziehungen einer Unternehmung zur Gopher anstelle des Hypertext-Transfer- Öffentlichkeit. Protokolls zugrunde liegt.

Projekt-Blog Solche Blogs werden Photoblog Kunstwort aus Photo und geschaffen, um die Arbeit an einem Blog. Ein Photo- bzw. Fotoblog ist ein speziellen Projekt zu begleiten und zu Blog, bei dem die Darstellung von dokumentieren. Fotografien im Vordergrund steht.

Mai 08 Masterarbeit FS 2008 XXVI Informationsextraktion aus Weblogs Edy Portmann

Public Relation Siehe PR. sicheren Übertragung von Dateien über   TCP/ IP-Netzwerke. Really Simple Syndication Siehe RSS.  Snippet Siehe Aside. Relevanz Kann mehrere Bedeutungen haben, hier die Bedeutung eines Social Software Social Software (engl. für Dokuments für eine Suchanfrage. soziale Software) ist ein Modewort für Software, die der menschlichen Kommunikation und der Zusammenarbeit Remote Procedure Call Siehe RPC. dient.

RPC Mit Hilfe von RPC (Remote Spamblog Kunstwort aus spam (engl. für Procedure Call) können über ein Netzwerk Abfall) und Blog, auch bekannt unter Funktionsaufrufe auf entfernten Rechnern Splogs, meint künstlich erstellte durchgeführt werden. Weblogs, welche jemand braucht, um  den Page Rank in den Suchmaschinen zu erhöhen. RSS RSS (Really Simple Syndication) ist ein News-Feed, welches gebraucht wird um erneuerten Inhalt eines Blogs zu Spam Als Spam (engl. für Abfall) werden publizieren. Ein RSS Dokument beinhaltet unerwünschte Nachrichten bezeichnet, entweder eine Zusammenfassung eines welche dem Empfänger zugestellt werden, Blogs oder denn vollen Texteintrag. werbenden Inhalt aufweisen oder massenhaft versandt wurden. Secure File Transfer Protocol Siehe SFTP. Splogs Siehe Spamblog.

Semantik Die Semantik (griech. für Suchmaschine Eine Suchmaschine ist ein bezeichnen, anzeigen) ist das Teilgebiet Programm zur Recherche von der Sprachwissenschaft, das sich mit der Dokumenten, die in einem Computer oder Bedeutung sprachlicher Zeichen befasst. einem Computernetzwerk, wie z.B. dem  WWW, gespeichert sind. Semantisches Web Das Semantische Web ist eine Erweiterung des WWW, mit dem Tag In der Datenverarbeitung und Ziel Bedeutung in maschinenlesbaren Informatik steht das Wort tag (engl. für Daten formal festzulegen. Informationen Etikett, Anhänger, Auszeichner) für die sollen dadurch nicht nur von Menschen Auszeichnung eines Datenbestandes mit verstanden werden, sondern auch von zusätzlichen Informationen. Maschinen interpretiert und weiterverarbeitet werden können. TCP TCP (Transmission Control Protocol)

ist eine Vereinbarung, auf welche Art Daten zwischen Computern ausgetauscht SFTP SFTP (Secure File Transfer werden sollen. Protocol) ist ein Netzwerkprotokoll zur

Mai 08 Masterarbeit FS 2008 XXVII Informationsextraktion aus Weblogs Edy Portmann

Team-Blog Von mehreren Personen administrierter Weblog, auf welchem Wahlblog Kunstwort aus Wahlen und mittels Rollen verschiedene Rechte Blog, meint Blog-Beiträge zu einzelnen zugewiesen werden können. Wahlen und zum Thema allgemein.

Trackback Eine Methode zur  Kunstwort aus war (engl. für Benachrichtigung anderer Webseiten   Krieg) und Blog, meint Berichte aus über ein gemachtes Update des Blogs. Kriegs- und Krisengebieten.

Transmission Control Protocol Siehe Watchblog Kunstwort aus watch (engl. für TCP. betrachten) und Blog, meint eine kritische Beobachtung der Veröffentlichungen von On- und Offline- Tumbleblog Kunstwort aus tumble (engl.  für Durcheinander) und Blog, meint ein Medien in Blogs. Online-Tagebuch, in dem u.a. kurze Texte, Links, Bilder, Kurzvideos und Zitate Web 1.0 Siehe WWW. veröffentlicht werden, die dem Autor beim Surfen im Internet aufgefallen sind. Web 2.0 Web 2.0 ist ein Begriff für eine Reihe interaktiver und kollaborativer Uniform Resource Locator Siehe   Elemente des Internets, speziell des URL. WWWs.

Usenet Kunstwort für Unix User Network, Web Information Retrieval Beschäftigt bezeichnet ein weltweites, elektronisches sich mit dem Information Retrieval im Netzwerk, das Diskussionsforen aller Art WWW. bereitstellt und an dem grundsätzlich jeder teilnehmen kann. Webbrowser Siehe Browser. URL URL (Uniform Resource Locator) ist  ein Adressierverfahren im WWW zur Web-Crawler Ein Web-Crawler ist ein eindeutigen Identifizierung eines Computerprogramm, das automatisch das Angebots. WWW durchsucht und Webseiten analysiert. Viedeoblog Langform von . Weblog Kunstwort aus web (engl. für Netz) und log (engl. für Tagebuch) ist eine Kunstwort aus Video und Blog, Webseite, in welcher die Einträge meint ein zu grossen Teilen aus normalerweise chronologisch rückwärts Videomaterial bestehenden Blog. angezeigt werden.

W3C Das W3C ist ein Gremium zur Weblog-Systeme Eine Weblog-System WWW-Standardisierung der Techniken. bezeichnet ein CMS zur Erstellung und Gründer und Vorsitzender des W3C ist der Verwaltung von Weblogs. WWW-Erfinder, Sir Tim Berners-Lee.

Mai 08 Masterarbeit FS 2008 XXVIII Informationsextraktion aus Weblogs Edy Portmann

Webseite Vollständiger und aus mehreren WWW Das WWW (World Wide Web) ist Seiten bestehender Online-Auftritt eines ein über das Internet abrufbares Anbieters im WWW. Hypertext-System und wird im allgemeinen Sprachgebrauch oft mit dem

Internet gleichgesetzt, obwohl es jünger What You See Is What You Get Siehe ist und nur eine mögliche Nutzung des WYSIWYG. Internets darstellt.

Wiki Ein Wiki (haw. für schnell) ist eine WWW Consortium Siehe  W3C. Sammlung von Webseiten, die von den Benutzern nicht nur gelesen, sondern auch direkt online geändert werden können. WYSIWYG WYSIWYG (What You See Wikis ermöglichen es verschiedenen Is What You Get) stellt ein Dokument Autoren, gemeinschaftlich an Texten zu während der Bearbeitung am Bildschirm arbeiten. genauso dar, wie es bei der Ausgabe über ein anderes Gerät aussieht.

Wizard Wizard (engl. für Zauberer, Hexer) bezeichnet ein Programm, mittels XML XML (Extensible Markup dem ein Benutzer durch eine ergonomische Language) ist eine Auszeichnungssprache Dateneingabe geführt wird. zur Darstellung hierarchisch strukturierter Daten in Form von Textdateien und wird u.

a. für den Austausch von Daten über das World of Warcraft Siehe  WoW. Internet zwischen unterschiedlichen IT- Systemen eingesetzt. World Wide Web Siehe WWW. XML RPC XML-RPC (Extensible Markup Language Remote Procedure Call) WoW WoW (World of Warcraft) ist ein ist eine Definition zum Methodenaufruf Massen-Mehrspieler-Online- (oder Funktionsaufruf) durch verteilte Gemeinschaftsspiel, welches Spieler Systeme. gleichzeitig zusammen über das Internet spielen.

Mai 08 Masterarbeit FS 2008 XXIX Informationsextraktion aus Weblogs Edy Portmann

12 Index

Fehler! Keine Indexeinträge gefunden.

Mai 08 Masterarbeit FS 2008 XXX Informationsextraktion aus Weblogs Edy Portmann

13 Eidesstattliche Erklärung

Ich bezeuge mit meiner Unterschrift, dass meine Angaben über die bei der Abfassung meiner Arbeit benützten Hilfsmittel sowie über die mir zuteil gewordener Hilfe in jeder Hinsicht der Wahrheit entsprechen und vollständig sind. Ich habe das Merkblatt zu Plagiat und Betrug vom 23.11.05 gelesen und bin mir den Konsequenzen eines solchen Handelns bewusst.

Luzern, 11.06.2008 E. Portmann

Mai 08 Masterarbeit FS 2008 XXXI