Informationsextraktion Aus Weblogs Grundlagen Und Einsatzmöglichkeiten Der Gezielten Informationssuche
Total Page:16
File Type:pdf, Size:1020Kb
Masterarbeit Im Rahmen der Vertiefungsrichtung Wirtschaftsinformatik Informationsextraktion aus Weblogs Grundlagen und Einsatzmöglichkeiten der gezielten Informationssuche vorgelegt am Wirtschaftswissenschaftlichen Zentrum WWZ Prof. Dr. Christian Kleiber & Dr. Urs Hengartner Universität Basel Frühjahressemester 2008 Vorgelegt von: Edy Portmann 99-151-532 Stollbergstrasse 30 CH-6003 Luzern +41 (0)41/240’06’32 [email protected] Ausgabedatum: 27.02.2008 Abgabedatum: 11.06.2008 Informationsextraktion aus Weblogs Edy Portmann Stichworte Blog, Blog-Anbieter, Blog-Anwendung, Bloggereigenschaft, Blogklassifikation, Blog- Retrieval, Blogtypologie, Information Retrieval, Internet, Page Rank, Semantisches Web, Social Software, Web 1.0, Web 2.0, Web 3.0, Weblogs, Web Suchmaschinen, Wikis, World Wide Web, WWW Zusammenfassung Für den eiligen Leser wird an dieser Stelle eine kurze Darstellung über die folgende Masterarbeit geboten. Es sei dabei bemerkt, dass in diesem Abstract nicht alles erläutert werden kann, sondern nur auf das Essentiellste eingegangen wird. Dem Weiterinteressierten empfiehlt sich die Konsultation des entsprechenden Kapitels und/oder der im Literaturverzeichnis genannten Quellen. Laut neusten Studien gewinnen Weblogs, kurz Blogs, im deutschsprachigen Raum kontinuierlich an Boden. Ein Weblog ist eine Art Internet-Tagebuch, das neben Texten mit Bildern und Videos angereichert werden kann und auf diese Weise für den Editoren ein einfach bedienbares Medium zur Illustration von Perspektiven und Ansichten darstellt. In Amerika ist das Phänomen der Blogs schon weit verbreitet, weshalb die Beschäftigung mit Weblogs aus unternehmerischer Sicht ein unabdingbares Muss darstellt. In Europa trifft man Weblogs noch nicht in derselben Häufigkeit an, obwohl auch hier eine deutliche Wachstumstendenz erkennbar ist. Um Weblogs verstehen zu können, wird deren Ursprung und die technische Umgebung erklärt und verschiedene Anwendungsmöglichkeiten erläutert. Weiter wird, um sich ein Bild über die potentiellen Informationsgeber zu verschaffen, auf die entsprechenden Nutzer von Blogs eingegangen. So ist es äusserst hilfreich, sich bewusst zu werden, wer hinter den Weblog-Einträgen steht, um die Tragweite der Informationen abschätzen zu können. Zum unternehmerischen Nutzen der Weblogs gibt es schon diverse Arbeiten mit vielen Möglichkeiten, welche sich jedoch häufig auf Corporate Blogs beschränken. Diese dienen als Kommunikations- oder Marketingmittel zur Erlangung unternehmerischer Ziele und erfordern vielfach einen beachtlichen Ressourcenaufwand und erhebliches Verantwortungsbewusstsein. Vor allem Unternehmen, welche der Informatik und dem Internet nahe stehen, beschäftigten sich bisweilen mit dem Einsatz eines Blogs. An dieser Stelle wird die herkömmliche Thematik der Corporate Blogs ausgeweitet und das methodische Suchen nach Informationen erweitert. Das Ergebnis einer angewandten Suche sollte sein, für die Unternehmen einen Wissensvorsprung zu generieren und/oder die Blogosphäre nach Schlagworten, wie zum Beispiel dem Namen des eigenen Unternehmens, der Konkurrenz oder nach Kapitalbeteiligungen zu durchsuchen. Das Problem an Informationen aus Weblogs ist, dass der Wert der Informationen nicht immer im Voraus erkannt wird und teilweise erst nachdem die Informationen gesammelt wurden, bewertet werden kann. Hierzu kann eine Häufung von bestimmten Einträgen in den Weblogs als Filter für die Relevanz von Informationen dienen, wobei Informationen mit hoher Erwähnungshäufigkeit in verschiedenen Weblogs unter Umständen wichtige Erkenntnisse enthalten können. Zur Erreichung dieses Ziels werden technische Wege aufgezeigt, wie Daten systematisch gesucht werden können, um sich einen Informationsvorsprung zu verschaffen. Zur Verdeutlichung werden im ganzen Text theoretische Erkenntnisse an Beispielen demonstriert und aktuelle Studien miteinbezogen. Mai 08 Masterarbeit FS 2008 II Informationsextraktion aus Weblogs Edy Portmann Vorwort Informatik hat mich seit meiner Kindheit fasziniert. Erstmals in Kontakt mit ihr kam ich in den achtziger Jahren durch einen Schulkollegen, welcher einen Commodore 64 besass. Dieser C64, wie er auch genannt wurde, hatte einen zwanzig Kilobyte Festspeicher und wurde 1982 von Commodore International lanciert. Der Arbeitsspeicher betrug 64 Kilobyte, so dass sich mit dem Computer bestens spielen liess. Über den Vater eines anderen Schulkollegen kam ich, ebenfalls in den Achtzigern, in Kontakt mit den ersten Netzwerken. Der betreffende Vater arbeitete damals in einer Informatikfirma, welche ihre Geschäftscomputer miteinander zu einem Netzwerk verbunden hatten. Mir und meinen Freunden bereitete es grossen Spass, einander von unterschiedlichen Rechnern aus Textnachrichten zuzusenden. Für die allgemeine Gesellschaft waren diese Kommunikationssysteme damals allerdings noch nicht geeignet. Zu teuer und kompliziert war die damalige Technologie. Meistens wird Technologie für die Masse erst interessant, wenn sie preiswert und einfach zu bedienen ist. Diese Wandlung kann am Beispiel des Weblogs gut nachvollzogen werden. Durch eine rationalisierte Möglichkeit der technisch nötigen Anpassungen auf ein Minimum, wurde es auch den ungeübten Nutzern möglich gemacht, sich über eine Plattform auszutauschen. Dementsprechend ist es nicht mehr nötig, sich um Bits und Bytes zu kümmern und man kann sich durch das Bloggen voll und ganz dem „Social Networking“ widmen. Somit braucht man also nicht zu wissen, wie darunter liegende Technik im Detail funktioniert, obschon diese sehr erstaunlich ist. So sind Null oder Eins die beiden einzigen erreichbaren Zustände, welche ein Bit, also die kleinstmögliche Speichereinheit, je einnehmen kann. Das bis heute verwendete, weltbekannte World Wide Web (WWW) wurde im Jahre 1992 durch das CERN freigegeben. Der Erfinder Tim Berners-Lee träumte damals davon, dass Wissen für alle uneingeschränkt zur Verfügung stehen sollte. So sollte es möglich werden, über ein Hypertext-System wissenschaftliche Arbeiten unkompliziert mit Kollegen auszutauschen und miteinander zu verlinken. Am Anfang bestand das WWW vor allem aus statischen HTML-Seiten, von denen ein Grossteil selten upgedatet, verändert oder gar ausgetauscht wurden. Damals war das Web in eine Art Zweiklassensystem unterteilt: Auf der einen Seite gab es die Informationsanbieter, welche die Inhalte ins Web brachten, auf der anderen Seite die Benutzer, für die das Web eine Informationsplattform war. Mit neuen technischen Möglichkeiten wie Cascading Stylesheets (CSS), JavaScript oder Flash wurde dieses Zweiklassensystem durchbrochen und das Web vielseitiger und interaktiver. Nun traten vorgefertigte Content-Management-Systeme (CMS) auf den Plan, mit welchen jedermann per „Drag & Drop“ in kurzer Zeit einfach selber zu einem Informationsanbieter werden konnte. So entwickelten sich, erst im Schatten der statischen Homepages, ab Mitte der neunziger Jahre die ersten heute unter Social Software bekannten Anwendungen. Sie wurden Wikis und Weblogs genannt und waren Webseiten, auf denen Internetnutzer regelmässig Einträge machten. Nach einem schleppenden Start wiesen solche Seiten Ende der 1990er Jahre ein rasantes Wachstum auf. Im Jahre 2007 gab es laut Lange [Lang07] weltweit schon mindestens 50 Millionen aktive Weblogs. Einerseits ist es erstaunlich, dass im deutschsprachigen Raum das Wort Weblog weitgehend unbekannt ist, andererseits gibt es in der Blogosphäre schon eine beträchtliche Unterscheidungsfülle verschiedener Blog-Arten. So gibt es, um ein paar zu nennen, Edublogs, Corporate Blogs, Linkblogs, Litblogs, Metablogs, Wahlblogs, Warblogs, Knowledge-Blogs, Projekt-Blogs und so weiter. Stetig kommen neue Blog-Arten hinzu oder verschwinden wieder. Die Szene rund um Weblogs ist sehr dynamisch und Veränderungen gehören zur Tagesordnung. Unter dem Aspekt des Findens eines Startpunktes kann dies den Einstieg in die Thematik erschweren. Entsprechend war das Gebiet der Weblogs für mich relativ neu und das Erstellen dieser Masterarbeit beanspruchte ein erhöhtes Studium von Literatur, mit dem Mai 08 Masterarbeit FS 2008 III Informationsextraktion aus Weblogs Edy Portmann Ziel, mir das nötige Wissen anzueignen. Als Wirtschaftsinformatiker beschäftigte ich mich in diesem Hinblick bis anhin vor allem um technische Belange des Internets. Die vorliegende Arbeit ermöglichte mir aber einen tieferen Blick in die Welt des Web 2.0, der Blogger und des modernen Information Retrieval. Nicht nur Informatiker, sondern auch Personen, welche wie Wirtschaftsinformatiker als Bindeglied zwischen Informatik und Betriebswirtschaft fungieren, sollten sich mit diesen neuen, aus dem Grunde aufstrebenden Themen beschäftigen, da die Verbindungen zu Unternehmen mannigfaltig sind. Durch die Schaffung dieser Social Software wurden Möglichkeiten hervorgerufen, welche Chancen und Gefahren für alle am Markt operierenden Gesellschaften beinhalten können. Deshalb bin ich mir sicher, dass ich später von den erworbenen Kenntnissen profitieren kann. Zum Schluss möchte ich noch einen Dank an alle beteiligten Mitdenker, Schulterklopfer und Kritiker abfassen. Als erstes geht ein grosses Dankeschön an meine Lebenspartnerin Eveline, welche mir jederzeit Unterstützung beim Schreiben meiner vorliegenden Arbeit bot. Ein weiteres Dankeschön geht an die zwei Korrekturleser, meine Schwester Astrid und meinen Vater Karl. Zudem bedanke ich mich bei meinem Betreuer der Universität Basel, Dr. Urs Hengartner, für die gute und angenehme Zusammenarbeit. Alle diese Personen standen mir jederzeit mit gut gemeinten Ratschlägen zur