Seminar "Soziales Retrieval Im Web 2.0" "Blogs"

Seminar "Soziales Retrieval im Web 2.0"

"Blogs"

Muzaffer Bilmen

Dozenten

Prof. Dr.-Ing. Norbert Fuhr Dipl.-Inform. Sascha Kriewel Dipl.-Inform. Ingo Frommholz

28.09.2008

Inhaltverzeichnis

1. Web 2.0

1.1. Kurzer historischer Abriss 1.2. Web 2.0, Soziale Software, Soziale Online-Netzwerke

2. Blogs: Grundbegriffe und Definitionen

2.1 Einordnung von Blogs ins Web 2.0 2.2 Abgrenzung von Blogs zu anderen Online-Erscheinungen 2.3 Kriterien, Besonderheiten und Strukturen von Blogs

3. Bedeutung von Blogs

3.1. Soziale und wirtschaftliche Bedeutung von Blogs 3.2. Lohnendes Ziel für legale und illegale Aktivitäten

4. Missbrauch und mögliche Gegenmaßnahmen

4.1. Spam im allgemeinen 4.2. Spam in Blogs 4.3. Schwachstellen sozialer Software 4.4. Schwachstellen schließen und Spams verhindern/bekämpfen

5. Fazit

5.1. Zusammenfassung und Ausblick 5.2. Prognose zur Spambekämpfung bzw. Vermeidung

6. Literaturverzeichnis

1. Web 2.0

1.1 Kurzer historischer Abriss

Wenn man über das Web 2.0 diskutiert fallen unweigerlich Begriffe wie Blogs, Spams, Widgets, Mashup, Folksonomy, Partizipation, Aggregation, Social Software, Ajax, Tagging und noch viele andere.

Als der Begriff Web 2.0 jedoch das erste mal 2004 bei einer vom Verleger Tim O’Reilly veranstalteten Brainstorming-Session in den Raum geworfen wurde, ging es nur darum die Prinzipien zu identifizieren, welche die Firmen teilen [3].

Dieser Begriff wurde allerdings von der technophilen Blogosphäre aufgenommen und hat sich in sehr kurzer Zeit sehr stark verbreitet. Eine eindeutige Definition ist nicht möglich. Der Begriff ist sehr schwammig und wird heute in sehr vielen Bereichen des Internets und der Kommunikation im Web verwendet.

Abbildung 1.1: Mindmap zum Thema Web 2.0, erstellt von Markus Angermeier

Das Web 2.0 ist nicht bloß eine Frage von Design oder Funktionalität. Es geht auch um die Miteinbeziehung der Benutzer einerseits und der gesellschaftlichen Rahmenbedingungen.

Ganz besonders sind hier hervorzuheben die Steigerung der Zugangsgeschwindigkeiten ins Internet, die sinkenden Zugangskosten, der Übergang der Benutzer von einfachen Konsumenten hin zu Produzenten von Webinhalten und der Weiterentwicklung der Technologien. In diesem Zusammenhang hat auch ein sehr starker „Usability-Reifeprozess“ stattgefunden die eine Bedienung und die Nutzung des Webs auch Benutzern möglich macht die sehr geringe Kenntnisse über die Computerhardware und Software haben.

Durch all diese begünstigenden Faktoren konnten sich in sehr kurzer Zeit Plattformen mit kollektiver Intelligenz wie Wikipedia aufbauen. Durch die leicht zu bedienende Hardware und Software konnten die jeweiligen Nutzer ihr Wissen aggregieren. Durch die Mashup Effekte konnten sich viele Innovationen gegenseitig befruchten. So konnten bestimmte Webseiten die Funktionen anderer Seiten bei sich integrieren und dadurch die eigene Seite und auch die andere Seite stark bereichern. So Benutz die Seite Panoramio die den Mitgliedern eine Plattform zur Veröffentlichung von eigenen Bildern bietet den Dienst von GoogleEarth. Dadurch können die User bei Panoramio die ihre Bilder dort veröffentlichen ihren Bildern eine geographische Information hinzufügen. Auf der anderen Seite können nun die Benutzer von GoogleEarth auf eine große Bilderdatenbank zugreifen wenn sie die Erde mit GoogleEarth „bereisen“. Das Potenzial solcher Mashup Effekte ist grad dabei entdeckt zu werden.

Jack Mannes: „not a web of textual publication, but a web of multi-sensory communication …“

1.2 Web 2.0, Soziale Software, Soziale Online-Netzwerke

Was also genau ist nun unter Web 2.0 zu verstehen, welche Bedeutung haben in diesem Zusammenhang die Begriffe Soziale Software oder Soziale Online-Netzwerke? Wie hängen diese Begriffe zusammen und in wie weit umfassen sie die Begriffe in Abbildung 1.1? Wir wollen im die folgenden drei zentralen Begriffe kurz erklären

Auch wenn eine allgemein verbindliche DIN ISO-Definition des Begriffs Web 2.0 nicht möglich ist so kann man die folgenden Bereiche doch zumindest als die wesentlichsten Elemente des Web 2.0 bezeichnen:

• Entwicklung der Benutzer vom Konsumenten zum Produzenten, d.h. das die Webenutzer nun nicht mehr nur Seiten Lesen und die darin enthaltenen Informationen sich zu Nutze machen sondern nun auch selber Seiten erstellen und eigenes Wissen anderen Benutzern zur Verfügung stellen.

• Verbesserte Infrastrukturen, d.h. vor allem besserer, stabilerer und billigerer Internetzugang.

• Verbesserte Technologien im Bereich der Hardware, z.B. mit Plug&Play. Damit muss nun nicht mehr umständlich Treibersoftware zum benutzen von Hardware installiert werden sondern man kann die entsprechende Hardware einfach anschließend und es dann einfach benutzen. Aber auch die Software ist nun viel intuitiver und nimmt viele komplizierte Eingaben durch automatische Überprüfungen selber vor. Zum Beispiel das Einrichten des Internetzugangs [2].

• Verbesserte gesellschaftliche Bedingungen bedeuten vor allem dass das Internet immer weitere Akzeptanz findet. Zum einen durch die Werbung und zum anderen auch durch die Einführung des Informatikfachs in den Schulen.

Unter Sozialer Software wird im Allgemeinen ein System verstanden welches zur Kommunikation, Zusammenarbeit und Interaktion zwischen Menschen dient. Dies ist allerdings zu allgemein für unsere Zwecke. Denn unter solch einer allgemeinen Definition könnte man auch ein Telefon verstehen, was aber sicherlich nicht gemeint ist im Zusammenhang dieser Seminararbeit. Soziale Software wird in diesem Zusammenhand lediglich auf Software bezogen sein und hat grundsätzlich zwei mögliche Ausrichtungen. Zum einen kann es solche Software sein die sich vordergründig auf die Kommunikation bezieht (XING, MySpace und StudiVZ sind Plattformen die dieser Ausrichtung angehören) und zum anderen solche die sich mehr auf Inhalte bezieht, wo also der Gedanke des Wissensaustausches stehet (Wikipedia, FlickR und youtube wären dafür gute Beispiele).

Soziale Online-Netzwerke werden vor allem durch die Motivation der Benutzer getragen. Durch den Idealismus den jeder Benutzer an den Tag legt entwickelt sich das soziale Online-Netzwerk immer weiter. Die stärksten Antriebsfaktoren für die User ist dabei vor allem so etwas wie Anerkennung, durch andere, die Möglichkeit der Einflussnahme und der damit verbundenen Macht etwas zu verändern oder mitzugestalten.

Alle oben genannten Systeme wie Wikipedia, XING, MySpace, StudiVZ, FlickR unterstützen diese sozialen Katalysatoren. In Form von Bewertungen, kurzen Kommentaren, Feedbacks, Bekanntheitsgrad etc. werden die Benutzer in ihren Aktivitäten begleitet.

2. Blogs: Grundbegriffe und Definitionen

2.1 Einordnung von Blogs ins Web 2.0

Bei dem Begriff Weblog handelt es sich um ein Kunstwort. Gebildet aus Web und Blog. Zusammengesetzt ergibt es das Wort Weblog. „Log“ kommt aus dem Englischen und bedeutet soviel wie Protokoll oder Logbuch so wie in der Seefahrt. Erstmal benutzt oder geprägt wurde es vielen Quellen zufolge von Jorn Barger um 1997 herum. Er wollte damit den Prozess beschreiben den er als „logging the Web“ bezeichnete. Dabei schrieb er alle Adressen interessanter Webseiten die er bei seinen Websurfaktivitäten entdeckte in eine Liste um es anderen Mitzuteilen. Das war zu einer zeit wo es noch keine Suchmaschinen gab und das suchen bzw. finden von bestimmten Seiten für Benutzer sehr schwierig oder extrem aufwendig war. Daher waren solche Linklisten sehr beliebt. Somit kann man die Anfänge des Begriffes Weblogs schlicht als das festhalten von „Surftouren“ also mit erstellen von Linklisten bezeichnen.

So wie bei Web 2.0 gibt es allerdings auch für den Begriff Weblog keine Allgemeingültige Definition. Heute wird in der Regel darunter eine Webseite verstanden in der die Beiträge chronologisch eingetragen werden. Eine Webseite die sehr regelmäßig aktualisiert wird, die einen Bezug zum Internet hat und über die eine Interaktion von Autor und Leser möglich ist. Meistens in Form von Kommentaren auf der Seite zum jeweiligen Beitrag. Desweiteren Stellt ein Blog etwas ganz persönliches dar, d.h. das man nicht nur etwas über das Interesse des Autors erfährt sondern auch seine ganz persönliche Sichtweise dazu.

Ganz sicher sind Blogs als Soziale Software zu verstehen. Es erfüllt alle die oben genannten Kriterien. Über eine Weblogseite soll und findet tatsächlich eine Kommunikation statt. In der Regel handelt es sich ja dabei um eine oder mehrere Personen die anderen etwas mitteilen wollen. Deswegen schreiben sie es und veröffentlichen es in der Regel frei zugänglich. So können andere passiv „zuhören“ oder aktiv kommentieren, kritisieren, verbessern etc.

In diesem Sinne kann ein reger Informationsaustausch entstehen der zum gegenseitigen Vorteil dienen kann. Ohne sich in der realen Welt jemals getroffen zu haben kann ein Vertrauensverhältnis aufgebaut werden das zu einer Online-Freundschaft führen kann. Und je nach dem wie stark die Beliebtheit des Weblogs ist sogar eine Online-Gemeinschaft.

Natürlich sollte dabei nicht vergessen werden dass ein Risiko von Vertrauensmissbrauch so wie es in der Realität geben kann auch in einem sozialen Netzwerk stattfinden kann. Vertrauliche Informationen können missbraucht werden und vermeintlich nützliche Informationen können sich als völlig irreführend und manipulativ erweisen.

Sicherlich sind das nun keine besonderen Eigenschaften die ausschließlich einem Blog vorenthalten sind. Es sollte lediglich hier die soziale Komponente eines Blogs herausgestellt werden. Weiter Unten werde ich auf einige besondere Eigenschaften eingehen die in der Form und der Kombination nur in Weblogs zu finden sind.

2.2 Abgrenzung von Blogs zu anderen Online-Erscheinungen

Der Gedanke der Partizipation, also das über das passive konsumieren von Webinhalten hinausgehende ist hier entscheidend. Diese zentrale Funktion, die dazu gedacht ist das der Autor mit den Besuchern interagieren soll, unterscheidet ein Weblog wesentlich von anderen Plattformen wie dem Usenet oder einem Forum.

In einem Weblog gibt nur der Blogbetreiber Themen vor. Besucher können keine eigenen Themen beginnen. In der Regel besteht der Autor aus einer Person es, kann aber auch sein das mehrere Personen beteiligt sind. „Gute“ Blogs werden dabei sogar meistens von „Experten“ geführt, die also zum einen beispielweise Journalisten sein können und sich auf das Schreiben sehr gut verstehen, und/oder Experten im Bezug auf das Thema das im Blog behandelt wird.

Es gibt auch Blogs wo so weit gegangen wird das dem Besucher das Kommentieren untersagt ist. Eine Umstrittene Einschränkung da viele Autoren der Meinung sind das ein Blog ohne die Möglichkeit des Kommentierens eigentlich keine Blog ist.

Eine sehr bildliche Differenzierung von Blogs und Foren stammt von Robert Basic aus dem Thinking-Blog:

Blogs sind keine Gemeinschaftswohnung. Es gibt einen Hausbewohner, den Gäste je nach Bedarf besuchen, weil er möglicherweise leckeren Kaffee und Kuchen anzubieten hat. Auf Foren und Newsgroups machen die Hausbewohner gemeinsam Musik, jeder kann dazu seinen Kuchen mitbringen. Party! Auf einem Blog macht nur einer die Musik, er bestimmt die Lautstärke, er backt den Kuchen.

2.3 Kriterien, Besonderheiten und Strukturen von Blogs

Blogs können zum einen nach formalen Kriterien kategorisiert werden zum anderen nach inhaltlichen Kriterien [4]. Bei den formalen Kriterien wird unterschieden nach:

Offene vs. geschlossene Blogs

Offene Blogs sind solche wo noch andere Autoren mitschreiben dürfen und in Folge dessen sind geschlossenen Blogs in der Regel Blogs die von einer Person betrieben werden.

Zeitlich begrenzte vs. zeitlich unbegrenzte Blogs

Bei zeitlich begrenzten Blogs handelt es sich meistens um Blogs die wegen einem bestimmten Ereignisses erstellt wurden, wie z.B. einer Fußball Europameisterschaft. Sie werden in der Regel auch nach dem das Ereignis vorbei ist nicht aus dem Netz genommen und dienen als Informationsquelle, auch wenn eine weitere Aktualisierung nicht mehr erfolgt. Andere sind zu einem ganz bestimmten Zeitpunkt oder Anlass aktiv und dann für eine längere Zeit wieder inaktiv. Ein gutes Beispiel dafür sind Blogs von politischen Parteien die zur Wahlzeit aktiviert werden und sonst inaktiv sind.

Öffentliche vs. private Blogs

Dabei handelt es sich zum einen um Blogs von Unternehmen, Vereinen, Behörden welche als öffentlich gelten und zum anderen Blogs die mehr oder weniger von privaten Personen betrieben werden.

Die Kategorisierung nach inhaltlichen Kriterien geht meistens nach den Themen die im Blog angesprochen werden. Trivialerweise gibt es da also Blogs wo es um Literatur geht, Photographie, Nachrichten etc.

Das Bloggen wurde zum einen durch die neuen Technologien aber vor allem auch durch Blogger-Softwaresysteme, für absolute Computer und Softwarelaien zugänglich gemacht. Für Personen also die gerne ihre Meinung, ihre Kritik etc. mitteilen wollten oder die ihr Wissen in ihren jeweiligen Bereichen, z.B. Jura, Medizin, Journalismus usw., anderen gerne weitergeben wollten Einige Beispiele für Blogger-Software sind WordPress, blogger.com, die CMS Software Drupal. Eine Entwicklung die bereits oben kurz bei der Klärung des Begriffs Web 2.0 erwähnt wurde.

Einige Technologien sind aber ganz speziell auf Blogs zugeschnitten und haben wesentlich zu der Popularität von Blogs beigetragen. Diese sind: Trackback bzw. Pingback, Permalinks, Tags, Tagwolken, Feeds.

Bei Trackback geht es um ein verlinken von Artikeln in unterschiedlichen Blogs die zu einander einen Bezug haben oder explizit auf einender einen Bezug nehmen. Die Trackback Funktionalitaet wurde von der Firma Six Apart extra für Weblogsoftware entwickelt. Eine Weblogsoftware die Trackbacks erlaubt stellt dem Autor die Möglichkeit bei seinen eingestellten Artikeln die Trackback Funktionalität zu aktivieren so das ein Besucher nun der in einem eigenen Artikel in einem Anderen Blog dazu Bezug Nehmen will durch anklicken dieser Funktion dies bekannt gibt. Somit werden zwei Artikel oder Kommentar/Artikel mit einander verlinkt und ein Interessierter Leser kann die gesamte Diskussion und Informationsfülle überblicken.

Pingback sind relativ ähnlich zur Trackback Funktion. Zum einen kann der Autor einer Seite damit feststellen wer und von wo überall auf seine Seite verlinkt wird zum anderen aber ist es ein sehr gutes Mittel durch diese Funktion neu eingestellte Artikel bei Suchmaschinen bekannt zu machen. Also eine Art „Anklingeln“ bei den jeweiligen Diensten um sich dort „vorzustellen“ zu machen.

Diese beiden Funktionalitäten tragen sehr zur leichten Auffindbarkeit von Beiträgen und zu einer sehr guten Verlinkung der Beiträge.

In der Regel ist die Internetadresse eines Blogs sehr einfach gehalten. Beispielsweise: www.name-des-blogs.wordpress.com und die darin enthaltenen Artikel haben alle eine eigene einfache Adresse. Das liegt an folgendem: Damit nun die Adresse nicht all zu kompliziert wird so das es sich kein Mensch mehr merken könnte wird die vom Server automatisch generierte Seite serverintern umbenannt. Unter dieser auch für Menschen zu merkenden und leichten Adresse ist dann der Artikel immer erreichbar da der Server weiß welche Adresse tatsächlich dahinter steckt. Ganz wichtig ist hier die Tatsache zu erwähnen, das die Internetadresse der einzelnen Artikeln nun auch Suchmaschinenfreundlich dadurch wird [3].

Jedem Artikel in einem Blog können beliebig viele Sinnvolle Stichwörter gegeben werden. Die Menge all dieser Stichwörter wird dann auch Tagwolke genannt. Die Einzelnen Stichwörter sind dann die Tags. Dadurch wird das Suchen von Artikeln anhand von Stichwörtern möglich.

Feeds sind keine exklusive Technologie die Blogs vorenthalten ist, besonders verbreitet auf Seiten wo es um Nachrichten geht. Aber in Blogs können Feeds gut eingesetzt werden um regelmäßige Besucher der Seite auf eine einfache und bequeme Weise über neue Artikel in einer Kurzform zu informieren. Eine Gute Art die Bindung der Regelmäßigen Besucher auch weiterhin zu gewährleisten.

Insgesamt und abschließend sei hier noch erwähnt das Blogs ohne starke Verunreinigung von Links, Werbung, Graphik gut für die Relevanzberechnung in Textorientierten Suchmaschinen ist. Das wiederrum zieht eine größere Besucherzahl nach sich und die Wahrscheinlichkeit von Feedback wir erhöht [3].

Gerade die Trackback, Pingback und Permalink Technologien haben zu einer sehr guten Verlinkung von Blogs geführt. Dies Führte zur sogenannten Blogosphäre. Es sei hier noch zu erwähnen das die Verlinkungsart der Blogs für ein gutes Ranking in Suchmaschinen sorgt [2] [3].

Aus der Abbildung 2.1 ist sehr gut die starke Verlinkung von Blogs zu ersehen und das sich gewisse Netze herausbilden [3]. Zu beachten ist das je mehr eine Seite von anderen einen Link hat desto stärke sein Ranking bei Suchmaschinen. Dabei ist auch nicht jeder Link von einer Seite gleich sondern gewichtet und zwar so das je stärke diese Seite wiederrum von anderen mit einem Link bedacht wird desto stärker gilt sein Link auf andere Seiten. Eine Berücksichtigung finden auch die Links von der Seite Selbst. Wenn die Seite also selbe wiederum Links zu „renommierten“ Seiten aufweist beeinflusst auch dies das eigene Ranking positiv. Diese Starken und komplexen Verlinkungen führen zu dem Phänomen des “viralen Effektes“ in Blogs. Darauf werden wir aber im nächten Kapitel noch genauer eingehen.

Abbildung 2.1: Visualisierung eines Ausschnitts der Verlinkung in der deutschen Blogosphäre [3]

3. Bedeutung von Blogs

3.1 Soziale und wirtschaftliche Bedeutung von Blogs

Aufgrund der guten Verlinkung von Blogs ist offensichtlich das das sich dort eine Nachricht sehr schnell verbreitet. Gerade aufgrund der sozialen Komponente der Blogs, das also dort ein gewisses Vertrauensverhältnis unter verlinkten Seiten besteht ist eine Nachricht die von einer Seite an die andere weiter gegeben wird wie eine Botschaft oder Empfehlung von einem „Freund“ zu einem anderen „Freund“. Dieses Phänomen, also die Verbreitung einer Information in einem Sozialen Netzwerk, vergleichbar einem Virus in der realen Welt das sich infektiös in einer Population verbreitet ist, wird als „viraler Effekt“ bezeichnet. Diesen Effekt können nun Personen, Unternehmen, Verbände etc. wenn sie es verstehen positive für sich arbeiten lasen. Aber wenn man sich „falsch“ verhält kann es auch sehr negativ auf einen Wirken. Denn ist der virale Effekt erst mal ausgelöst lässt es sich so gut wie nicht mehr kontrollieren.

Immer mehr entdeckt gerade die Wirtschaft die Bedeutung der Blogosphäre um es als mögliche positive Unternehmensdarstellung zu nutzen. Die Zahlen immer weiter steigender Blogs im Internet, so wie die Zahlen und Statistiken von PR Firmen, aber auch die immer häufigere Erwähnung von Blogs und dessen was dort behandelt wird durch die Printmedien und das Fernsehen belegen die steigende Bedeutung der Blogs in der realen sozialen und wirtschaftlichen Welt in der wir leben.

3.2 Lohnendes Ziel für legale und illegale Aktivitäten

Unternehmen bedienen sich immer mehr der Dienste von „Clipping-Services“ die gegen gute Bezahlung das Netz, insbesondere die Blogosphäre nach Informationen dursuchen die wichtig für ein Unternehmen sein könnten. Immer mehr Unternehmen betreiben sogar eigene Blogs um aktive PR für ihr Unternehmen zu betreiben um so mit den potentiellen Kunden in Kontakt zu treten.

Über die PR Möglichkeit hinaus stellt die Blogosphäre für Unternehmen aber auch eine wertvolle Informationsquelle dar. Über gute Datamining Methoden können gezielt Daten bezüglich Benutzer gesammelt werden. Benutzer machen dort Vorschläge, sie Diskutieren über Produkte, was Ihnen gefällt und was nicht. Das sind alles Daten die Unternehmen sonst immer mit viel Aufwand und Kosten sonst Aktiv selber sammeln mussten.

Einige illegale Bestrebungen von „Datensammlern“ gehen daher sogar dahin mit sogenannten „Crawler-Software“ vollautomatisch in solchen Portalen Daten zu sammeln, diese in Datenbanken zu sammeln und auszuwerten [7] [9]. Diese Informationen stellen für Unternehmen richtige Goldschätze dar. So war einem deutschen Unternehmen jeder Datensatz eines Mitglieds im StudiVZ rund 100 Euro wert. Wenn man bedenkt das es sich um zukünftige Akademiker handelt die mal viel Geld verdienen werden sind das zukünftige gute Kunden für Versicherungen, Banken etc.

Eine andere illegale Methode ist dass sogenannten Phishing. Dort wird versucht durch die Simulation einer anderen Seite den Benutzer zur Eingabe von persönlichen geheimen Daten zu bewegen um damit illegaler weise Zugang zu seinen Accounts zu bekommen.

Diese und viele andere Missbrauchversuche sind mittlerweile leider gang und gebe im Web 2.0. Dies zeigt wie stark verletzlich einerseits aber auch stark begehrt Soziale Netzwerke im Internet sind. Ein ganz besonderes Phänomen illegaler Aktivität oder des Missbrauchs in sozialen Netzwerken sind Spams. Was Thema des nächten kapitel sein soll.

4. Missbrauch und mögliche Gegenmaßnahmen

4.1 Spam im allgemeinen

Spam ist ein Kunstwort und war ein Markenname für Dosenfleisch, 1936 entstanden aus SPiced hAM. Heute im Zusammenhang mit dem Internet ist Spam allgemein als unerwünschte Massenwerbung aller Art definiert. Sie sind in der Regel nicht nur lästig sondern verursachen auch einen enormen volkswirtschaftlichen Schaden der nicht zu unterschätzen ist. Sie Stören durch den zusätzlich verursachten Datenaustausch die Kommunikationswege. Dadurch wird noch im günstigsten Fall die Kommunikation verlangsamt im schlimmsten Fall zum Stillstand gebracht [7] [9] [11]. Datenverlust, Hardware und Software Störungen sind die Folge solcher aggressiver Angriffe. Natürlich hat das auch einen erhöhten Stromverbrauch zu folge und natürlich ist damit ein großer und aufwendiger Prozess von Pflege, Schutz und Reparatur dieser Systeme verbunden.

Durch die in Kapitel 3 genannten Gründe ist die Blogosphäre vor allem wegen des viralen Effekts eine gute Möglichkeit seine Werbung zu verbreiten. Genauso aber auch kann man politische Informationen oder einfach auch Unfug sehr gut dort verbreiten.

Eine sehr weit verbreitete Form von Spam email-Spam. Diese kann man mitlerweile sehr gut mit „Teergruben“ bekämpfen. Durch verlangsamen seiner Emailseundungen bringt man den Rechner des Spamers durch Überlastung zum absturz. Das ist aber ein relativ aggressives Mittel gegen Spam allerdings auch sehr wirksam. Im Prinzip wird die Tatsache ausgenutzt das jeder Rechner eine Beschränkte Anzahl von Ports zur Verfügung hat. Durch das verlangsamen des Mailversandes muss der Spammer immer mehr Ports offen halten bis das Maximum erreicht ist und der Rechner abstürzt [11]. Doch dieses und andere Erscheinungen von Spams sollen hier nicht weiter besprochen werden. Wir wollen im besonderen Spams in Blogs besprechen.

4.2 Spam in Blogs

In Blogs kommen einige Arten von Spam vor. Zum einen seien Splogs erwähnt. Dabei handelt es sich um Sinnfreie Webseiten die im Prinzip zwar auch wie Blogs aussehen aber keine Blogs sind. Sie dienen lediglich dem Sinn Suchmaschinen anzulocken und so das Ranking dieser Seite hoch zu setzen. Damit sind meistens Finanzielle Interessen verbunden. In Form von höheren Einnahmen von Gebühren für auf die Seite Platzierte Werbung.

Eine Andere Art von Spam in Zusammenhang mit Blogs ist der Missbrauchs der Trackback Technologie. So wird wahllos ein Trackback überall eingesetzt ohne das der geringste Bezug zu den Artikeln besteht zu dem man ein Trackback gesetzt hat. Wieder ist das einzige Ziel dabei die eigene Seite möglich gut zu verlinken um damit ein hohes Ranking zu bekommen.

Spam im engen Sinne gerade bei Blogs kommt als Kommentar-Spam vor. Dabei wird manuell oder immer auch mehr automatisch durch Bot-Software, das ist ein programm das autonom ganz bestimmte in der Regel sich immer wiederholende Aufgaben erledingt, und diese werden also wahllos auf allen Blogs angesetzt die Kommentare erlauben und schreiben dort ein harmlos klingendes Kommentar rein. Dem Kommentar ist dann alledings meistens ein Link zu einer vermeintlich interessanten Seite beigefügt. Natürlich führt dieser Link dann nicht zu einer Seite die Thematisch etwas mit dem Artikel zu tun hat sondern zu einer Seite dessen Ranking erhöht werden soll.

4.3 Schwachstellen sozialer Software

So wie in der Realität ist leider auch in Web 2.0 die illegale Energie des Menschen und sein Einfallsreichtum soziale Systeme die der Allgemeinheit zu gute kommen sollen für seine eigenen Ziele ein zu setzen keine Grenzen gesetzt.

Um diesem Missbrauch vorzubeugen gibt es viele Möglichkeiten. Sie haben allerdings auch einige Nachteile die man in Kauf nehmen muss will man sich gegen Spam Schützen.

Einer der einfachsten Lösungen wäre es grundsätzlich keine Kommentare im Blog zuzulassen. Damit würde man sich aber eines wichtigen und wesentlichen Merkmals der Blogs berauben. Eine Kommunikation mit den Besuchern wird sehr schwer und man würde dem Gedanken einer offenen Diskussion zuwiderhandeln.

Dies könnte man wiederrum abmildern wenn man jeden einzelnen Besucher manuell freischalten würde zu dem man vertrauen hat. Das wäre allerdings sehr aufwendig und nicht besonders effizient. Alternativ könnte man die Besucher sich als Mitglieder in einer Mitgliederdatenbank eintragen lasen und diese wären dann berechtigt Kommentare zu schreiben. Dieses Vorgehen hätte aber den Nachteil dass die Besucher sich Registrieren müssten und das ist in der Regel eine Hürde die viele Benutzer nicht nehmen wollen.

Ein ganz anderer Ansatz wäre es bestimmte Schlüsselwörter zu verbieten. Also sowas wie „@“ oder „www“. Das sind leider Versuche die zum Scheitern verurteilt sind. Der Ideenreichtum ist schier unvorstellbar sodass man statt „@“ auch „at“ und statt „www“ könnte man „vv vv vv“ schreiben. Sicherlich könnte man dann auch diese Schreibweisen unterbinden aber das würde auch wieder einen sehr hohen Arbeitsaufwand nach sich ziehen und ein weiteres Problem ist das wenn man bestimmte Zeichen verbietet kann das auch zu starken Beeinträchtigung der Texte Führen. Will man z.B. das Werben für bestimmte Produkte unterbinden und Begriffe wie „Coca Cola“ oder „Viagra“ verbieten, wie soll man überhaupt darüber schreiben ob im positiven oder im negativen ?

Es gibt ein Attribut „nofollow“ das viele Suchmaschinen anerkennen. Setzt man das automatisch in den HTML Code an alle Hyperlinks die in den Kommentaren sich befinden werden diese Links bei den Suchmaschinen nicht zur Berechnung für die Linkpopularität herangezogen. Leider ist es kein Standard.

Eine bessere Möglichkeit bietet das Überprüfen des Users ob es ein Mensch ist oder ein Programm und ob es dieser Person wirklich gibt. Ersteres wir überprüft mit CAPTCHAS, das zweite wird meistens mit der Überprüfung der Emailadresse sicher gestellt. CAPTCHAS sind eine Art vollautomatischer Turing-Test bei der es darum geht eine Mensch Computer Unterscheidung zu treffen. Es werden z.B. Grafiken erstellt in denen Zahlen oder Buchstaben zu sehen sind. Für Menschen relativ einfach für einen Computer recht schwer. Diese Müssen dann in ein Eingabefeld eingegeben werden.

Dies sind nur einige Möglichkeiten wie man Spams vermeiden oder verringern kann. Aber entweder sind sie mit hohen Einschränkungen des Blogs verbunden oder mit hohem manuellem Aufwand des Betreibers. Wie kann man eine wirksame Spambekämpfung leisten und die Nachteile der oben erwähnten Methoden umgehen?

4.4 Schwachstellen schließen und Spams verhindern/bekämpfen

Zum einen könnte man die Oben genannten Ideen versuchen etwas weiter zu verfeinern. So könnte man aus der Idee das man bestimmte Zeichen, Wörter verbietet in einem ausführlichen, komplexeren System Zusammenfassen und daraus einen regelbasierten filter schreiben.

Wenn der Betreff das Wort „$$$“ enthält, lösche die Nachricht Wenn der Text das Wort „viagra“ oder „vi@gra“ oder „wiagra“ enthält, lösche die Nachricht

Nun würde das zwar ein wenig bessere Ergebnisse liefern aber die genannten Nachteile bleiben nach wie vor und eine Spamerkennung über 50% ist mit Regelbasierten Filtern eh nicht zu erreichen. Die Überlistung solcher Regelbasierter Filter ist recht einfach und der Aufwand diese auf den Aktuellen Stand zu halten bleibt nach wie vor.

Ein weitverbreiteter Spamfilter ist auch das Führen von Blacklist und Whitelists. Darin werden Potenzielle Spamabsender gespeichert. Sollte also von solch einer Person eine Nachricht kommen wird diese ohne weiteres gelöscht. Umgekehrt stehen in einer Whitelist solche Personen von denen man keine Spams erwartet und dessen Nachrichten auf keinen Fall gelöscht werden sollen [11].

Spammer verwenden aber in der Regel fast immer gefälschte Namen oder noch schlimmer sie benutzen die Namen oder Identität anderer Personen. Solche Listen werden im Laufe der Zeit extrem groß und sind nur noch schwer zu pflegen. Sie werden aber oft in Verbindung mit anderen Filtermethoden benutz um die Vorteile solcher Listen zu nutzen. Einige werden weiter unten kurz besprochen. Sie Stammen alle aus dem Bereich des Maschinellen Lernens. Diese wären:

• Entscheidungsbäume • K-Nearest-Neighbour • Naive Bayes-Filter-Methode • Support Vector Machines (SVM)

Abbildung 4.1: Entscheidungsbaum [17]

Bei einem Entscheidungsbaum wird, wie der Name es schon sagt, ein Baum aus der Lernmenge Konstruiert. Bei den jeweiligen Knoten Werden die Attribute auf ein bestimmtes Merkmal hin überprüft. In der oberen Abbildung ist die Tränenproduktion ein wichtiges Merkmal und die Attribute reduziert und normal sind zwei verschiedene Ausprägungen dieses Merkmals. Eine Methode die sich nicht sonderlich von der regelbasierten Filtermethode Unterscheidet. Ist aber wesentlich einfacher handzuhaben und durch die Graphische Darstellung leicht nachzuvollziehen. Eine Gefahr bei Entscheidungsbäumen ist das bei zunehmender Komplexität die Klassifikationsgüte abnimmt. Gegen diese Überanpassung kann man aber ein Verfahren, das Pruning einsetzen. Ein Verfahren bei dem man den zu komplex gewordenen baum beschneidet. In der Abbildung 4.1 wird mit Hilfe des Entscheidungsbaumes versucht, basierend auf den entsprechenden Lerndaten, zu entscheiden ob und wenn ja welche Art von Kontaktlinse empfohlen werden soll.

Abbildung 4.2: k-Nearest-Neighbour [17]

Bei der k-Nearest-Neighbour Methode entscheidet die Entfernung einer neuen zu klassifizierenden Information zu seinen Nachbarn. In unserem konkreten Fall also ob es sich um Spam handelt oder nicht. Kommt nun ein neues Merkmal hinzu würde die Entfernung zu k Nachbarn berechnet werden und anhand der Nähe oder Entfernung zu bereits vorher klassifizierten Instanzen würde dieser neue Merkmal den k nächten Nachbarn zugerechnet werden. Eine sehr simple Methode die zu guten Ergebnissen führt. Der Nachteil dieser Methode ist, da mit Distanzen gerechnet wird, müssen die Merkmale erst in nummerische umgerechnet werden. Was aufwendig sein kann. Darüber hinaus ist das eine Methode das auf Ausreißer sehr sensibel reagiert [11] [17].

Naive Bayes-Filter-Methode:

Abbildung 4.3: Naive-Bayes[16]

In der Abbildung 4.3 sind zwei Urnen mit 10 Kugeln zu sehen. Mit unterschiedlicher Anzahl von weißen und roten Kugeln jeweils. Die Wahrscheinlichkeit dass eine beliebige Kugel aus der Urne A oder Urne B gezogen wird sei gleich groß. Wird nun eine rote Kugel gezogen, das A Priori Wissen, dann ist hier die Frage mit welcher Wahrscheinlichkeit wurde diese Kugel aus der Urne A gezogen. Das würde man durch die neben der Graphik stehende Formel leicht ausrechnen können. Sei also A das Ereignis das die gezogene Kugel aus der Urne A gezogen sei und R das Ereignis das die gezogene Kugel eine rote Kugel ist. Weiterhin sei A Priori die wahrscheinlich das die gezogene Kugel aus der Urne A ist gleich der Wahrscheinlichkeit das es aus der Urne B gezogen wurde P(A) = P (B) = ½. Unter der Bedingung das die Rote Kugel aus der Urne A gezogen wurde gilt P(R|A) = 7/10 und das es aus der Urne B gezogen wurde P(R|B) = 1/10. Daraus ergibt sich die Totale Wahrscheinlichkeit mit P(A) * P(R|A) + P(B) * P(R|B). Damit sind alle erforderlichen Parameter vorhanden um die Formel auszurechnen [16].

Beim Naïve-Bayes handelt es sich um eine statistische Methode. Hier nimmt man an das die Attribute zum einen gleich gewichtet sind und zum anderen von einander unabhängig sind. Leider stimmen die Annahmen in der Realität nie und trotzdem funktioniert dieses Verfahren sehr gut und liefert gute Ergebnisse. Es gibt die Wahrscheinlichkeit für das Auftreten einer Klasse wenn die Instanzen gegeben sind. Ein weiteres Problem dieser Methode ist auch das zu viele redundante Attribute Fehler verursachen und des weiteren sollte man wissen das viele nummerische Werte in der Regel nicht normal verteilt sind [11] [17].

Abbildung 4.4: Super Vector Machines (SVM) [17]

Super Vector Machines sind eine Erweiterung der linearen Klassifikationsmethoden. Sie ordnet wie die oben genannten Methoden auch die Instanzen anhand ihrer Merkmalsausprägungen in einen Merkmalsraum. So wie in der Abbildung 4.4 dargestellt in eine rechte und eine linke Seite. Da das Problem bei linearen Klassifikatoren darin besteht das sie keine nicht-linearen Klassengrenzen modellieren können müssen die Attribute in einen neuen Merkmalsraum transformiert werden der aus Kombinationen der Attributwerte besteht. Ähnlich wie bei Kurvenableitungen sieht nun eine Linie die in dem neuen Raum eine gerade beschreibt, im ursprünglichen Raum nicht wie eine gerade aus. Das gute bei dieser Methode ist das es nicht so Rechenaufwendig ist und eine Überadaption an die Trainingsdaten ist hier durch das Vorhandensein der Support Vektoren gebannt. Wie in der Abbildung 4.4 zu sehen ist nur ihre Entfernung zu der hyper-Ebene entscheidend. Diese muss einfach maximal zu den Support Vectoren sein um eine möglichst maximale Trennung der der jeweiligen Instanzen zu gewehrleisten.

Mit diesen oben genannten Methoden haben wir eine gute Möglichkeit automatisch Spams zu filtern und so der Spamgefahr zu begegnen. Tatsächlich benutze viele Blogsoftware Systeme Tools wie Akismet die genau mit diesen oder ähnlichen Filtern arbeiten. Meistens auch in Kombination mit einander und das mit sehr gutem Erfolg.

Zwei der wesentlichsten Nachteile des Maschinellen Lernens sind zum einen eine ausreichende Menge an Trainingsdaten und Testdaten zu finden und zum anderen die möglichen false positives und false negatives. Also wenn die Algorithmen eine Information die kein Spam ist als Spam Klassifizieren und Informationen die Spam sind nicht als Spam Kenzeichnen.

Trotz dieser Nachteile sind die automatischen Spamfilter sehr gut und erkennen bis zu über 95% aller Spams richtig als Spam. Es besteht Grund zum Optimismus da sich diese Verfahren noch am Anfang befinden und es ständig Weiterentwicklungen und Verbesserungen gibt. Nicht außer Acht lassen sollte man aber weiterhin das die Administratoren und User durch verantwortungsvolles Handeln und durch das Beachten von allen Sicherheitsmaßnahmen einiges dazu beitragen können das Web Spamfrei zu halten.

5. Fazit

5.1 Zusammenfassung und Ausblick

In dieser Ausarbeitung wurde die Entwicklung des Web 2.0 kurz dargestellt und die damit einhergehenden Faktoren. Immer mehr Menschen benutzen das Internet und die noch anfänglichen Berührungsängste und Hindernisse wurden und werden immer weiter abgebaut. Das Web entwickelt sich dabei immer weiter zum virtuellen Spiegelbild der realen Gesellschaft. Mit allen Ihren Vorteilen und Nachteilen.

Immer mehr Menschen entwickeln dabei eine bessere Medienkompetenz. Die Anfängliche Euphorie und Überbewertung des Internet weicht einer sachlichen und realistischen Sichtweise. Die geplatzte Internetblase ist ein gutes Beispiel dafür. Dabei werden nun sowohl die Changen als auch die Gefahren immer deutlicher. Alle Fehler ob von Maschine oder Mensch ob Absicht oder Versehen in der virtuellen Welt des Internet können Verheerende Folgen in der realen Welt haben.

5.2 Prognose zur Spambekämpfung bzw. Vermeidung

Sicherlich ist durch die Zunahme der Benutzer auch der Kreis der potenziellen Personen, die Missbrauch betreiben gestiegen und leider bestätigen dies momentan auch die Zahlen. So wie in der realen Welt illegale Aktivitäten im Laufe der Menschheitsgeschichte einigermaßen in den Griff genommen werden konnten wird es durch neue Technologien, zu denen auch weiter verbesserte Spamfilter sicherlich gehören, in Verbindung mit der strengeren gesetzlichen Regelungen, die sicherlich noch kommen werden je wichtiger das Internet wird und je höhe die Kosten und Risiken durch Missbrauch werden, es auch gelingen den Missbrauch und insbesondere das Spammen in den Griff zu bekommen. Doch so wie die Kriminellen Energien in der realen Welt nicht vollkommen unterbunden werden können wird das wohl auch im Internet nicht gelingen. Und so wie jede Erhöhung der Sicherheit in der realen Welt durch das einbüßen von Freiheiten erkauft wird da mehr Kontrolle stattfindet ist dies auch im Internet nicht anders. Während auf der einen Seite also der Missbrauch des Internets immer weiter voran streitet stellt sich die Frage wie viel Kontrolle der erlaubt sein sollte, wie viel Kontrolle ist nötig um das System nicht zu gefährden. Zu viel Kontrolle kann in den falschen Händen auch zum Verlust jeglicher Freiheit führen.

Es ist sicherlich nur eine Frage des politischen und wirtschaftlichen Willens ob und wie man so etwas durchsetzen will. Eine Balance zwischen Sicherheit und Informationsfreiheit. Die Werkzeuge sind sicherlich für eine totale Kontrolle theoretisch vorhanden und werden teilweise in erschreckendere weise für auch eingesetzt. Siehe China, Iran, Türkei, Nord Korea etc. Aber sicherlich nicht im Sinne von Schutz der User sondern eher der reinen Kontrolle der User durch den Staat. Eine Vorgehensweise die in einem demokratischen System in der Form nicht denkbar ist.

Wir befinden uns denke ich aber noch in den Anfängen einer noch lange andauernden Entwicklung in der sich sowohl die Benutzer noch stark ändern werden als auch die Technologien. Bis dahin wird es wohl beim Aufrüsten und dem andauernden Katz-und-Maus Spiel bleiben zwischen den Spammern und denen die das Spammen bekämpfen. Zwischen denen die absolute „Narrenfreiheit“ im Internet haben wollen und denen die die totale Kontrolle ausüben wollen. Eine Entwicklung die nicht nur durch Technologie entschieden werden kann sondern auch durch unseren Umgang mit dieser Technologie.

6. Literaturverzeichnis

[1] Rainer Bartel : Blogs für alle, Das Weblog-Kompendium, Chip Edition (2008)

[2] Vitaly Friedman : Praxisbuch Web 2.0, Galileo Computing (2007)

[3] Tom Alby : Web 2.0, Hanser (2008)

[4] Sylvia Ainetter : Blogs, Literarische Aspekte eines neuen Mediums, LIT (2006)

[5] Gernot Gehrke : Web 2.0, Schlagwort oder Megatrends, medienkompetenz NRW (2007)

[6] Lars Gräser, Monika Pohlschmidt : Praxis Web 2.0, medienkompetenz NRW (2007)

[7] Melanie Huber : Kommunikation im Web 2.0, UVK (2008)

[8] Astrid Haarland, Markus Christian Koch : Generation Blogger, mitp (2004)

[9] Klaus Eck : Corporate Blogs, unternehmen im OnlineDialog zum Kunden, orell füssli (2007)

[10] Arnold Picot, Tim Fischer : Weblogs professionell, dpunkt (2006)

[11] Kai Blankenhorn : Spam-Filterung mittels Maschinellem Lernen, (Diplomarbeit) Fachhochschule Furtwangen (2002)

[12] Andreas Beck : Verschiedene Arten von Spam und deren Bekämpfung, (Bakkalaureatsarbeit) Wirtschaftsuniversität Wien (2006)

[13] Andreas Hotho, Beate Krause, Christoph Schmitz, Gerd Stumme : The Anti-Social Tagger, Detecting Spam in Social Bookmarking Systems, (Paper) Knowledge & Data Engineering Group University of Kassel

[14] Pranam Kolari, Akshay Java, Tim Finin, Tim Oates, Anupam Joshi : Detecting Spam Blogs, A Machine Learning Approach, (Paper) University of Maryland Baltimore County

[15] Christian Maaß, Gotthard Pietsch : Web 2.0 als Mythos, Symbol und Erwartung, Diskussionsbeiträge Fachbereich Wirtschaftswissenschaft FernUniversität in Hagen (2007)

[16] Weitere Quellen: wikipedia.de, google.com, scholar.google.de, technorati.com u.v.a.

[17] Ian H. Witten, Eibe Frank : Data Mining, Hanser (2001)