Analysis of New Trends in the Web from a Network Perspective
Total Page:16
File Type:pdf, Size:1020Kb
Technische Universitat¨ Berlin Fakultat¨ fur¨ Elektrotechnik und Informatik Lehrstuhl fur¨ Intelligente Netze und Management Verteilter Systeme Analysis of New Trends in the Web from a Network Perspective vorgelegt von Fabian Schneider (Dipl. Inf.) von der Fakult¨at IV – Elektrotechnik und Informatik der Technischen Universit¨at Berlin zur Erlangung der akademischen Grades Doktor der Naturwissenschaften (Dr. rer. nat.) genehmigte Dissertation Promotionsausschuss: Vorsitzende: Prof. Dr. Ina Schieferdecker, TU Berlin Berichtende: Prof. Anja Feldmann, Ph. D., TU Berlin Berichtender: Prof. Dr. habil. Odej Kao, TU Berlin Berichtender: Walter Willinger, Ph. D., AT&T Labs–Research Tag der wissenschaftlichen Aussprache: 30. M¨arz 2010 Berlin 2010 D83 Ich versichere von Eides statt, dass ich diese Dissertation selbst¨andig verfasst und nur die angegebenen Quellen und Hilfsmittel verwendet habe. Datum Fabian Schneider i/ix Abstract Over the last five years, several trends have changed the landscape of the World Wide Web, forming the new “Web 2.0”. The advent of user generated content (blogs and wikis), the popularity of multimedia (e. g., YouTube and MySpace), and the penetration of Google’s services (maps, mail, etc.) are commonly noticeable. In particular, the recent popularity of Online Social Networks (OSNs, e. g., Facebook and LinkedIn) has caused a fundamental change in how the Internet is used. For example, certain OSN users are only using the OSN internal messaging instead of email. This motivates us to examine the usage of these new Web trends and determine their impact on the network. First, we present a traffic study of several Web 2.0 applications including Google Maps, modern Web-based email, and social networking Websites, and compare their traffic characteristics with the ambient HTTP traffic. We highlight the key differ- ences between Web 2.0 traffic and all HTTP traffic. As such, our work elucidates the changing face of one of the most popular applications on the Internet: The World Wide Web. We find that “Web 2.0” applications unleash new HTTP traffic patterns which differ from the conventional HTTP request-response model. In particular, asynchronous pre-fetching of data in order to provide a smooth Web browsing expe- rience and richer HTTP payloads (e. g., JavaScript libraries) of Web 2.0 applications induce larger, heavier, and more bursty traffic on the underlying networks. Next, we focus on Online Social Networks. OSNs have already attracted more than half a billion users. However, our understanding of which OSN features attract and keep the attention of these users is poor. Studies thus far have relied on surveys or interviews of OSN users or focused on static properties, e. g., the friendship graph, gathered via sampled crawls. In this thesis, we study how users actually interact with OSNs by extracting anonymized clickstreams from passively monitored network traffic. Our characterization of user interactions within the OSN for four different OSNs (Facebook, LinkedIn, Hi5, and StudiVZ) focuses on feature popularity, session characteristics, and the dynamics within OSN sessions. We find, for example, that users commonly spend more than half an hour interacting with the OSN. Yet, the byte contributions per OSN session are relatively small. Subsequently, we look into mobile hand-held device (MHD) usage that is observed when such devices are used at home. Our characterization of the traffic shows that mobile Apple devices (i. e., iPhones and iPods) are, by a huge margin, the most commonly used MHDs and account for most of the traffic. We find that MHD traffic is dominated by multimedia content and downloads of mobile applications. Finally, inspired by the finding that Network News Transport Protocol (NNTP) traf- fic is responsible for up to 5 % of residential network traffic we investigate today’s Usenet usage. We find that NNTP is intensively used by a small fraction of the residential broadband lines that we study and that almost all traffic is originated Thesis: “Analysis of New Trends in the Web from a Network Perspective” ii/ix by NNTP servers that require a monthly fee subscription. The accessed content re- sembles what one might expect from file-sharing systems—archives and multimedia files. Accordingly, it appears that NNTP is used by some as a high performance alternative to traditional P2P file-sharing options such as eDonkey or BitTorrent. The analyses of this thesis are based on anonymized packet level recordings of real Internet traffic collected at different vantage points and from different user popu- lations. From these recordings we extract traces of protocol events and activities (e. g., new TCP connections or application layer requests and responses). Next, all traffic related to a new trend is identified and then compared to the overall traffic. This allows us to predict the impact on the traffic in case these trends increase or decrease in popularity. Packet capture in high speed networks is challenging. Limitations (e. g., bus or memory bandwidth, OS capturing stack) prevent comprehensive packet capture in these environments. The endeavor to perform packet capture with commodity hard- ware requires us to identify and then overcome some of the performance limitations. Knowing the limitations, we propose several possibilities to split or reduce the ana- lysis load. Thesis: “Analysis of New Trends in the Web from a Network Perspective” iii/ix Zusammenfassung In den letzten funf¨ Jahren haben verschiedene Trends die Landschaft des World Wi- de Web hin zum Web 2.0“ ver¨andert. Das Aufkommen von Inhalten, die von den ” Benutzern selbst erzeugt werden (engl. user generated content, z. B. in Blogs und Wikis), die Beliebtheit von Videos und Musik (z. B. in YouTube und MySpace) und die Verbreitung von Googles Diensten (z. B. Google Maps oder Google Mail) sind allgemein bemerkbar. Gerade die aktuell sehr große Beliebtheit sozialer Netze im Internet (engl. Online Social Networks, OSN), wie Facebook oder StudiVZ, verur- sacht einen grundlegenden Wechsel in der Art, wie das Internet genutzt wird. Zum Beispiel benutzen einige OSN-Nutzer nur noch das OSN-interne Nachrichten-System anstatt E-Mail. Dies motiviert uns, die Nutzung dieser Trends zu untersuchen und deren Auswirkungen auf den Netzverkehr zu bestimmen. Wir beginnen mit einer Untersuchung verschiedener Web-2.0-Anwendungen und ver- gleichen die Charakteristiken des Web-2.0-Verkehrs mit allgemeinem HTTP-Ver- kehr. Als Anwendungen haben wir Google Maps, zwei Web-basierte E-Mail Diens- te und ein OSN gew¨ahlt, die AJAX nutzen. Der Vergleich mit dem umgebenden HTTP-Verkehr hebt die Ver¨anderung der Nutzung eines der popul¨arsten Protokol- le des Internet, n¨amlich des World Wide Web, hervor. Unsere Ergebnisse zeigen, dass Web-2.0-Anwendungen neue HTTP-Verkehrsstrukturen verursachen, die sich vom konventionellem HTTP-Anfrage-Antwort-Modell unterscheiden. Asynchrones Laden von Daten, die sp¨ater nur vielleicht ben¨otigt werden, erlaubt eine flussige¨ Benutzung der Dienste. Dies wird durch kleine JavaScript-Programme erreicht, die im Browser ausgefuhrt¨ werden. Verbindungen von AJAX-Anwendungen ubertragen¨ mehr Daten, dauern l¨anger und verursachen ¨ofter h¨ohere Verkehrsspitzen. Danach untersuchen wir OSNs, motiviert durch die große Anzahl – eine halbe Mil- liarde – ihrer Benutzer. Trotz der hohen Nutzerzahlen ist unser Wissen daruber,¨ welche OSN-Funktionen Benutzer faszinieren und deren Interesse erhalten, sehr be- schr¨ankt. Bislang waren Studien hierzu auf Umfragen und Befragungen beschr¨ankt oder haben sich auf statistische Eigenschaften wie Freundschaftsgraphen bezogen. In dieser Arbeit ermitteln wir die tats¨achliche Nutzung von OSNs durch Extraktion der HTTP-Anfrage- und -Antwortsequenzen aus passiven Aufzeichnungen des Netz- verkehrs. Wir analysieren fur¨ vier OSNs (Facebook, LinkendIn, Hi5 und StudiVZ) die Beliebtheit ihrer OSN-Funktionen, die Eigenschaften der OSN-Sitzungen, sowie die Aktivit¨at innerhalb von Sitzungen. Unsere Ergebnisse zeigen, dass Benutzer un- gef¨ahr eine halbe Stunde online sind, aber nur wenig Datenvolumen verursachen. Daraufhin analysieren wir die Nutzung mobiler Ger¨ate (z. B. des iPhones oder des Blackberrys), wenn diese zu Hause mittels DSL benutzt werden. In unseren Daten sehen wir fast ausschließlich iPhones und iPods, die auch fur¨ einen Großteil des Verkehrsvolumens verantwortlich sind. Die von diesen Ger¨aten herunter geladenen Inhalte sind haupts¨achlich Multimedia-Dateien oder mobile Anwendungen. Thesis: “Analysis of New Trends in the Web from a Network Perspective” iv/ix 1 Obwohl NNTP nur von einer kleinen Zahl Benutzer verwendet wird, werden daruber¨ bis zu 5 % des gesamten Verkehrsvolumens in Aggregationsnetzen von Breitband- kunden ubertragen.¨ Motiviert durch diese Erkenntnis wenden wir uns im Folgenden dem Usenet zu. Die meisten Verbindungen gehen zu Servern, die eine monatliche Gebuhr¨ fur¨ die Nutzung erheben. Des Weiteren sind 99 % der ubertragenen¨ Inhalte typische File-Sharing-Inhalte wie Archive und Multimedia-Dateien. Es scheint, dass NNTP eine leistungsf¨ahige Alternative zu bisherigen P2P-File-Sharing-Optionen wie BitTorrent oder eDonkey ist. Unsere Analysen basieren auf anonymisierten Paketaufzeichnungen realen Internet- verkehrs an verschiedenen Orten und verschiedener Benutzergruppen. Aus diesen Aufzeichnungen extrahieren wir Aktionen der Anwendungsprotokollebene, z. B. Auf- bau einer neuen TCP-Verbindung oder Anfrage eines Objekts. Danach muss der gesamte Verkehr, der zu dem gerade untersuchten Trend geh¨ort, bestimmt werden, um diesen