Exploring Register Variation on Reddit: a Multi-Dimensional Study
Total Page:16
File Type:pdf, Size:1020Kb
Exploring Register Variation on Reddit: A multi-dimensional study Aatu Liimatta Pro gradu English Philology Department of Modern Languages University of Helsinki April 2016 2 Tiedekunta/Osasto – Fakultet/Sektion – Faculty Laitos – Institution – Department Humanistinen tiedekunta Nykykielten laitos Tekijä – Författare – Author Aatu Liimatta Työn nimi – Arbetets titel – Title Exploring Register Variation on Reddit: A multi-dimensional study Oppiaine – Läroämne – Subject Englantilainen filologia Työn laji – Arbetets art – Level Aika – Datum – Month and year Sivumäärä– Sidoantal – Number of pages Pro gradu -tutkielma Huhtikuu 2016 77 Tiivistelmä – Referat – Abstract Internetin kielen tutkimus on lisääntynyt voimakkaasti viime vuosina, mutta internetgenret ovat silti edelleen laajalti tutkimattomia. Vaikka sosiaalisen median alustat kuten Twitter ja Facebook ovat saaneet jonkin verran huomiota, monet sivustot ja näkökulmat ovat vielä käymättä läpi. Tutkin pro gradussani Redditin sisäistä rekisterivaihtelua käyttämällä Douglas Biberin kehittämää multidimensionaalista menetelmää. Tavoitteenani on arvioida Biberin menetelmän soveltuvuutta Redditin rekisteritutkimuksen välineenä ja selvittää, millaisia rekisterivaihtelun ulottuvuuksia Redditissä on. Rekisterillä tarkoitetaan Biberin määritelmän mukaisesti tilanteen vaatimusten perusteella valittua kielen varieteettia. Tilanteen vaatimuksiin sisältyvät mm. tekstin tarkoitus, vuorovaikutteisuus, olosuhteet tai osanottajien välinen suhde. Douglas Biberin multidimensionaalinen menetelmä on määrällis-laadullinen tapa tutkia tekstikorpuksen sisällä tekstien välillä esiintyvää rekisterivaihtelua. Kustakin tekstistä lasketaan esiintymistaajuudet suurelle määrälle kielenpiirteitä. Tämän jälkeen tilastollisia menetelmiä (tarkemmin sanottuna faktorianalyysiä) käyttämällä löydetään piirteitä, joiden taajuudet kasvavat ja pienenevät yhdessä. Tällaisilla yhteen kuuluvilla piirteillä tulkitaan olevan yhteinen kommunikatiivinen funktio eli kommunikatiivinen syy, jonka vuoksi niillä on tapana esiintyä yhdessä, ja niiden määrässä havaittavien muutosten katsotaan ilmentävän tekstien erilaista sijoittumista piirreryhmien taustalla olevilla rekisteriulottuvuuksilla. Näin löydetyt rekisteriulottuvuudet nimetään lopuksi niiden kommunikatiivisten funktioiden mukaan. Reddit on pääasiassa englanninkielinen sosiaalisen median sivusto, joka koostuu tuhansista niin kutsutuista subredditeistä. Kuka tahansa voi perustaa uuden subredditin, joten Redditin subredditit käsittelevät kaikkia kuviteltavissa olevia aiheita ja teemoja eri näkökulmista. Käsittelen tutkimuksessani 37 subredditiä, joista keräsin itse kirjoittamallani tietokoneohjelmalla automaattisesti viestejä ja niiden kommentit yhden kuukauden aikana kesäkuussa 2015. Keräämäni aineisto sisältää 34 402 viestiä kommentteineen. Pääasiassa keskityin kuitenkin viesteihin, joiden kokonaissanamäärä oli 400 tai suurempi. Tällaisia viestejä aineistossani on 10 594 kappaletta, ja niiden yhteissanamäärä on lähes 17,5 miljoonaa sanaa. Tutkimukseni perusteella tutkimissani subredditeissä on kolme yleistä rekisteriulottuvuutta, joilla viestit liikkuvat: “henkilöfokus tai faktuaalinen fokus”, “informatiivinen tai osallistuva tyyli” ja “nykyhetken abstrakti tai menneen ajan narratiivinen fokus”. Näistä ainakin toinen ja kolmas ulottuvuus vastaavat hyvin Douglas Biberin myöhemmin esittämiä universaaleja rekisteriulottuvuuksia. Multidimensionaalinen menetelmä soveltuu Redditin (ja siten mahdollisesti muunkin sosiaalisen median) rekisteritutkimuksen välineeksi, mutta hienojakoisempi rekisterivaihtelun tarkastelu vaatinee menetelmän edelleen kehittelyä, sillä esimerkiksi yksittäisiä kommentteja tarkastellessa tekstin lyhyys tekee normalisoiduista taajuuksista nopeasti merkityksettömiä. Avainsanat – Nyckelord – Keywords Reddit, sosiaalinen media, rekisteri, variaatio, faktorianalyysi Säilytyspaikka – Förvaringställe – Where deposited Helsingin yliopiston kirjasto Muita tietoja – Övriga uppgifter – Additional information 3 Contents 1. Introduction................................................................................................................................... 4 2. Methods........................................................................................................................................... 6 2.1 The multi-dimensional method.....................................................................................6 2.2 Definitions.............................................................................................................................. 9 2.3 Research questions.......................................................................................................... 10 3. Data................................................................................................................................................ 10 3.1 Reddit.................................................................................................................................... 11 3.1.1 Subreddits.................................................................................................................. 11 3.1.2 Posting......................................................................................................................... 12 3.1.3 Browsing..................................................................................................................... 12 3.1.4 Commenting.............................................................................................................. 13 3.1.5 The language of Reddit.........................................................................................14 3.2 Data collection................................................................................................................... 16 3.3 Preparing the data............................................................................................................ 19 3.3.1 GrabbitCleaner......................................................................................................... 19 3.3.2 GrabbitTagger........................................................................................................... 21 3.3.3 GrabbitCounter........................................................................................................ 22 3.4 Overview of the data....................................................................................................... 24 4. Analysis......................................................................................................................................... 31 4.1 Issues with type/token ratio........................................................................................31 4.2 Factor analysis................................................................................................................... 33 4.3 Factors................................................................................................................................... 35 4.4 Factor scores....................................................................................................................... 38 4.5 Interpretation of the factors.........................................................................................39 4.5.1 Factor 2........................................................................................................................ 40 4.5.2 Factor 3........................................................................................................................ 42 4.5.3 Factor 1........................................................................................................................ 44 4.6 Subreddits in the multi-dimensional register space..........................................45 4.6.1 Dimensions 2 and 3................................................................................................ 45 4.6.2 Dimension 1.............................................................................................................. 55 5. Discussion.................................................................................................................................... 62 6. Conclusion................................................................................................................................... 67 References........................................................................................................................................ 70 Appendix 1: Subreddit list and descriptions......................................................................72 Appendix 2: Full factor solution..............................................................................................77 4 1. Introduction Over the last two decades, the internet has dramatically changed the nature of communication at an ever-accelerating pace. On the web, new genres and text types are created and become widespread. These include, but are not limited to, things such as personal blogs, informational blogs, discussion forums, how-to and instruction websites, and encyclopedia articles (such as Wikipedia), but also various other kinds of content (see e.g. Biber & Egbert forthcoming). These new genres naturally effect new ranges of registers as their users navigate the production circumstances of the web environment and become increasingly well versed in what is and what is not the easiest or most proper way to write in a certain web context. Social media in particular is a new way of communicating made possible only