Detektering av misstänkt grooming Detektering av misstänkt Ewa Gärdström och Devran Öncü Datateknik 15hp Halmstad 2015-07-23 IT-Forensik och Informationssäkerhet IT-Forensik

EXAMENSARBETE

Detektering av misstänkt grooming

Kandidatuppsats 2015 Juni

Författare: Devran Öncü & Ewa Gärdström

Handledare: Eric Järpe Examinator: Mattias Wecksten

Sektionen för informationsvetenskap, data- och elektroteknik

Högskolan i Halmstad

Box 823, 301 18 HALMSTAD

© Copyright Devran Öncü & Ewa Gärdström 2015. All rights reserved Kandidatuppsats Sektionen för informationsvetenskap, data- och elektroteknik Högskolan i Halmstad

II

Förord

Vi vill här ta tillfället i akt och tacka alla de personer som har bidragit vid examensarbetet.

Först och främst vill vi tacka vår handledare Eric Järpe för ett stort tålamod, hans goda samarbetsvilja och för alla matematiska tips.

Vi vill även tacka Mats Andersson för att han tog sig tiden att träffa oss för en intervju och delade med sig av sina erfarenheter rörande grooming och sitt jobb.

Och slutligen ett tack till Per-Åke Irskog som ställde upp på ett möte där han delade med sig av sina juridiska kunskaper kring brottet grooming och den svenska lagstiftningen kring brottet.

Ewa Gärdström Devran Öncu

III

IV

Sammanfattning

Examensarbetets primära innehåll behandlar detektering av grooming via experiment på två olika program. Experimenten utgår från två olika ordlistor och utförs på ett textanalysverktyg - Overview, och på ett IT-forensiskt verktyg - EnCase. Då de två verktygen använder sig av olika metoder vid sökningar och är utformade för olika syften så går studien även igenom olika metoder av data mining och forensiska metoder.

Dataset i form av chattkonversationer har samlats in inför studiens experiment, och har därefter kategoriserats efter harmfull och harmlös data. Harmfull data representerar chattkonversationer med innehåll av grooming, och harmlös data är chattkonversationer som innehåller allmänna konversationer om vardagliga ting.

De två ordlistorna som har använts vid sökningarna är av olika innehåll, där den ena baseras på ord av sexuell karaktär och där den andra är skapad utifrån en frekvensordanalys.

Andra delar av uppsatsen upp intressanta aspekter kring grooming, hur dess process ser ut och lagstiftningen i Sverige kring brottet.

Resultatet av studien påvisar att båda verktygen till lika hög grad kunde detektera misstänkt grooming i chattkonversationer. Vissa skillnader fanns i resultatet i form av ord som inte detekterades fullt ut av Overview. Andra påfallande skillnader mellan verktygen var deras arbetstid och dokumentationsmöjligheter, där Overview var det verktyg som jobbade snabbt, och EnCase det verktyg som hade bra dokumentationsmöjligheter. Enligt gjord studie vore en kombination av data mining och IT-forensiska metoder samt en väl genomförd ordlista en metod att föredra vid detektering av grooming.

V

VI

Innehållsförteckning 1 Inledning ...... 1 1.1 Bakgrund ...... 1 1.2 Syfte och problemformulering ...... 3 1.3 Problemställning ...... 5 1.4 Problemdiskussion och problematisering av frågeställning ...... 5 1.4 Avgränsningar ...... 8 2 Teori ...... 9 2.1 Data Mining ...... 9 2.2 K-means clustering ...... 11 2.3 Metoden: TF-IDF, term frequency–inverse document frequency ...... 12 2.3.1 Overview ...... 14 2.4 EnCase ...... 15 2.5 Indexering/Nyckelordssökning/Outside In ...... 16 2.6 Grooming ...... 18 2.7 Lagen ...... 18 2.7.1 Kritik mot grooming-lagen ...... 19 3 Metod ...... 21 3.1 Metodval ...... 21 3.2 Litteratursökning ...... 23 3.3 Metod för datainsamling ...... 27 3.4 Metod för skapande av ordlista ...... 28 3.5 Val av verktyg ...... 31 3.6 Metod-kritik ...... 33 3.7 Experiment ...... 37 3.7.1 Experimenthypotes ...... 37 3.7.2 Experimentuppställning ...... 39 4 Resultat ...... 41 4.2 Experiment 1B – med ordlista 1 ...... 44 4.4 Experiment 3A och 3B – med ordlista 2 ...... 48 4.5 Jämförelse av programmen Overview och EnCase7...... 50 5 Analys ...... 53 5.1 Identifiering av grooming-konversationer ...... 53 5.2 Test av beroende ...... 54 5.3 Det mest tillämpbara verktyget ...... 54 6 Diskussion och Slutsats ...... 57 6.1 Diskussion ...... 57 6.2 Slutsats ...... 64 6.3 Förslag på fortsatt arbete ...... 65

VII

7 Referenser ...... 67

Bilagor

Bilaga A K-means algoritmen

Bilaga B Brottsbalk (1962:700) 6 kap. Om sexualbrott

Bilaga C Diskussion om grooming

Bilaga D Ordlista 1

Bilaga E Ordlista 2

Bilaga F Brottsbalk (1962:700) 4 kap. 9a §. Olovlig avlyssning

Bilaga G Figur 14, 15, 16

Bilaga H Utdrag ur ”Fall 11 – Harmfull diskussion”

Bilaga I Utdrag ur ”Fall 104 – Harmlös diskussion

VIII

FIGURFÖRTECKNING OCH TABELLFÖRTECKNING

FIGUR 1. DATAUPPSÄTTNING K-MEANS CLUSTERING RESULTAT. 12 FIGUR 2. RESULTAT FRÅN EXPERIMENT 1A, TRÄFF MED ORDLISTA 1 I HARMFULL DISKUSSION. 42 FIGUR 3. RESULTAT FRÅN EXPERIMENT 1A, TRÄFF MED ORDLISTA 1 I HARMLÖS DISKUSSION. 42 FIGUR 4. RESULTAT AV EXPERIMENT 1B, TRÄFF MED ORDLISTA 1 I HARMFULL DISKUSSION. 45 FIGUR 5. RESULTAT AV EXPERIMENT 1B, TRÄFF MED ORDLISTA 1 I HARMLÖS DISKUSSION. 45 FIGUR 6. RESULTAT AV EXPERIMENT 2A OCH 2B, TRÄFF MED ORDLISTA 2 I HARMFULL DISKUSSION. 47 FIGUR 7. RESULTAT AV EXPERIMENT 2A OCH 2B, TRÄFF MED ORDLISTA 2 I HARMLÖS DISKUSSION. 47 FIGUR 8. RESULTAT AV EXPERIMENT 3A OCH 3B MED ORDLISTA 2 I HARMFULL DISKUSSION. 49 FIGUR 9. RESULTAT AV EXPERIMENT 3A OCH 3B, TRÄFF MED ORDLISTA 2 I HARMLÖS DISKUSSION 49 FIGUR 10. STJÄRNDIAGRAM ÖVER RESULTAT PÅ JÄMFÖRELSE AV PROGRAMMEN OVERVIEW OCH ENCASE 51 FIGUR 11. RESULTAT ANTAL TRÄFFAR PÅ ORD I OVERVIEW UTFÖRD I EXPERIMENT 3A. BILAGA G FIGUR 12. RESULTAT PÅ TRÄFF MED ORDET "GOOD" I FALL 4. BILAGA G FIGUR 13. RESULTAT AV SÖKNING MED ORDLISTA 1 I PROGRAMMET ENCASE. BILAGA G

TABELL 1. RESULTAT AV EXPERIMENT 1A UTFÖRD MED PROGRAMMET OVERVIEW MED ORDLISTA 1. 42 TABELL 2. RESULTAT AV EXPERIMENT 1B UTFÖRD MED PROGRAMMET ENCASE MED ORDLISTA 1. 44 TABELL 3. RESULTAT AV EXPERIMENT 2A OCH 2B UTFÖRD MED PROGRAMMEN OVERVIEW OCH ENCASE MED ORDLISTA 2. 46 TABELL 4. RESULTAT AV EXPERIMENTEN 3A OCH 3B UTFÖRD MED PROGRAMMEN OVERVIEW OCH ENCASE MED ORDLISTA 2. 48 TABELL 5. RESULTAT AV JÄMFÖRELSE GJORD PÅ PROGRAMMEN OVERVIEW OCH ENCASE7. 50

IX

X

1 Inledning

Inledningen beskriver bakgrunden till problemområdet och definierar begreppen data mining, IT- forensik och grooming. Därefter anges arbetets syfte, problemformulering, problemställningar, problematisering och avgränsningar.

1.1 Bakgrund Kontakt mellan människor över är numera inget ovanligt, och det är en del av mångas vardag att småprata med sina vänner digitalt. Inte heller är det något konstigt eller svårt att söka nya kontakter och bekantskaper via nätet. Men Internet har tyvärr också blivit ett verktyg för förövare. Vuxna som vill ta kontakt med barn i sexuellt syfte är troligtvis medvetna om att en stor del av barn och ungdomars sociala värld är Internet.

“Idag kan alla brott vara IT-relaterade. Det gäller allt från ekonomiska brott och dataintrång till bedrägerier, handel och hot på internet”. Enligt polisen är IT-brott per definition dataintrång och datorbedrägeri, där IT-teknik används för att genomföra brott. Metoderna för att utföra dessa brott och lura människor på nätet är olika. Brotten kan vara bland annat av ekonomisk karaktär, utpressningar, hot och andra trakasserier, eller barnpornografibrott.1

Ett av de IT-relaterade brotten som är tänkt att belysas i det här arbetet är så kallad grooming (av engelskans grooming, "sköta, ansa, rykta, förbereda").2 Grooming på nätet är ett relativt “nytt” brott. Det var inte förrän 2009-07-01 som det lagstiftades i Sverige som ett brott.3 Internet är en stor del av

1 Polisen. 2015. IT-brott. https://polisen.se/Om-polisen/Olika-typer-av-brott/IT-brott/ (hämtad 2015-01-27)

2 Wikipedia. 2015. Gromning. http://sv.wikipedia.org/wiki/Gromning (hämtad 2015-04-25)

3 Melin, Lena, Grooming online: En kartläggning av vuxnas kontakter med barn i sexuellt syfte under 2009. SamO-Kut Nord. 2010. s. 3. https://www.polisen.se/PageFiles/249099/Rapport_grooming. (hämtad 2015-02-17)

1 många barns och ungdomars vardag idag, och det är ett högst aktuellt ämne. Vid grooming är det en gärningsman som tar kontakt med unga människor, ofta unga flickor, med syfte att begå övergrepp. Ofta utger sig förövaren också för att vara någon annan, och ger felaktig information om sig själv, i syfte att knyta en god relation till den unga individen. Relationen byggs upp och förstärks tills ett förtroende har åstadkommits och förövaren bjuder in till en träff där de vill fullborda sitt planerade övergrepp.4

Fler goda krafter på Internet efterfrågas och större närvaro på nätet uppmuntras och i en motion som inlämnats till riksdagen “2014/15:2969 av Beatrice Ask m.fl. (M, C, FP, KD)” uppmärksammas att rättsväsendet inte hunnit följa med IT-brottens utveckling.5 Detta gör även en social nätverkstjänst, nextgenforensic, som tillhandahåller en plattform för IT-forensiker, forskare och akademiker med syfte att förebygga sexuellt våld. På bloggen distribueras den senaste forskningen, teorier, arbeten, experiment och nya idéer diskuteras inom området. I ett inlägg skrivet av Elliot, I. A (20140718) föreslås en djupare undersökning av textanalysverktyget, Overview, och hur det kan vara till nytta i 6 förebyggandet av sexuell kriminalitet på nätet.

Data mining är en process som används för att upptäcka, extrahera samt analysera information och mönster från stora datamängder, som exempelvis från en databas. Många större företag använder sig av data mining för att samla in information om sina kunder och deras inköp för att på så sätt

4 Polisen. 2015. Grooming. https://polisen.se/Om-polisen/lan/os/op/Polisen-i-Ostergotlands-lan/Projekt-och- samverkan/Projekt-Tindra/Grooming/ (hämtad 2015-01-28)

5 Beatrice Ask m.fl. 2014. Motion 2014/15:2969: Internet som arena för brott. Sveriges Riksdag. http://www.riksdagen.se/sv/Dokument-Lagar/Forslag/Motioner/Internet-som-en-arena-for-brot_H2022969/?text=true (hämtad 2015-02-04)

6 Ian A Elliott 2014. Can we analyze word associations in online solicitation texts? Nextgenforensic. https://nextgenforensic.wordpress.com/2014/07/18/can-we-analyze-word-associations-in-online-solicitation-texts/ (hämtad 2015-02-21)

2 utveckla sin företagsamhet. Själva tekniken grundar sig på statistiska beräkningsmetoder kombinerat med algoritmer för maskininlärning och mönsterigenkänning.7

IT-forensik är vetenskapen om att identifiera, utvinna, analysera och presentera digitala bevis som har lagrats i digitala enheter. Med den växande storleken på databaser har brottsbekämpning börjat inkludera data mining som ett verktyg för att förhindra och lösa brott som begås på Internet.8

1.2 Syfte och problemformulering Det huvudsakliga syftet med denna studie är att utifrån en experimentell undersökning försöka identifiera misstänkta grooming-chattkonversationer med hjälp av verktygen Overview och EnCase. Brottsbekämpande myndigheter handskas med stora mängder information, till exempel incidentrapporter och tips samt stora datamängder som ingår i en utredning. Därför är det ur en professionell synvinkel intressant att göra en jämförelse mellan de två verktygens metoder och på så sätt finna likheter och/eller olikheter mellan dem. När deras metoder har analyserats och verktygen har använts i experiment kan man på så sätt jämföra dem mot varandra. Ingen tidigare studie har hittats som utfört denna undersökning.

Valet av vilka ord som ska ingå i en ordlista kommer givetvis ha betydelse för det antal träffar som uppnås vid sökningen. I experimentet som utfördes av Elliot, I. A (2014-07-18) sattes en ordlista hastigt ihop som enligt dem kan tyckas vara en godtycklig förteckning av sexuella ord9. I denna studie görs valet att skapa två ordlistor med olika metoder för att undersöka om det blir någon skillnad i detekteringen av grooming-förövaren.

Overview är ett data mining-verktyg och därför ska det i uppsatsen även klargöras om vad data mining är, hur det är uppbyggt, hur processen ser ut samt inom vilka områden det används.

7 Wikipedia. 2015. Datautvinning. http://sv.wikipedia.org/wiki/Datautvinning (hämtad 2015-01-27)

8 K.K och B.B Meshram. Digital Forensics and Cyber Crime Datamining, Mumbai: Scientific Resarch, 2012

9 Ian A. Elliott, 2014

3

EnCase är ett IT-forensiskt verktyg som används vid IT-forensiska undersökningar. Verktygen Overview och EnCase samt deras ordsökningsmetoder kommer att presenteras. Grooming som brott ska definieras och lagstiftningen för grooming i Sverige överskådas.

4

1.3 Problemställning

1. Till vilken grad kan misstänkt grooming i chattkonversationer identifieras med hjälp av k- means clustering och data mining-programmet Overview?

2. Till vilken grad kan det IT-forensiska verktyget EnCase och dess inbyggda sökfunktioner identifiera misstänkt grooming i chattkonversationer?

3. Vilket av dessa två verktyg är mest tillämpbar för en framgångsrik detektering av grooming i chattkonversationer, och vilka skillnader finns det i resultatet?

Eftersom traditionella IT-forensiska analysmetoder kanske inte är tillräckliga kommer denna studie, genom att besvara dessa frågeställningar, bidra till att väcka tankar och idéer till nya metoder och verktyg som kan utvecklas för att framgångsrikt identifiera grooming i chattkonversationer.

1.4 Problemdiskussion och problematisering av frågeställning

Dagens ökade informationsflöde kan ge problem för brottsbekämpande myndigheter eftersom det kan leda till ett ineffektivare arbete. Det är idag allmänt känt att rättsväsendet har svårt att följa med i IT-brottens utveckling och det är därför inte helt irrelevant att det önskas en snabb och fullständig analys av informationen för ett effektivare arbete. Därför är ovanstående frågeställningar av högsta intresse att kunna besvaras.

Som tidigare har nämnts läste vi ett inlägg på en IT-forensisk blogg10 där frågan ställdes om det går att med hjälp av verktyget Overview analysera och resultatrikt finna ord och mönster i texter med innehåll av sexuell karaktär. Vi ville undersöka saken närmare men även också göra en jämförelse

10 Ian A. Elliott, 2014

5 av Overview (som är ett textanalys-verktyg) med det IT-forensiska verktyget EnCase. Metoden för att kunna besvara våra frågeställningar blir att först undersöka och testa de båda verktygens metoder var för sig för att sedan göra en jämförelse av de båda verktygen. Om verktygens metoder är olika, kan det då visa sig att en ganska trivial och enkel metod kan vara minst lika bra som en mer avancerad metod. Om en jämförelse skulle visa detta kan man i så fall se att de i fallet med den mer avancerade metoden helt enkelt tänkt fel. Det kanske inte hjälper att göra det mer avancerat, istället blir det kanske bara mer komplext. Det kan även vara så att även om metoden anses vara komplex, kanske själva verktyget är lätt att hantera och jobba med. Och det andra verktyget som har en enklare metod istället är mer svårförståelig och svår att jobba med.

De två första problemställningarna handlar om att undersöka till vilken grad verktygen kan identifiera misstänkt grooming i chattkonversationer med hjälp av dess egna metoder. Här kan det uppstå flera olika problem då detta ska undersökas. För det första har ingen av oss tidigare använt verktyget Overview och detta kan bli ett eventuellt problem om det visar sig att verktyget är svår att använda. Med vetenskapen om detta kommer test-experiment göras i verktyget innan studien påbörjas. Detta görs för att få praktisk kunskap om verktygets metoder och undvika att viktig tid går förlorad när de riktiga experimenten utförs. Då vi har tidigare erfarenhet av verktyget EnCase och en jämförelse av de båda verktygen kommer ske är det därför också viktigt att likvärdig erfarenhet av de båda verktygen innehas innan experimenten startar. Ett eventuellt annat problem som kan uppstå är då vi ska redovisa vilka metoder verktyget EnCase använder sig av. Verktyget innefattar många olika typer av tekniker och det kanske kan bli svårt att få fram fakta om hur dess sökfunktion fungerar. Det största problemet tror vi kommer att bli inhämtningen av data. Eftersom experimenten strävar efter att kunna identifiera misstänkt grooming i chattkonversationer behövs både data som innehåller bevisad grooming-förfarande men även vanlig data. Detta för att kunna validera att verktygen kan identifiera den data som innehåller grooming. Att hämta in stora mängder data kan ta lång tid och i kombination med att hitta rätt data tror vi alltså att detta kan bli ett problem. En fördel är att vi är medvetna om just denna problematik och har därför avsatt extra tid för insamling av data. I avsnitten ”3.3 Metod för datainsamling” och ”3.6 Metod-kritik” finns mer information om just datainsamlingen och bland annat varför vi valde den data som vi valde.

6

Vår tredje problemställning handlar om att jämföra de två verktygen med varandra och visa på skillnader mellan dem. Vi kommer själva välja de kategorier som vi tror är av intresse men vi är medvetna om att det kan finnas fler intressanta jämförelser att göra mellan dessa två verktyg. Det som kan bli problem är tolkning och presentation av resultatet eftersom delar av experimenten består av visuell undersökning av verktygen och dessa resultat ska omvandlas till något mätbart. Detta diskuteras mer i avsnitt ”3.6 Metod-kritik”.

Ett flertal vetenskapliga artiklar och fallstudier har lästs inför denna studie. I dessa har data mining undersökts med fokus på om den tekniken kan vara behjälplig i analysen av olika internetbrott och cyberattacker. Dessa studier kommer att diskuteras mer ingående i avsnitten ”3.2 Litteratursökning” och ”3.6 Metod-kritik”. En gemensam nämnare som dessa studier har är att de kommit fram till att IT-forensik och data mining går att kombinera då fall-studierna visat på att data mining går att använda för att bland annat identifiera misstänkta förövare. En del har även tagit fram nya metoder och verktyg för att inhämta, tvätta och analysera data. Data mining handlar om att hitta mönster i stora mängder data och en svaghet i denna studie är att mängden data som ska undersökas kanske är för liten. Detta kan leda till att ett tillförlitligt resultat inte kommer kunna ges. Att studiens experiment inte kommer att utföras på live-data är också en nackdel eftersom grooming-brott sker mestadels via chattkonversationer och önskan är självklart att brottet ska upptäckas vid just det tillfälle det sker. En annan studie, som också kommer nämnas i avsnitt ”3.2 Litteratursökning”, har varit intressant för denna studie eftersom den analysera chattkonversationer för att avgöra om förövarna uttrycker sig på ett sätt så att det går att identifiera grooming-förövare. Efter vi studerat den uppsatsen slog det oss att ett problem som kan uppstå för vår del är att vi inte har tillräcklig med kunskap om det chattspråk förövarna använder sig av, och att det kan vara till nackdel eftersom denna studie ska försöka identifiera misstänkt grooming i chattkonversationer.

Det som skiljer vår studie från de som tidigare har gjorts är att vi inte kommer själva utveckla en modell. Vi kommer istället lägga fokus på att identifiera brottet grooming med hjälp av ett redan fullt utvecklat data mining-verktyg och ett IT-forensiskt verktyg. Att vi väljer att inte göra någon modifiering av verktygen kan hända bli en svaghet för denna studie eftersom resultatet kanske inte kommer visa på något nytt och revolutionerande inom området. Vår förhoppning är att vi

7 kommer visa på att detektering av brottet grooming i chattkonversationer kan göras med hjälp av data mining-verktyget Overview minst lika bra som med det IT-forensiska verktyget EnCase.

1.4 Avgränsningar Det finns flera typer av data mining-metoder och uppmärksamhet kommer att ges till den eller de metoder som passar bäst in på de experiment som kommer göras, och anses vara av relevans och intresse för studien. Denna avgränsning kommer i den här studien innebära att data mining- metoder som undersöks är enbart de metoder som verktyget Overview använder sig av. Data mining bygger på bland annat statistisk matematik, och grundläggande algoritmer kommer att presenteras. Ingen vidare fördjupning i den matematiska delen kommer att utföras. Det finns inget syfte att utveckla en egen metod för att på så sätt påvisa någon sorts modifiering av verktygen. Det är programmens befintliga metoder som ska jämföras mot varandra.

Vid undersökning i verktyget EnCase kommer dess inbyggda sökfunktioner användas. Detta är en funktion som söker på de nyckelord som angetts som indata till programmet. Därför blir en annan avgränsning att utesluta EnScript i experimentdelen av EnCase. EnScript är det programmeringsspråk som finns tillgänglig för användare att optimera programmet utifrån egna skript11.

Det kommer inte göras undersökning i hur polisen utreder grooming-brott eller hur de aktivt försöker förhindra dessa brott.

11 Guidance Software. 2015. EnCase EnScript Programming. https://www.guidancesoftware.com/training/Pages/courses/classroom/EnCase%C2%AE-EnScript%C2%AE- Programming.aspx (hämtad 2015-04-14)

8

2 Teori

Kapitlet behandlar data mining och IT-forensik samt några av dess metoder. Även fakta om verktygen som kommer användas i experimenten presenteras. Brottet grooming och dess lagstiftning förklaras. För att få en klarare och grundligare bild av grooming som brott kommer en intervju med Mats Andersson och Per-Åke Irskog att göras. Mats driver företaget Netscan12 och är kunnig inom området. Han anlitas av många myndigheter och organisationer för föreläsning av Internetsäkerhet för barn och unga. Per-Åke Irskog är universitetsadjunkt i juridik på Högskolan i Halmstad. Då arbetets problemställningar inte inriktar sig på själva brottet grooming kommer dessa två möten presenteras i Bilaga C13.

2.1 Data Mining Data mining är ett begrepp för verktyg som söker efter okända mönster och information i data. Med hjälp av data mining går det även att förutsäga framtida mönster.14

Data mining har rötter i statistik, artificiell intelligens, maskininlärning och databassökning. Data mining är ett steg i “knowledge discovery from databases” (KDD) som är en process för att upptäcka användbar kunskap i data.

Data mining används idag inom flera olika områden, som exempelvis inom marknadsföring och försäljning, diagnostik, industrin samt banker och företag. Olika användare kan vara intresserade av olika typer av information. Därför är det viktigt att data mining täcker ett brett detektionsområde och

12 Netscan. 2015. http://netscan.se/ (hämtad 2015-02-18)

13 Bilaga C, Diskussion om grooming.

14 Ian H. Witten och Eibe Frank och Mark Hall, Data Mining Practical Machine Tools and Techniques. Burlington: Elsevier Inc. 2011

9 kan utvinna olika typer av information i databaser. Processen ska vara interaktiv på flera nivåer eftersom resultatet då enklare kan baseras på efterfrågan. Det är viktigt att brus och ofullständig data hanteras under processen då mönsterigenkänningen annars kan försämras.

Vid utvärderingen av mönstren kan allmänt förekommande information vara intressant men även saknaden av viss information kan vara nyttig kunskap.

I samband med presentationen av resultaten är det bra om det visas visuellt på ett lättförståeligt sätt, till exempel i form av diagram eller bilder.15

Momenten i data mining består av

- val av data - tvättning av data - berikning av uppgifter - kodning av data - datamining - rapportering/visualisering.16

Ett data mining-system omfattar flera olika tekniker som exempelvis dataanalys, informationssökning, mönsterigenkänning, bildanalys, signalbehandling samt datorgrafik. Dessa tekniker delas in olika klasser;

- Databasteknik - Statistik - Maskininlärning - Informationsvetenskap - Visualisering - Andra områden.17

15 Data Mining Tutorial, Simply Easy Learning by turtorialspoint

16 S Sumathi och S.N Sivandandam, Introduction to Data Mining and its Applications, New York: Springer, 2006. s. 12.

10

Data mining-systemet integreras med en databas eller ett informationslager och utvecklas med effektiva algoritmer för att datamängden ska kunna utvinnas efter önskat vis. Data mining-metoder delas generellt upp i två grupper;

Verification-driven (verifiering) Inkluderar tekniker såsom hypotesfråga och rapportering, flerdimensionell analys och statistisk analys.

Discovery-driven (upptäcka) Inkluderar prediktiv modellering. Teknikerna är bland annat klassificering, länkanalyser och avvikelsedetektering.18

2.2 K-means clustering Klusterananlys innebär att datamängder grupperas i delmängder i form av kluster. Detta är ett samlingsnamn för själva analysmetoden.19

K-means clustering är en metod för att systematiskt dela in oorganiserad data i olika kluster. I en sådan klusteranalys ska man kunna urskilja olikheter inom objekt (n) och inom kluster (k).

Dessa olikheter visas i form av att avstånden mellan objekt i ett kluster är så små som möjligt då de slås ihop i samma kluster, och skillnaden mellan kluster så stor som möjligt. Objekt (indexerade i = 1,2,3…,n) Klustrena (indexerade j = 1,2,3…,k). Se Figur 1.

17 Data Mining Tutorial, Simply Easy Learning by turtorialspoint

18 Sumathi och Sivandandam. s. 197.

19 Wikipedia. 2015. Klusteranalys. http://sv.wikipedia.org/wiki/Klusteranalys_%28datavetenskap%29 (hämtad 2015- 04-10)

11

Figur 1. Datauppsättning K-means Clustering resultat.20 Bilden kommer från Wikipedia och ingår i public domain.

K-means metoden är till fördel vid hantering av stora datamängder och metoden kräver mindre dataresurser än de hierarkiska klusteralgoritmerna som finns. Algoritmen är lätt att implementera, men en nackdel kan vara att startindelningen och antalet kluster bli fel och detta kanske leder till en felaktig slutindelning. En annan nackdel kan vara uppdelning av rimliga kluster vid besvärlig data, där kluster korsar varandra flera gånger. Metoden är också känslig för brus och detta kan således påverka skattningarna av centrum för varje kluster.21 För mer ingående matematisk förklaring av K- means clustering, se Bilaga A22.

2.3 Metoden: TF-IDF, term frequency–inverse document frequency TF, termfrekvens är ett mått på hur många gånger ett ord förekommer i en text. Det finns många ord i texter som inte har någon viktig betydelse för ämnet, och dessa ord kallas stoppord. Exempel på

20 Wikipedia. 2015. K-means clustering http://commons.wikimedia.org/wiki/File:Iris_Flowers_Clustering_kMeans.svg#filelinks (hämtad 2015-04-23)

21 Li-Fang Xu, Klusteranalys, Umeå universitet, 2008.

22 Bilaga A, K-means algoritmen. 12 stoppord är; ”och”, “att”, “som”. Dessa ord filtreras bort för att få en mer specificerad frekvensordlista.

IDF, inverse document frequency är ett sätt att automatiskt ordna ord efter sin särskiljningsförmåga genom att räkna hur många dokument ordet förekommer i. Ord som förekommer i många dokument är mindre speciella än de som bara förekommer i ett par få. Genom att invertera mängden dokument ett ord förekommer i baserat på den observationen som har gjorts, får ord som exempelvis “och” och “är” låg betydelse.

Kombinationen av dessa två metoder kallas tf-idf, term frequency-inverse document frequency. I en samling dokument, N, sker beräkningen genom att definiera fi j som frekvens av en term (ord) i i dokument j.

Sedan definieras termfrekvensen TFi j genom att dividera fi j med högst antal förekomster av varje term i samma dokument, ���! �!":

!! ! TFi j = !"#! !!"

IDF för en term definieras genom;

Antag att termen i förekommer ni gånger i dokumenten N

IDFi = log2(N/ni)

TF.IDF för ordet i i dokument j blir då TFi j x IDFi (där x står för multiplikation).

Ord med högst TF.IDF blir kännetecken för ämnet i dokumentet.23

23 Jure Leskovec och Anand Rajaraman och Jeffrey D. Ullman. Mining of Massive Datasets, California: Stanford Education, 2014, Kap. 1.

13

2.3.1 Overview Overview är ett program som delar upp flera olika dokument i olika kategorier beroende på vilket ämne dokumenten innehåller. De uppdelade dokumenten delas sedan upp i ännu mer specifika kategorier och resultatet blir ett träd av mappar. Varje mapp märks med nyckelord som inkluderas i dokumentet och visar på vilka ord som förekommer mest.

Overviews tillvägagångssätt för att kategorisera dokumenten bygger på algoritmer som jämför sekvenser av ord i varje dokument för att urskilja hur lika de är. Programmet genererar ett nummer som är litet om dokumenten är mycket olika och ett stort nummer om dokumenten rör samma ämne. En grupp av dokument som är väldigt lika varandra hamnar i samma mapp. Overview bortser från vissa grammatiska ord, så kallade stoppord, då dessa inte är viktiga för att bestämma ämnet i texten. Med den numeriska statistiska metoden TF-IDF, räknas varje ord för att avgöra hur många gånger de förekommer och en frekvenstabell skapas. Varje par av dokument jämförs med varandra för att kontrollera hur lika de är genom att räkna antalet ord som förekommer i båda dokumenten. Om ett ord förekommer två gånger i ett dokument, räknas det två gånger och på så sätt multipliceras frekvenserna av motsvarande ord och sedan summeras resultaten. Sedan använder programmet sig av k-means kluster för att dela upp de dokument som har likheter, de hamnar i samma mapp och märks med orden som särskiljer dem från andra dokument.24

Vid sökning på ett eller flera ord tillhandahåller programmet även avancerade sökmetoder så som citerade fraser, boolean uttryck, felstavningsmatchning, uteslutning och kombination av ord samt sökning på delar av ord med mera.25

24 Overview, 2013. How Overview can organize thousands of documents for a reporter. https://blog.overviewdocs.com/2013/04/30/how-overview-can-organize-thousands-of-documents-for-a-reporter/ (hämtad 2015-03-21)

25 Overview, 2013. Advanced search quoted phrases, boolean operators, fuzzy matching and more. http://overview.ap.org/blog/2013/12/advanced-search-quoted-phrases-boolean-operators-fuzzy-matching-and-more/ (hämtad 2015-04-15)

14

2.4 EnCase IT-forensik är en del av datavetenskapen som berör Internetrelaterade brott med anknytning till digital media. Vid IT-forensiska undersökningar utförs brottsutredningar genom att leta bevis på digitala medier för att hitta spår efter misstänkt brott.26

EnCase är ett IT-forensiskt verktyg och anses som en allsidig plattform för kriminaltekniska undersökningar. Rapport kan skapas direkt i verktyget. EnCase består inte av öppen källkod och dess licens kostar att inneha, och beroende på vilket certifikat som ska köpas är priserna varierande.27

EnCase7 är ett verktyg som ingår i denna experimentella studie och tanken var att redovisa dess metoder för sökning mer ingående.

Vid kontakt med Guidance Software som tillhandahåller verktyget ges informationen att sökfunktionens metod i EnCase är konfidentiell information28. Med tanke på den sekretessbelagda informationen var det med andra ord svårt att finna information om hur programmet går tillväga för att utföra sökningar. Litteratursökning gjordes trots detta, för att försöka finna så mycket information som möjligt om verktyget. Den informationen som fanns att tillgå beskriver att EnCase använder sig av bland annat tekniken Outside In. Nedan följer allmän information om indexering och nyckelordssökning samt tekniken Outside In.

EnCase7 använder tekniken Outside In vid sökningar för att extrahera text från filer, där texten sedan används i en indexering. Att EnCase använder sig av indexering vid textsökningar beror på att den tekniken är ett bättre val vid stora datamängder. Dagens filtyper är nästan alltid komprimerade, exempelvis PDF-filer, .docx, .xlsx, .pptx, och EnCase anser att det är praktiskt taget värdelöst att göra så kallade råa textsökningar på sådana filer. För att kunna göra sökningar

26 Wikipedia. 2015. Computer forensics. http://en.wikipedia.org/wiki/Computer_forensics (hämtad 2015-01-27)

27 Infosec Institute, 21 Popular Computer Forensics Tools. 2015. http://resources.infosecinstitute.com/computer- forensics-tools (hämtad 2015-04-13)

28 Technical Support, Guidance Software, Joshua. E-postkorrespondens med Ewa Gärdström, 31 mars, 2015.

15 på filtyper som är av nyare modell så måste innehållet i filen först utvinnas sen återges och därefter indexeras annars fås inga träffar vid sökningarna.29

2.5 Indexering/Nyckelordssökning/Outside In Avsikten med att indexera med hjälp av sökmotorer är för att utföra snabb och korrekt informationssökning. Dess design består av olika tekniker som exempelvis lingvistik, matematik, informations- och datavetenskap. Konstruktionen av en sökmotor varierar beroende på syftet, men några vanliga strukturer är;

- Suffixträd - Inverterad - Citation index - N gram index - Dokument-term matris.30

Nyckelordssökning är en teknik där ord eftersöks i dokument. Ett eller flera ord skrivs in i en sökruta och tillbaka fås ett sökresultat som består av de dokument som innehåller de eftersökta orden. Nyckelord används också vid mer komplexa sökningar, så kallade sammansatta sökningar. Vid sådana sökningar används exempelvis metoden boolean.

Olika väljbara variabler vid sökningar är bland annat;

- antingen sökning på gemener och versaler, eller både och. - sökning på hela ord eller delar av ord. - sökning på fraser. - “fuzzy” (otydlig) sökning, försäkring om att felstavningar kommer med.

29 Steve Bunting, EnCE EnCase Computer Forensics: The Official EnCase Certified Examiner, Indianapolis: John Wiley & Sons, 2012, s. 353.

30 Wikipedia. 2015. indexing. http://en.wikipedia.org/wiki/Search_engine_indexing (hämtad 2015-04-13)

16

- sökning på ursprung av ord. Sökning på sjunga ger även utslag på sång, sjunger, sjungit. - användning av “wildcards”, exempelvis tillsättning av frågetecken efter ord. - boolean sökningar, används för att kombinera eller utesluta vissa sökord samt att visa på starka eller svaga samband mellan orden. - vid eftersökning av specifik mängd data kan det sökas på exempelvis “” eller mellan två datum.

Andra viktiga variabler för sökordet kan vara dess språk, särskiljande egenskaper och specialtecken.

Teckenkoder med olika teckenuppsättningar är oftast valbara vid sökningar. Exempel på sådana är;

• UTF-8

• UTF-16

• CP1252

31 • Unicode / WideChart

Outside In tekniken används för att extrahera, normalisera, konvertera samt visa innehållet i en stor mängd olika ostrukturerade filformat och innefattar flera olika mjukvaruprogram. När det gäller sökning i textdokument är bland annat “Content Access” och “Search Export” särskilt intressanta. Content Access, innehållsåtkomst, extraherar text och från filer. Under tiden som filerna bearbetas läggs den extraherade datan till i programmets minne. Denna teknik är vanlig vid IT-forensiska undersökningar och i säkerhetsapplikationer. Funktionen “Search

31 EDRM, Search Methodologies. http://www.edrm.net/resources/guides/edrm-search-guide/search-methodologies (hämtad 2015-04-14)

17

Export” är ofta inkluderad i IT-forensiska applikationer och konverterar filer till en av fyra olika format. Dessa format är HTML, XML, PDF och Image.32

2.6 Grooming Internet är en stor del av många barns och ungdomars vardag idag, och det är ett högst aktuellt ämne. När en vuxen ger sig ut för att vara någon annan och söker kontakt med barn på Internet för att förmå dem att träffas med syfte att kunna förgripa sig sexuellt på dem kallas det grooming. När ett tilltänkt offer accepterar förövaren som vän på den aktuella webbsidan blir det enkelt för förövaren att få information om offret. Genom att till exempel kolla offrets statusuppdateringar, bilder som denne lagt upp och andra bilder på offret som dennes vänner lagt upp utför groomaren en egen sorts data mining. Om offret dessutom har en öppen profil blir det ännu enklare för förövaren att kartlägga offret och samla in så mycket information som möjligt för att hitta ett “lätt mål”. Barn med känslomässiga problem ses som “lättast att fånga”. Groomingen påbörjas med sympatiska och motiverande chattkonversationer, där syftet är att försöka uppvisa en sida hos sig själv som är snarlik offrets. Kommunikationen kan ske periodvis, från timme till timme, dag till dag eller veckovis, för att så småningom smått leda offret till konversationer av mer sexuell karaktär. Om offret är i yngre tonåren frågas det oftast om vad för sorts underkläder hon/han har på sig, för att därefter leda konversationen till att få offret att ta av sig underkläderna och berätta om sina privata kroppsdelar. Om offret är i äldre tonåren kan groomaren direkt be om att få se privata kroppsdelar genom till exempel en webbkamera.33

2.7 Lagen År 2006 fick den dåvarande riksåklagaren, Fredrik Wersäll, i uppgift av regeringen och den dåvarande justitieministern, Thomas Bodström, att genomföra en analys som skulle undersöka om

32 Oracle, Oracle Outside In Technology. http://www.oracle.com/us/technologies/embedded/025613.htm (hämtad 2015-04-15)

33 Georg E. Higgins och Catherine D, Social Networking as a Criminal Enterprise, New York: CRC Press Taylor & Francis Group, 2014. s. 130.

18 den gällande lagstiftningen kunde tillämpas på grooming, och om den var tillräcklig för att skydda barn mot företeelsen.34 Detta resulterade i utredningen “Ds 2007:13, Vuxnas kontakter med barn i sexuella syften”.35 Samtidigt fick Brottsförebyggande Rådet (Brå) i uppdrag att skriva en rapport om företeelsen och dess omfattning, och uppdraget redovisades i “Brå-rapport 2007:11, Vuxnas sexuella kontakter med barn via internet”.

Den här utredningen och rapporten ledde så småningom till att det 2009-07-01 tillkom en paragraf i Brottsbalken, som kriminaliserar vuxnas kontakter med barn i sexuellt syfte.36 Enligt Brottsbalken 6 kap 10a§ är detta straffbart med böter eller fängelse i högst ett år.37

För att en person ska kunna dömas för grooming-brott krävs det att fyra förutsättningar ska vara uppfyllda.

- Brottsoffret ska vara ett barn under 15 år. - Den vuxna kontaktar barnet i ett uttalat sexuellt syfte. - Tid och plats ska ha bestämts för ett verkligt möte. - Den vuxna ska ha vidtagit någon praktiskt åtgärd för att mötet ska ske.

2.7.1 Kritik mot grooming-lagen Brottsförebyggande rådet gick ut med ett pressmeddelande, 2013-06-13, där de dömer ut grooming- lagen då de anser att få anmälda fall leder till åtal.38 Anledningen till det är (enligt polisen) att de inte kan ingripa i ett tidigt stadie. Först måste bland annat tid och plats för ett verkligt möte ha bestämts och därefter måste den vuxna vidta någon åtgärd för att ett möte ska ske. Först efter detta

34 Åklagarmyndigheten, 2007. Vuxnas kontakter med barn i sexuella syften föreslås bli straffbara. http://www.aklagare.se/Media/Nyhetsarkiv/Vuxnas-kontakter-med-barn-i-sexuella-syften-foreslas-bli-straffbara/ (hämtad 2015-02-15

35 Regeringskansliet, 2015. Vuxnas kontakter med barn i sexuella syften. http://www.regeringen.se/sb/d/8588/a/80667 (hämtad 2015-02-15)

36 David Shannon, Vuxnas sexuella kontakter med barn via Internet, Stockholm: Brottsförebyggandet rådet, 2007.

37 Bilaga B, Brottsbalk (1962:700) 6 kap. Om sexualbrott.

38 Brottsförebyggande rådet, Få anmälda fall av grooming leder till åtal, 2013. http://www.bra.se/bra/nytt-fran- bra/arkiv/press/2013-06-19-fa-anmalda-fall-av-grooming-leder-till-atal. (hämtad 2015-01-27)

19 kan polisen ingripa. Med andra ord så måste de vänta tills ett övergrepp redan skett och då blir brottsrubriceringen en annan.39

Sedan bestämmelsen “kontakt med barn i sexuellt syfte” (sexuell grooming) trädde i kraft, och till slutet av 2012 har cirka 600 sådana brott anmälts, men bara ett fåtal har blivit lagförda. De sexuella förövarna tog kontakt med barnen via Internet i cirka 70 procent av fallen, resten av kontakterna gjordes via mobil/hemtelefoni eller i direkt möte med barnet.40

Problemen med den nuvarande lagen är väl kända och en motion som heter ”Internet som arena för brott” lämnades in 2014-11-10 till riksdagen av Beatrice Ask med flera. I motionen efterfrågas en skärpning av lagstiftningen.41

39 Melin, Lena. 2010

40 David Shannon. Bestämmelsen om kontakt med barn i sexuellt syfte, Vällingby, Brottsförebyggande rådet, 2013.

41 Ask, Beatrice m.fl. 2014 20

3 Metod

Kapitlet redogör för examensarbetets strategi och genomförande. Val av metod, insamling av data och det tilltänkta experimentet beskrivs. Även kritik till metodvalen kommer tas upp.

Vid metodval skiljer man på kvantitativ och kvalitativ metod.

Vid kvantitativa metoder utförs systematisk insamling av mätbar data, statistiska sammanfattningar och analys av utfall som har sin utgångspunkt i testbara hypoteser. En kvantitativ metod lämpar sig bäst när man strävar efter objektivitet. Vid kvalitativa metoder utförs exempelvis enkäter och intervjuer som sedan analyseras. En kvalitativ metod lämpar sig bäst när man önskar en öppen subjektiv metod.42

3.1 Metodval Till detta examensarbete har det valts två huvuduppgifter. Det första är att avgöra om grooming kan upptäckas med hjälp av data mining-programmet Overview.

På NextGenForensic efterlyses en djupare undersökning av Overview, och hur det kan vara till nytta i förebyggandet av sexuell kriminalitet på nätet.43 I de delar av experimenten som berör Overview i den här studien är det tänkt att detta förslag ska genomföras. Alltså en djupare undersökning med en annorlunda ordlista än vad de använde sig av. För att ordlistan inte ska anses vara godtycklig kommer den att utvecklas med hjälp av en egen utförd frekvensordanalys. Den kommer att baseras på innehållet i de chattkonversationer som har samlats in, och resultatet blir en lista på de mest förekommande orden i dessa.

42 Idar Magne Holme och Bernt Krohn Solvang, Forskningsmetodik: Om kvalitativa och kvantitativa metoder, Lund, Studentlitteratur AB, 1997

43 Ian A. Elliot. 2014.

21

Experimenten genomförs inte på samma dataset som de använde sig av på Nextgenforensic.

Den andra uppgiften blir att använda samma chattloggar och ordlista i det IT-forensiska verktyget EnCase för att identifiera misstänkt grooming.

Det sista steget i arbetet blir att evaluera verktyget EnCase mot Overview för att hitta för- och nackdelar hos respektive verktyg. I detta skede ska det jämföras hur snabbt programmen arbetar, hur implementationen av ordlistan sker och dess träffsäkerhet, dokumentationsmöjligheter inom programmet, samt hur lättöverskådligt resultaten presenteras i programmen.

Metoden för att besvara problemställningarna kommer att vara av kvantitativ karaktär.

Den kvantitativa metoden har valts på grund av de experiment som ska genomföras och den ordlista som ska skapas. En kvantitativ metod är att föredra här då vi önskar att studien är upprepningsbar för framtida arbete och forskning.

De delar av studien som innefattar intervjuer för att få en bredare bild av grooming och lagstiftningen i Sverige kommer inte att ingå i metodvalet. Om syftet med dessa intervjuer hade varit att de skulle besvara problemställningarna hade de också ingått i metodvalet. Men detta tillhör en kvalitativ undersökning där man via enkäter och intervjuer vill samla ihop olika uppfattningar och resonemang44, medan det i en kvantitativ undersökning samlas ihop representativ data som undersöks med olika mätinstrument som ska fånga samband, fördelning och variation i det som studeras.45

44 Anna Hedin, En liten lathund om kvalitativ metod med tonvikt på intervju, Uppsala Universitet, 2011.

45 Bengt Erik Eriksson, kvantitativ metod, 2015 http://www.ne.se/uppslagsverk/encyklopedi/l%C3%A5ng/kvantitativ- metod (hämtad 2015-04-14)

22

3.2 Litteratursökning För att få inblick i data mining, IT-forensik och grooming har sökning i databaser gjorts för att få fram relevant litteratur. Sökord som använts har bland annat varit “data mining”, “EnCase”, “Overview” “detektering i EnCase”, “k-means clustering”, “grooming”, “dataanalys”, “data mining inom IT-brott”, “sexual predators” och så vidare. Resultatet av sökningarna som berörde data mining, IT-forensik och grooming var fler till antalet än de som gällde enbart verktyget Overview i den öppna litteraturen.

Uppsatser, artiklar och böcker finns gott att tillgå kring data mining, om dess metoder och tekniker. Ett fåtal av dessa har även behandlat just data mining som metod vid detektering av IT-brott. Men just grooming som IT-brott i kombinationen med data mining, har det endast hittats ett fåtal utländska uppsatser. Speciellt svensk litteratur har varit svår att finna kring ämnet. Den litteratur som har hittats angående grooming berör ämnet främst kring juridiska och psykosociala aspekter.

K.K Sindhu och B.B Meshram har i studien “Digital Forensics and Cyber Crime Datamining” (2012) föreslagit ett nytt verktyg som är en kombination av IT-forensik och data mining. Syftet med verktyget är att det bland annat ska hitta mönster av cyberattacker och ska användas av systemadministratörer. Studien är intressant då den förklarar det grundläggande inom IT-forensik samt data mining för IT-forensik. Studien visar på att med växande databaser och informationsflöde föreligger en utmaning att analysera de stora datavolymer som är involverad i diverse kriminella handlingar. Slutsatsen i studien frambringar att dagens IT-forensiska verktyg har ett behov av ett nytt system som inkluderar data mining-metoder.46

I studien Suspicious data mining from chat and email gjord av S. Gowri, G.S Anandha Mala och G. Divya tar de fram en modell som kan vara behjälplig vid brottsundersökningar där stor mängd data ska granskas. De utvinner data från mejl- och chattkonversationer och sedan rensas informationen från onödiga ord och symboler. Konversationerna sparas sedan ner i textdokument. De skapar en

46 Sindhu och Meshram, 2012

23 ordlista som ska användas vid eftersökning av de misstänkta meddelandena. Vid analys av data de har inhämtat tillämpar de olika data mining-tekniker och algoritmer47.

Melissa Wollis försöker i sin studie, “Online Predation: A Linguistic Analysis of Online Predator Grooming” identifiera språket som förövare använder sig av i chattrum för att på så sätt avgöra om grooming försiggår. Två kommunikationsteorier som ligger till grund i detta arbete är att förövare använder sig av Luring (locka) och Grooming (förbereda). Dessa två moment innehåller i sin tur olika delmoment. Wollis analyserar chattkonversationer tagna from Perverted-Justice.com48 för att avgöra om förövarna uttrycker sig på ett sätt som går att identifiera. Detta utförs med hjälp av datoriserad textanalys på förövarnas språk som har delats in i tre delar. Resultatet visar på att grooming-förövares språk skiljer sig åt under tre stadier av processen och därför kan ett frekvent språkmönster förutses. De tre stadierna är

• Vänskap och relationssteget Exempel på ord är; “friend”, “boyfriend, “phone”

• Riskbedömning och exklusivitet Exempel på ord är; “single”, “could”, “need”, “penis”

• Sexuellt stadium Exempel på ord är; “feel”, “sex”, “date”, “evening”

Trots att dessa stadier är definierade är det fortfarande oklart om exakt hur förövarna förflyttar sig i dem. Hur processen fortskrider beror på hur relationen byggs upp och hur konversationen fortskrider. Vissa förövare spenderar mer tid på vissa stadier än vad andra förövare gör. I många fall beror de här skillnaderna främst på förövarens syfte.

Vänskap- och relationssteget handlar om att förövaren ska lära känna offret. Tiden som spenderas på detta varierar från olika förövare beroende på hur lång tid det tar för dem att etablera

47 S. Gowri, G.S Anandha Mala och G. Divya, Suspicious data mining from chat and email data, Sathyabama University, Chennai, 2014

48 Perverted Justice. Frequently Asked Questions, 2008. http://www.pjfi.org/?pg=faq (hämtad 2015-02-24)

24 vänskapen. Det här steget kan också återupptas flera gånger beroende på hur kontinuerlig kontakt förövaren har haft med offret. Har kontakten varit sporadisk måste de börja om med det här steget. I det här steget är det inte heller helt onaturligt att förövaren efterfrågar ett foto på offret, men fortfarande har inget sexuellt nämnts i konversationerna. I relationssteget övergår nu vänskapen till ytterligare en nivå för att få en djupare relation med offret.

I det här relationsstadiet engagerar sig förövaren mer i offret och diskuterar kring offrets vänner, familj, skola och sociala liv. Alla förövare spenderar inte nödvändigtvis tid på det här stadiet, det beror på om förövaren har tänkt sig att ha kontakt med offret en längre period eller inte. Om tanken är att ha en längre kontakt så försöker förövaren skapa ett “bästa-kompis” band med offret, annars blir relationssteget kortvarig och dyker upp mer som “spridda skurar” genom konversationen.

Nästa steg i processen innefattar en stadie som kallas för riskbedömnings- och exklusivitetstadiet. Det här är den delen av konversationen där förövaren försöker få information om vart offret befinner sig och om det är någon annan som är på plats. Här försöker förövaren ta reda på om det finns någon risk för att bli påkommen av barnets förmyndare.

I exklusivitetsstadiet försöker förövaren nu etablera en förtroenderelation, där offret ska känna att de kan lita på förövaren till fullo och kunna berätta allt som försiggår i deras liv. Här ska de dessutom inte vilja berätta för någon utomstående om deras relation, den ska vara exklusiv och kännas lite hemlig. Förövaren ska vara den personen som offret vänder sig till när något i livet inte känns bra. Här börjar förövaren introducera lite ord av sexuell karaktär för att se hur offret reagerar på det och avgör på så sätt hur de ska fortsätta. När det här har skett känner sig förövaren mer säker på att de inte ska bli påkomna, och kan nu förflytta sig till nästa stadie som är det sexuella stadiet.

När den inleds är det främst frågor som berör offrets sexuella erfarenheter som ställs. Detta kan fortfarande kännas harmlöst för offret då de sedan tidigare har en förtroenderelation. Många barn är dessutom inte vana vid den här sortens frågor och diskussioner och kan ha svårt för att avgöra vad som är rätt eller fel, eller överhuvudtaget förstå konversationens innebörd. Det sexuella stadiet är där konversationen skiljer sig distinktivt från resten av mönstret i konversationen.

25

I flera fall är det möjligt att se vart konversationen ska leda beroende på om förövaren ska fortsätta ha kontakt med offret eller ej. Om så är fallet är förövaren noga med att fokusera på ord som ger en känsla av tillit och “kärlek” mellan dem två. Det finns även förövare som raskt går rakt på sak och frågar offret om denna kan tänka sig att utöva sexuella aktiviteter med förövaren. Här tar även vissa förövare på sig rollen att framstå som en sorts mentor som ska guida offret genom dennes sexuella liv. Om förövaren märker att offret känner sig obekväm i situationen och en risk infinner sig att deras relation äventyras så ändrar de riktning på konversationen, och försöker att framstå som ångerfulla för att återfå offrets tillit.

Det sexuella stadiet leder ofta typiskt till en förfrågan från förövaren om ett riktigt möte, samt när och var detta kan ske.

Programmen som användes i Wollis studie var Linguistic Inquiry (LIWC) och Word Count. Ordlistor har skapats för att representera de tre olika kategorierna och programmet LIWC räknar hur många gånger relevanta ord förekommer i de specificerade kategorierna.49

De experiment som kommer att genomföras i denna studie ska inte behandlas likadant som i dessa uppsatser, utan de kommer vara en grund vi utgår ifrån. Exempelvis kommer ytterligare en ordlista skapas utifrån den modell som Wollis använt sig av, med tillägg av sexuella ord som är förekommande i de chattloggar som inhämtas för studien. Studien Suspicious data mining from chat and email data50 har många liknelser med vår studie eftersom de eftersöker information i chattkonversationer och bygger upp en ordlista. Skillnaden mellan vår studie och deras är att vi inte kommer bygga upp en egen modell för att utvinna, tvätta och analysera data. Som tidigare nämnts kommer denna studie använda sig av två redan utvecklade verktyg.

De böcker och artiklar som valts ut och varit oss behjälpliga är bland annat:

49 Melissa Wollis, Online Predation; A Linguistic Analysis of Online Predator Grooming, Cornell University, 2011.

50 Gowri, Anandha och Divya, 2014

26

Boken “Ence - EnCase Computer Forensics: The Official EnCase Certified Examiner, Study Guide”, skriven av Steve Bunting. En bok som behandlar verktyget EnCase och alla dess funktioner. Boken “Data Mining Practical Machine Learning Tools and Techniques” skriven av Witten & Frank & Hall, handlar om de verktyg och tekniker av maskininlärning som används i data mining.

Online Predation: A Linguistic Analysis of Online Predator Grooming. Studien går ut på att analysera dömda förövares chattkonversationer för att fastställa om de uttrycker sig på ett sätt som gör dem identifierbara.

3.3 Metod för datainsamling Perverted Justice Foundation, Inc är en organisation som publicerar chattkonversationer som skett mellan dömda sexuella förövare och “minderåriga”. De använder sig av frivilliga vuxna som på chattsidor agerar som minderåriga. Tillvägagångssättet är att invänta att förövare tar kontakt med dem som slutligen leder till att ett möte bestäms. Därefter ges informationen till polisen för vidare åtgärd. Målet med denna kontroversiella metod är att utrota pedofili.51 icq.com är en webbplats som bland annat erbjuder högkvalitativa videosamtal och chattkonversationer. De har ett flertal olika chattrum där man i realtid kan skapa kontakt med andra personer.52

Följande metoder användes för inhämtning av data:

- 14 chattkonversationer kopierades från Perverted-Justice.com och sparades som textdokument på en extern hårddisk.

Denna data kommer fortsättningsvis kallas för harmfull- data eller diskussion. Ett utdrag från en sådan diskussion finns i Bilaga H.

51 Perverted Justice. Frequently Asked Questions, 2008. http://www.pjfi.org/?pg=faq (hämtad 2015-02-24)

52 icq, Chatrooms, 2015. http://chat.icq.com/icqchat/ (hämtad 2015-02-25)

27

- 6 chattkonversationer kopierades från icq.com och sparades ner som textdokument på en extern hårddisk.

Denna data kommer fortsättningsvis kallas för harmlös- data eller diskussion. Ett utdrag från en sådan diskussion finns i Bilaga I53.

Den inhämtade datan innehåller användarnamn och tidstämplar men eftersom sökning kommer göras utifrån ordlista rensas den inte från användarnamn och tidstämplar.

3.4 Metod för skapande av ordlista Generellt finns det två grupper av igenkänningstecken att gå efter när man ska förutsäga något om online-konversationer; användar- eller meddelandespecifika attributer. Ett meddelande kan ha utmärkande biologiska, sociala eller psykologiska drag som på så vis kopplas ihop med en författare eller så kan meddelandet i sig själv ha utmärkande drag.54

Då vi är intresserade av att undersöka om meddelandena i sig har kännetecken som kan kopplas till grooming kommer meddelandespecifika attribut undersökas. Det är utifrån de sparade konversationerna och dess innehåll som ordlistan ska skapas.

För att kunna finna specifika egenskaper i konversationerna kommer ordlistor skapas som Overview och EnCase ska göra sina sökningar mot. Vid skapande av ordlistor kan man gå tillväga på olika sätt och olika metoder kan tillämpas. Till exempel är det möjligt att göra en ordlista där förekomsten av ord har ett samband med varandra. En annan möjlighet är att undersöka hur ofta vissa ord förekommer i texten och genom frekvensanalys välja ut de ord som är mest representativa för den typen av text.

53 Bilaga I, Utdrag ur ”Fall 104 – Harmlös diskussion”. 54 Tayfun Kucukyilmaz och B. Barla Cambazoglu och Cevdet Aykanat och Fazli Can, Chat mining: Predicting user and message attributes in computer- mediated communication, Bilkent University, 2008 28

I denna studie kommer det användas två olika ordlistor, ordlista 1 och ordlista 2. Ordlista 1 kommer innehålla ord som enligt tidigare studier kan vara kopplade till grooming-förövare. Denna ordlista kommer att följa Wollis55 studie och skapas utifrån den modell som Wollis använt sig av, nämligen att det förekommer olika typer av ord i olika stadier i grooming-processen. Ordlista 2 kommer vara en frekvensordlista och skapas genom att harmfulla chattloggar jämförs med harmlösa chattloggar för att få en statistisk översikt på vilka ord som mest förekommer i de grooming-chattar som vi har att tillgå. Denna frekvensberäkning redovisas nedan i följande avsnitt där förklaring av skapande av ordlistorna ges. Metoden för att räkna ut denna frekvens är ett förslag från Eric Järpe, Universitetslektor i statistisk matematik på Högskolan i Halmstad.

Följande metoder användes för skapande av ordlistor: Vid skapande av ordlista 1 väljer vi att inkludera de ord som generellt kan uppfattas som sexuella i de dataset vi har tillgängliga, medan ordlista 2 baseras på en frekvensanalys.

Ordlista 156 En ordlista skapas utifrån tidigare nämnd studie som gjorts av Melissa Wollis.

• Efter granskning av studien gjord av Wollis har vissa ord valts ut från varje kategori. Orden representerar alltså vanligen förekommande ord som grooming-förövare kan komma att använda sig av.

• Därefter har ord av sexuell karaktär valts ut från de grooming-konversationer som fanns tillgängliga för att utöka ordlistan ytterligare.

• Orden sparades ner i ett textdokument på en extern hårddisk.

55 Wollis, 2011

56 Bilaga D, Ordlista 1.

29

Ordlista 257 – Frekvensordlista Frekvensordlistan skapas genom att göra en statistisk undersökning av chattloggarna för att på så sätt få fram de mest frekventa orden som ska ingå i ordlistan.

• Det första steget genomfördes genom att välja ut och sortera upp fem stycken harmfulla grooming-konversationer och fem stycken harmlösa chattkonversationer. För att beräkna varje ord och förekomsten av orden i konversationerna användes verktyget Wordcounter.58 Wordcounter är ett verktyg som automatiskt gör denna beräkning, efter att användaren kopierar in texten som ska beräknas som indata. I denna sortering valdes vanliga förekommande ord såsom “the” och “it” bort från beräkningen.

• Efter att varje konversation angivits till Wordcounter och förekomsten av ord beräknats, valdes de 100 mest förekommande orden ut från varje konversation.

• Dessa ord lades sedan in i Office-programmet Excel, i nedfallande led, med de mest förekommande orden i varje konversation först upp i skalan.

• Varje antal förekomster av ett ord dividerades sedan med antal totala ord i den gällande konversationen.

• Nästa steg var att räkna ut ett K-värde, där K-värdet representerar hur frekvent ett ord förekommer i diskussionerna genom att ta ett visst ords förekomster i harmfull diskussion och dividera det med samma ords förekomster i harmlös diskussion;

K1 = HFi / HLi

där HFi är antal förekomster av ord i harmfull diskussion i, och HLi är antal förekomster av ord i harmlös diskussion i.

Kvoten beräknades enligt:

57 Bilaga E, Ordlista 2.

58 Wordcounter, 2004. http://www.wordcounter.com/ (hämtad 2015-03-26)

30

K(1,101) = HFi / HLi

K(1,102) = HFi / HLi …

K(1,105) = HFi / HLi

K(2,101) = HFi / HLi …

K(5,105) = HFi / HLi

I detta steg i processen jämfördes alltså orden i fall 1 med orden i fall 101, fall 1 med fall 102, fall 1 med fall 103 och så vidare fram till fall 105. Detta för att få en frekvens över hur ofta de harmlösa orden förekom i de harmfulla konversationerna. Därefter gjordes samma steg på fall 2, 3, 4 och 5. Fall 2 jämfördes med fall 101, 102, 103, 104 och 105, fall 3 med fall 101, 102, 103, 104, 105 och så vidare fram till sista jämförelsen med fall 5.

• Frekvenserna dividerades därefter med varandra för att få fram en kvot. Förekom inte ordet i den harmlösa konversationen sattes en hög siffra som ett värde på det ordet, och den siffran valdes till 500.

• Sedan summerades dessa så att ett sammanfattande mått på hur harmfullt ordet är totalt kunde påvisas genom: K(Total) = K(1,101)+K(1,102)+ ... +K(5,105)

• I det sista steget efter att resultaten summerats gjordes en ny lista med de ord som förekom mest i konversationerna. Kvoten för varje ord i varje fall summerades och om denna kvot är hög indikerar det att ordet är en indikator på harmfull diskussion.

• Resultatet blev en lista på 251 ord. De ord som var användarnamn rensades bort och de 69 första med högst kvot fick ingå i ordlista 2.

• Orden sparades ner i ett textdokument på en extern hårddisk.

3.5 Val av verktyg Ett av programmen som kommer användas i denna studie heter Overview, utvecklat av Associated Press och stödjs av Knight Foundation. Verktyget är primärt utformad för att hjälpa journalister att

31 automatiskt sortera ett stort antal dokument utifrån ämne för att snabbt hitta vad som är mest förekommande i de dokumenten, och på så sätt hitta ett “scoop”59 att skriva om.

Urvalet i Overview görs med hjälp TF-IDF, term frequency–inverse document frequency, där betydelsen av ord bestäms och k-means clustering där dataset partitioneras till olika kluster. Verktyget har bland annat också använts i kvalitativ forskning och analyser av sociala medier.

Enligt overviewproject.org kan verktyget göra minst tre saker riktigt bra:

- Hitta det du inte ens vet att du letar efter. - Se breda trender/mönster över många dokument. - Gör uttömmande manuell avläsning snabbare, när allt annat misslyckas.60

Verktyget Overview kommer att användas i experimentens första del.

Det andra programmet som ska användas är det IT-forensiska verktyget EnCase. EnCase är en global standard för utredning av digitala medier. Verktyget används vid bland annat brottsbekämpning och bibehåller en kriminalteknisk integritet vid undersökningen.61 EnCase klarar av att hämta data från många olika medier så som hårddiskar, mobila enheter, digitala kameror, internet, bilder och textdokument.62

Verktyget erhåller två typer av basmetoder för att söka efter data. En metod är att använda ordlistor och den andra är att använda enstaka sökord.63

Verktyget EnCase v7.01.02 kommer att användas i experimentens andra del.

59 Wikipedia. 2014. Scoop. http://sv.wikipedia.org/wiki/Scoop (hämtad 2015-04-22)

60 Overview, about. http://overview.ap.org/about/ (hämtad 2015-02-21)

61 Guidance Software. 2015. About Guidance Software. https://www.guidancesoftware.com/about/Pages/about- guidance-software.aspx?cmpid=nav (hämtad 2015-02-27)

62 Guidance Software. 2015. Overview. https://www.guidancesoftware.com/products/Pages/EnCase- Enterprise/overview.aspx (hämtad 2015-02-27)

63 Bunting, 2012, s. 354. 32

3.6 Metod-kritik I den här kvantitativa studien ska två verktyg jämföras med varandra i olika experiment. Då problemställningarna bäst besvaras genom ett mätbart resultat, kommer de resultat som består av kvalitativ data normaliseras till kvantitativ data. Processen kallas för normalisering av data och görs för att lättare få en överblick över resultatet64. Det finns en risk att inte ett exakt och rättvist utfall kommer att presenteras. Detta kommer att finnas i åtanke vid analysen av resultaten då denna studie strävar efter en så rättvis bild som möjligt, utifrån de förutsättningar som finns.

Under arbetets gång har vetenskapliga studier och artiklar sökts och lästs för att få mer kunskap om de områden som detta arbete omfattar. Att hitta böcker och annan litteratur som handlar om data mining har inte varit svårt. ”Data mining tutorial”65 gjord av tutorialspoint.com valdes exempelvis då den gav en grundlig förklaring kring ämnet, däremot gick den inte in på djupet i metoderna för data mining. Boken “Introduction to Data Mining and its Applications”66 skriven av S. Sumathi och S.N Sivanandam har valts som källitteratur till delar av studien. Anledningen till detta är att den innehåller grundlig data mining teori med fördjupning i metoder och applikationer. Boken är skriven för att läsas av de som är tekniskt kunniga inom området men även de som är intresserade av att lära sig om data mining. En nackdel med boken är att den är skriven år 2006 och eftersom data mining är ett ämne som hela tiden utvecklas kan det ha tillkommit nya metoder och gamla ändrats.

Data mining är ett komplext område inom datavetenskapen som bygger på olika vetenskaper och metoder. I denna studie ingår data mining-verktyget Overview som använder sig av metoderna tf- idf och k-means clustering. Därför blev inriktningen att främst studera vetenskap som berörde dessa två metoder för att förstå Overviews arbetssätt. När denna avgränsning var gjord blev det både enklare att välja ut relevant litteratur och studera metoder kopplade till dessa.

Ett flertal artiklar som berör IT-brott och data mining har hittats, och ett fåtal som är specifikt inriktade mot grooming och data mining. Däremot var det mycket svårare att hitta litteratur som kopplade samman data mining och ett IT-forensiskt verktyg. Slutligen hittades en intressant

64 Heaton Research, 2013. Normalization. http://www.heatonresearch.com/wiki/Normalization (hämtad 2015-06-01)

65 Data Mining Tutorial, Simply Easy Learning by turtorialspoint

66 Sumathi och Sivanandam. 2006 33 studie som var av relevans för vår undersökning, ”Digital Forensics and Cyber Crime Datamining”67, skriven av K.K Sindhu och B.B Meshram. Den går igenom sättet för hur en forensisk undersökning och nätverksanalys går till och gör en koppling till data mining. Syftet med studien var att föreslå ett nytt verktyg som är en kombination av digital kriminalteknik och data mining. En nackdel med studien är att den är relativt kort och de går inte vidare in på att förklara hur deras verktyg slutligen utvecklades. Det hade varit intressant att få läsa om hur den kan tillämpas i verkligheten.

En annan studie som har varit intresse inför detta arbete är Melissa Wollis studie “Online Predation: A Linguistic Analysis of Online Predator Grooming”68 som är en grundlig undersökning på hur grooming-förövare bygger upp ett förtroende med sitt offer genom att genomgå olika faser. Studien är intressant då hon listar ord som är vanligt förekommande i de olika faserna. Problemet med studien är att den gör en grov indelning av grooming- konversationers tillvägagångssätt som kanske inte alltid stämmer med verkligheten.

För att säkerställa att informationen om olika metoder och tekniker är aktuell har ett flertal litteraturkällor studerats. Dock bör läsaren ha i åtanke att vissa tekniker har eller kommer att förändras med tiden.

När det gäller insamling av harmfull data inför denna studie valdes den att inhämtas från Perverted-Jusice.com eftersom de tillhandahåller stora mängder data och finns fritt tillgänglig. Metoderna som Perverted-Justice använder sig av kan vara kontroversiella, och organisationens motståndare anklagar dem för trakasserier. Inför denna studie funderades det på att skapa egen data genom att agera minderåriga på olika chattsidor. Då den metoden också kan anses kontroversiell och till och med godtycklig valdes det slutligen data från Perverted-Justice.com. Anledningen till att utländsk chattkonversation valdes är att inga svenska chattkonversationer som innehåller grooming fanns tillgängliga, och det beror på att det är olagligt att avlyssna

67 Sindhu och Meshram, 2012

68 Wollis, 2011 34 chattkonversationer i Sverige69. Dessutom är de förundersökningar som berör grooming sekretessbelagda, och därför kunde inte heller dessa hittas.

För att ha harmlös data att jämföra dessa chattloggar med samlades även data som inte innehåller någon bevisad grooming från www.icq.com. Nackdelar med att hämta data från ett öppet chattforum är att diskussionerna ofta inte är sammanhängande då fler parter ingår i diskussionerna till skillnad från grooming-konversationerna, som består av en förövare och ett offer. På icq.com förekommer ständigt nya chattdeltagare som sporadiskt loggar in och ut ur konversationerna och detta kan bidra till att en röd tråd saknas i deras diskussioner och det blir svårt att avgöra syftet och innebörden med chattkonversationen. Trots de nackdelar som det kan innebära att hämta data från icq.com, är det för den här studien ett relevant forum eftersom det eftersöks vanliga chattkonversationer. Ett annat problem som kan uppstå för denna studie är att mängden harmlös data inte kommer blir lika stor som mängden harmfull data eftersom tiden inte kommer räcka till att samla in så mycket harmlös data. Detta kanske leder till att undersökningen av dessa två dataset inte blir lika resultatrik som om man hade två lika stora dataset att arbeta med. Dock kommer all data i denna studie vara av äkta art. Chattkonversationer är ofta av säregen art då språket oftast består av förkortningar, felstavningar och olika symboler. Vid undersökning av konversationerna kan detta vara ett möjligt problem eftersom viktiga mönster kanske missas i chattkonversationerna. De förkortningar som förekommer i chattkonversationerna kan dock i dagens samhälle tas som väldigt vanliga uttryck. Internetslang är ett myntat begrepp och allmänt känd numera. “Lol” (laughing out loud), “rofl” (rolling on floor laughing), “brb” (be right back)70, och andra uttryck som är förkortningar av engelskan är så vanliga så de bör inte ses som irrelevanta vid skapande av ordlistor. Däremot kan felstavningar ställa till det, då frågan blir om man ska rätta stavfelen och sedan inkludera dem i ordlistan, eller om de bara ska få förbli felstavade och räknas som enskilda ord och separeras från det rättstavade ordet. Även symboler så som “smileys” och andra symboler som representerar känslor genom skriven text71 kan vara en fråga att ha i åtanke vid skapande av ordlistor.

69 Bilaga F, 4 kap. 9a § BrB Olovlig avlyssning.

70 Internetslang, Internet Slang – Internet Dictionary, 2015. www.internetslang.com/ (hämtad 2015-04-25)

71 Wikipedia. 2015.Smiley. http://sv.wikipedia.org/wiki/Smiley (hämtad 2015-04-22)

35

Problemen med studiens två ordlistor kan bli att ordlista 1 innehåller för slumpmässigt valda ord och därför inte ger något utslag och ordlista 2 ger för mycket utslag på ord som är vanligt förekommande i chattkonversationer.

En annan fundering är också att ordlista 2 kommer att göras på för lite data för att den ska anses som vetenskapligt korrekt. För att denna ordlista ska bli så bra som möjligt bör större textmängder ingå i analysen, men på grund av tidsbrist finns ingen möjlighet till att göra detta. Vid skapande av ordlista 2 inkluderas även internetslang och förkortningar. Även felstavade ord kommer att förbli felstavade och inkluderas alltså inte ihop med det rättstavade ordet. Om till exempel ordet “tomorrow” och ordet “tommorow” förekommer kommer de att räknas som två olika ord, trots att det ganska säkert hade kunnat dras en slutsats om att det syftas på samma innebörd. Fristående symboler som förekommer, till exempel smileys och så vidare inkluderas inte överhuvudtaget i ordlistan. Ord däremot som förekommer med symboler inkluderade i ordet kommer också att räknas som enskilda ord, till exempel som “hej^^”, “hornyÖÖ”.

EnCase valdes främst på grund av att det är ett program som idag används vid många IT- forensiska undersökningar. Vi har praktisk erfarenhet av EnCase sedan tidigare och den finns fritt tillgänglig att använda för de studenter som studerar IT-forensik på Högskolan i Halmstad. Att verktyget inte är gratis kan bli ett problem för den som vill upprepa denna studie men inte har tillgång till EnCase. Overview är ett verktyg som vi inte tidigare hört talas om. Att vi har för lite kunskap och ingen erfarenhet alls om programmet kan kanske bli ett problem vid utförande av experimenten och tolkning av resultatet. Verktyget är gratis och fritt tillgänglig på Internet vilket gör att de som vill upprepa experimentet enkelt har möjlighet att göra det. Vi har inte lyckats finna några recensioner eller kritik mot Overview och en anledning till detta kan bero på att verktyget inte används av så många.

Problematik som kan uppstå i experimenten är hur resultaten ska tolkas och presenteras. Delar av undersökningen består av visuell undersökning av verktygen och dessa resultat ska omvandlas till något mätbart. Tanken är att göra upp en tabell och gradera resultaten för att resultatet ska bli överskådligt. I den här graderingen har alla kategorier vägt lika mycket. Kritik mot detta kan vara att kategoriseringarna skulle haft olika betygsgrader. Där till exempel ”träffsäkerhet” väger mer än ”dokumentationsmöjligheter” och så vidare. Tabelluppställning och diagram är att föredra för att vara så tydliga som möjligt och förhoppningen är att kunna redovisa resultaten på så sätt. 36

Då vi är nya inför grooming-brott och analys av sådana texter kan studien kanske visa sig vara bristfällig i vissa avseenden. Med detta sagt vill vi återigen påpeka att det inte är grooming-brott i sig som ska undersökas, utan de två verktygen som har valts ut för studien.

3.7 Experiment Vid eftersökning av misstänkt grooming önskas en snabb process med ett högt träffresultat. I experimenten kommer det göras sökningar på textdokument i programmen Overview och EnCase utifrån ordlistor, sedan ska resultaten dokumenteras i en resultatdel.

Målet med experimentet är att med hjälp av TF-IDF och k-means clustering som programmet Overview använder sig av automatiskt finna ord och mönster i chattkonversationer och på så sätt avgöra om de har ett kriminellt innehåll syftande på grooming. I vår studie kommer specifika ord i meddelanden eftersökas för att på så sätt försöka identifiera misstänkta konversationer. Vi är intresserade av att se om verktyget Overview går att applicera på denna typ av texter och om resultatet blir det förväntade. Därefter ska samma experiment appliceras på EnCase.

3.7.1 Experimenthypotes Det förväntade resultatet av experimenten som kommer att genomföras på programmet Overview är att detekteringen av grooming kommer att vara resultatrik. De ordlistor och textdokument som har förberetts för att genomföra detekteringen kommer att ge resultat med de metoder som programmet använder.

Hypotesen grundar sig på att programmet testades innan påbörjade experiment, på slumpmässig data i syfte att lära sig hur programmet fungerade.

I experimenten där EnCase undersöks, förväntas även här att den detekteringen kommer att ge resultat för misstänkt grooming enligt de nyckelord som sökningarna görs på.

Denna hypotes grundar sig på att vi har jobbat med EnCase tidigare och av erfarenhet vet att den inbyggda sökfunktionen i programmet ger ett gott resultat. 37

Däremot förväntas stor skillnad i hur programmen redovisar resultaten och även vissa tidsskillnader på hur snabbt de arbetar.

38

3.7.2 Experimentuppställning

Experiment 1. A. Utförs i Overview. För att avgöra om det snabbt går att identifiera misstänkt grooming laddas en av de harmfulla konversationerna, fall 11, upp i Overview tillsammans med de 6 dokumenten som är av harmlös karaktär, fall 101-106. Ordlista 1 ska sedan köras mot dessa dokument. Vid en mätning ska det påvisas att orden förekommer mer frekvent i harmfull konversation än i harmlös konversation.

B. Utförs i EnCase Undersökningen följer samma tillvägagångssätt som i experiment 1A. Harmfull- och harmlös konversation ska undersökas mot ordlista 1.

Experiment 2. A. Utförs i Overview. I experiment 2 används ordlista 2 istället. Samma dokument som experiment 1 ska användas i undersökningen. Syftet med experiment 2 är att undersöka om resultatet påvisar en högre träff på den harmfulla diskussionen än i experiment 1.

B. Utförs i EnCase Samma dokument som i experiment 2A ska undersökas mot ordlista 2.

Experiment 3. A. Utförs i Overview I detta experiment ska ordlista 2 användas igen men istället för fall 11, som används i experiment 1, ska fall 4 laddas upp. Fall 4 är också av harmfull karaktär. Det intressanta med att undersöka fall 4 är att den konversationen ingår i uppbyggnaden av ordlista 2. Fall 101- 106 ingår också i denna undersökning.

B. Utförs i EnCase

39

Ett nytt fall läggs upp i EnCase där fall 4 och fall 101-106 ingår. Här ska ordlista 2 köras mot dessa fall.

Jämförelse av programmen Overview och EnCase7.

För att få en uppfattning vilket av programmen som är mest tillämpbar för detektering av harmfulla diskussioner ska en jämförelse göras baserat på olika parametrar. Dessa parametrar är endast riktlinjer som är av intresse för den här studien och det som är intressant att undersöka är:

- hur snabbt görs sökningarna - hur presenteras resultaten - dokumentationsmöjligheter - implementation av ordlistorna - hur många träffar sökningarna ger

Det som ska undersökas är verktygens procedur för hur snabbt dokumenten laddas upp och sorteras och samt hur proceduren ser ut vid implementation av ordlista. Denna arbetstid kommer att mätas med ett tidur. Verktygens sökfunktion ska kontrolleras genom att undersöka deras träffsäkerhet vid sökning med hjälp av ordlistor. Slutligen kommer även verktygens presentation av resultat och dokumentationsmöjligheter undersökas genom att kontrollera om verktyget har en sådan befintlig inbyggd funktion.

40

4 Resultat

Resultatet av utförda experiment presenteras här nedan i korstabeller och diagram. Test av beroende görs på resultaten från experimenten.

4.1 Experiment 1A - med ordlista 1.72 Den här delen av experimentet omfattar test av verktyget Overview tillsammans med ordlista 1. Ordlista 1 är av sexuell karaktär och har skapats med Wollis studie som grund.

När ordlista 1 körs i Overview får programmet träff i 6 dokument totalt. Fall 11 och 102-106.

Experimenten har två händelser, A=Träff och B=Icke Träff, och det ska nu testas om dessa händelser är beroende.

Detta görs först genom att formulera hypotesen.

�! : A B

�! : A ⊥ B

Där �! visar på oberoende och �! på beroende.

Test av hypotesen görs enligt följande. Ett experiment utförs � gånger och för varje gång det utförs inträffar antingen A eller AC, och varje gång antingen B eller BC.

Sammanfattningsvis har i experiment 1A med ordlista 1; A ∩ B inträffat �!" gånger C A ∩ B inträffat �!" gånger C A ∩ B inträffat �!" gånger C C A ∩ B inträffat �!! gånger enligt Tabell 1.

72 Bilaga D, Ordlista 1.

41

Overview Antal träffar Antal icke träffar Totalt antal ord

Harmfull diskussion (fall 11) 23 46 69

Harmlös diskussion (fall 101-106) 14 55 69

Totalt antal träffar 37 101

Tabell 1. Resultat av experiment 1A utförd med programmet Overview med ordlista 1.

Harmfull Harmlös Träff 20% Träff 33%

Ej Träff 67% Ej Träff 80%

Figur 2. Resultat från experiment 1A, träff med Figur 3. Resultat från experiment 1A, träff med ordlista 1 i harmfull diskussion. ordlista 1 i harmlös diskussion.

där

�! = �!"+ �!" (första radsumman, 69)

�!= �!"+ �!! (andra radsumman, 69)

�! = �!"+ �!" (första kolumnsumman, 37)

�! = �!"+ �!! (andra kolomnsumman, 101)

42

Teststatistikan är:

(�!"�! − �!"�! ) � � = �!�!�!�! där � är det totala antalet gånger experimentet utförts:

� = �!" + �!" + �!" + �!!

Förkasta:

Beräkningen för Experiment 1A med ordlista 1 blir då

!" ·!"!!!" ·!" · !"# !"#$,!" � = = = 1,7295 !" ·!"! ·!" ·!" !"#$.!"

Varmed �! inte kan förkastas på någon rimlig signifikansnivå eftersom 1,73 ≯1,96 = λ0.025. p–värdet blir 0,0418.

Det går alltså inte bevisa att händelsen att man får träff med Overview är beroende av vilken typ av diskussion det är fråga om.

43

4.2 Experiment 1B – med ordlista 1 Den här delen av experimentet omfattar test av verktyget EnCase tillsammans med ordlista 1. Ordlista 1 är av sexuell karaktär och har skapats med Wollis studie som grund.

Träff i alla 7 dokumenten, både den harmfulla och alla de harmlösa.

EnCase7 Antal träffar Antal icke träffar Totalt antal ord

Harmfull diskussion (fall 11) 23 46 69

Harmlös diskussion(fall 101-106) 15 54 69

Totalt antal träffar 38 101

Tabell 2. Resultat av experiment 1B utförd med programmet EnCase med ordlista 1.

44

Harmfull Harmlös Träff Träff 22% 33%

Ej Träff 67% Ej Träff 78%

Figur 4. Resultat av experiment 1B, träff med Figur 5. Resultat av experiment 1B, träff med ordlista 1 i harmfull diskussion. ordlista 1 i harmlös diskussion.

Beräkningen för Experiment 1B med ordlista 1 blir

!" ·!"!!!" ·!" · !"# !""#,!"# � = = = 1,5859 !" ·!"! ·!" ·!" !"#!,!!

Varmed �! inte kan förkastas på någon rimlig signifikansnivå eftersom 1,59 ≯ 1,96 = λ0.025. p –värdet blir 0,0059.

Det går alltså inte bevisa att händelsen att man får träff med Overview eller EnCase är beroende av vilken typ av diskussion det är fråga om.

45

4.3 Experiment 2A och 2B– med ordlista 2.73

Den här delen av experimentet omfattar test av båda verktygen Overview och EnCase tillsammans med ordlista 2, ordlistan som har skapats med en frekvensanalys.

I detta experiment användes den ordlista som skapats utifrån ordfrekvensanalysen av chattkonversationerna.

Overview och EnCase får lika antal träffar och träff i alla dokumenten.

Overview och Encase7 Antal träffar Antal icke träffar Totalt antal ord

Harmfull diskussion (fall 11) 50 19 69

Harmlös diskussion (fall 101-106) 48 21 69

Totalt antal träffar 98 40

Tabell 3. Resultat av experiment 2A och 2B utförd med programmen Overview och EnCase med ordlista 2.

73 Bilaga E, Ordlista 2.

46

Harmfull Harmlös

Ej Träff Ej Träff 28% 30%

Träff Träff 72% 70%

Figur 6. Resultat av experiment 2A och 2B, träff med Figur 7. Resultat av experiment 2A och 2B, träff med ordlista 2 i harmfull diskussion. ordlista 2 i harmlös diskussion.

Beräkningen för Experiment 2A och 2B med ordlista 2 blir

!" ·!"!!" ·!" · !"# !"#!,!"#$ � = = = 0,3753 !" ·!" ·!" ·!" !"#$,!"

Varmed �! inte kan förkastas på någon rimlig signifikansnivå eftersom 0,38 ≯ 1,96 = λ0.025. p –värdet blir 0,352.

Det går alltså inte bevisa att händelsen att man får träff med Overview eller EnCase är beroende av vilken typ av diskussion det är fråga om.

47

4.4 Experiment 3A och 3B – med ordlista 2 Den här delen av experimentet omfattar test av båda verktygen Overview och EnCase tillsammans med ordlista 2, ordlistan som har skapats med en frekvensanalys. Experimentet skiljer sig från experimenten ovan då sökningen nu görs med en ny chattkonversation inkluderad.

I detta experiment användes ordlista 2 men fall 11 byttes till fall 4 istället. Fall 11 ingick i experiment 1 och 2, och till det här sista experimentet byts det alltså fall.

Fall 4 är också av harmfull karaktär men skillnaden ligger i att fall 4, till skillnad från fall 11, ingick i den ordfrekvensanalys som gjordes inför skapandet av ordlista 2.

Overview och EnCase får lika antal träffar och träff i alla dokumenten.

Overview och Encase7 Antal träffar Antal icke träffar Totalt antal ord

Harmfull diskussion (fall 4) 64 5 69

Harmlös diskussion (fall 101-106) 48 21 69

Totalt antal träffar 112 26

Tabell 4. Resultat av experimenten 3A och 3B utförd med programmen Overview och EnCase med ordlista 2.

48

Harmfull Harmlös Ej Träff 7% Ej Träff 30%

Träff Träff 93% 70%

Figur 8. Resultat av experiment 3A och 3B med Figur 9. Resultat av experiment 3A och 3B, träff med ordlista 2 i harmfull diskussion. ordlista 2 i harmlös diskussion

Beräkningen för Experiment 3A och 3B med ordlista 2 blir

!" ·!"!! · !!" · !"# !"#$#,!" � = = = 3,48308 !!" · !" ·!" ·!" !"#!,!!

Varmed �! kan förkastas på signifikansnivån 1 % eftersom 3,48 > 1,96 = λ0.025. p -värdet blir 0,0002.

Det går alltså bevisa att händelsen att man får träff med Overview eller EnCase är beroende av vilken typ av diskussion det är fråga om.

49

4.5 Jämförelse av programmen Overview och EnCase7. Skillnaden på de två programmen som användes för att utföra experimenten presenteras är nedan i tabellform. I avsnitt ”5.3 Det mest tillämpbara verktyget” presenteras resultaten lite mer ingående.

Uppställningen nedan ger en bild av hur programmen hanterade de olika momenten.

Jämförelse Overview EnCase7

Arbetstid Snabbare arbetstid Långsammare arbetstid

Implementation av ordlista Lättare implementation Svårare implementation

Träffsäkerhet Sämre träffsäkerhet Bättre träffsäkerhet

Presentation av resultat Bättre presentation Sämre presentation

Dokumentationsmöjligheter Har ej dokumentationsmöjlighet Har dokumentationsmöjlighet

Tabell 5. Resultat av jämförelse gjord på programmen Overview och EnCase7.

50

I Figur 10 redovisas resultaten i ett stjärndiagram. Där går det att utläsa att EnCase har övertag i kategorierna: ”Dokumentationsmöjligheter” och ”Träffsäkerhet”. Overview har övertag i kategorierna: ”Arbetstid”, ”Implementation av ordlista” samt ”Presentation av resultat”.

Figur 10. Stjärndiagram över resultat på jämförelse av programmen Overview och EnCase7.

51

52

5 Analys

Detta avsnitt kommer att besvara de problemställningar som ligger som grund för denna studie, och ämnar till att göra en granskning mellan verktygen Overview och EnCase samt de utförda experimenten. Analysen som görs i detta avsnitt kommer relatera till resultaten från experimenten, dessa resultat kommer diskuteras vidare i avsnitten för slutsats och diskussion.

5.1 Identifiering av grooming-konversationer

Till vilken grad kan misstänkt grooming i chattkonversationer identifieras med hjälp av k-means clustering och data mining-programmet Overview?

Till vilken grad kan det IT-forensiska verktyget EnCase och dess inbyggda sökfunktioner identifiera misstänkt grooming i chattkonversationer?

Metoderna tf-idf och klustertekniken k-means som Overview använder sig av samt den teknik som EnCase använder sig av, bland annat indexering Outside In, har visat sig i lika hög grad kunna detektera misstänkt grooming i chattkonversationer. De båda verktygen fick samma antal träffar vid sökningarna och följaktligen kan man inte skilja de båda verktygens tillämpbarhet för att identifiera misstänkt grooming i chattkonversationer.

53

5.2 Test av beroende Med de resultaten vi har fått fram från utförda experiment kan inte några definitiva slutsatser dras. Resultaten är endast indikationer på samband och diskussionsunderlag, och för att finna en definitiv slutsats gjordes ett test av beroende med hjälp av resultaten i korstabellerna.

Hypoteserna sattes till

H0: A oberoende av B

H1: A beroende av B där A=träff och B=icke träff

Resultatet av testerna visade att vid experiment 1A, 1B, 2A och 2B är antalet träffar oberoende av om det är en harmfull eller harmlös diskussion, vilket inte är att föredra. Däremot vid experimenten 3A och 3B med ordlista 2 visade hypotestestet på signifikant skillnad och resultatet blev att antalet träffar är beroende av om det är en harmfull eller harmlös diskussion.

5.3 Det mest tillämpbara verktyget Vilket av dessa två verktyg är mest tillämpbar för en framgångsrik detektering av grooming i chattkonversationer, och vilka skillnader finns det i resultatet?

För att besvara den här problemformuleringen så tydligt som möjligt så presenteras analysen nedan, utifrån de kategoriseringar som tidigare har gjorts i fråga om jämförelse av programmen.

Arbetstid - Overview/EnCase

Ladda upp dokument i Overview tog i det här fallet cirka fem sekunder och även tiden programmet tog på sig att granska och sortera dokumenten utifrån mest förekommande ord tog cirka fem sekunder.

Då EnCase är ett IT-forensiskt verktyg är proceduren annorlunda. Programmet gör först en utvinning och avbild av det material som ska undersökas. I detta fall tog det cirka två minuter för programmet att slutföra hela den processen. 54

För att beräkna tidsskillnaden som programmen arbetar använder vi oss av min- och maxpunkter; min(10,120) = 10, vilket visade på att Overview arbetade snabbare än EnCase.

Implementation av ordlista och sökning - Overview/EnCase

Att ladda upp en ordlista i Overview är en enkel procedur, via funktionen “” som finns i programmet kopieras ordlistan in.

I EnCase är det också enkelt att implementera in en ordlista, däremot måste man först spara ordlistan i en särskild mapp. Därefter väljs att en sökning ska göras efter “keywords” och nu kan orden som ska sökas i dokumenten implementeras.

Resultaten blev att Overview tillhandahåller en enklare procedur för implementation av ordlistor än EnCase.

Träffsäkerhet - Overview/EnCase

Vid sökning av ordlista 1 missar Overview ordet “Horny”. Att inte Overview hittar just det ordet beror på att direkt efter ordet förekommer två tecken “ÖÖ” (Feeling HornyÖÖ looking) som troligtvis är två “smiley” symboler. Med sökning av ordlista 2 får Overview träff i alla relevanta dokument.

EnCase fick träff på alla ord som var av intresse i ordlista 1 och 2.

Eftersom Overview missade ett ord blev resultatet att EnCase har bättre träffsäkerhet.

Presentation av resultat - Overview/EnCase

När sökningen är gjord visar Overview en siffra vid varje ord, siffran representerar antal dokument ordet förekommer i, se Figur 7 i Bilaga E74. Klickar man på siffran visar programmet vilka

74 Bilaga E, Ordlista 2. 55 dokument det handlar om. Klickar man på respektive dokument ser man hur många gånger ordet förekommer i respektive dokument, se Figur 8 i Bilaga E. Det går även att välja ett eller flera ord i ordlistan (låsa det) och göra sökningen därifrån. Exempelvis om man låser ordet “understand” och gör sökningen så redovisas de dokument som innehåller både “understand” och resterande ord från ordlistan.

EnCase visar de dokument som innehåller de ord som sökts efter men inte antal ord som förekommer i dokumenten, och inte heller exakt vilka ord som förekommer. I de två olika ordlistorna som har använts finns 69 ord i vardera, men EnCase visar inte vilka av de här 69 orden som ger utslag i sökningen. Det går däremot att se orden i form av att programmet markerar dessa gult i varje textfil, se bild 9 i Bilaga E. För att kunna göra en beräkning enligt samma modell som vid undersökningen av Overview, räknades orden manuellt och detta påvisade samma siffror som för Overview.

Resultatet blev att Overview tillhandahåller en bättre presentation av resultat än EnCase.

Dokumentationsmöjligheter - Overview/EnCase

I Overview finns det möjlighet att “tagga” ord som är av intresse men förutom det finns det inga dokumentationsmöjligheter.

EnCase ger möjligheten att i programmet dokumentera allt av intresse och även framställa en rapport.

Resultatet blev att EnCase har dokumentationsmöjligheter, men inte Overview.

56

6 Diskussion och Slutsats

Här förs en diskussion kring resultaten och en reflektion kommer även göras över de problem som denna studie handskades med. Studiens syfte besvaras i slutsatsen. Även förslag på fortsatt arbete ges.

6.1 Diskussion Vid uppstarten av denna studie var det ganska klart vad målet var, det var att jämföra verktygen Overview och EnCase mot varandra. Vad som var mindre klart var hur vi skulle gå tillväga för att nå målet och lyckas besvara problemställningarna.

En tanke var att först använda oss av EnScript i EnCase och skapa ett skript motsvarande k- means clustering och på så sätt göra sökningar i chattkonversationerna. Men om det skulle göras ett eget skript ansåg vi att studien skulle ta en annan väg. Skriptet måste designas och utvecklas med programutveckling och då började vi tänka om. En annan tanke var då att inte använda EnCase alls, och istället utveckla ett skript i ett annat programmeringsspråk så som Java. Men så småningom bestämdes det slutligen att hålla sig till EnCase och dess inbyggda sökfunktioner. I problemdiskussionen nämnde vi att i och med att valet gjordes att använda inbyggda sökfunktionerna i EnCase så begränsades även denna studie en hel del.

Planen var från början att själva agera minderåriga på olika svenska chattsidor för att på så sätt samla in chattkonversationer till ett dataset som skulle användas vid experimenten. På det här sättet skulle vi kunna få dessa på svenska och kunna skapa ordlistor utifrån svenska ord istället. Men tidsramen tillät inte detta, då det skulle ta tid att samla in så mycket data, och dessutom skulle mycket tid läggas på att inte leda de här chattkonversationerna vid kontakt med en förövare. Däremot ville vi fortfarande undersöka problematiken kring grooming och hur vanligt förekommande det är på chattsidor där barn och ungdomar chattar. Därför gjordes ett par tester där vi loggade in med diverse olika namn, till exempel ”Josse13”, ”elinnn11”, ”pillan” med mera.

57

Det dröjde inte länge innan vi blev kontaktade av andra användare med användarnamn så som ”singelpappa”, ”kille232”, ”killegbg” med mera. När vi blev tillfrågade om vår ålder skrev vi olika åldrar från 11-14 år. Av cirka 40 stycken chattkonversationer var det två personer som drog sig ur och loggade ut från chattkonversationen när vi nämnde vår påhittade ålder. Då skrev de helt enkelt ”du är för ung” eller bara ”hej då”. Utöver dessa två verkade inte åldern vara något som bekymrade de andra chattdeltagarna. De fortsatte istället att ställa frågor så som ”gillar du äldre killar?”, ”hade du velat mysa?” med mera. En hel del frågade även om man istället ville fortsätta konversationen på andra chattsidor, där sajtägarna inte har samarbete med polisen eller övervakning av konversationerna. Några användare skickade även bilder på sina könsdelar.

Våra två första problemställningar handlade om att undersöka till vilken grad verktygen kan identifiera misstänkt grooming i chattkonversationer med hjälp av dess egna metoder. Overview använder sig av metoderna tf-idf och k-means clustering som enligt vår åsikt är avancerade metoder. Att göra en jämförelse med de metoder EnCase använder sig av vid sökning i dokument hade varit intressant, men då det är konfidentiell information fick vi inte fram exakt vilka metoder verktyget tillämpar. Den informationen om dess metoder som ingår i den här studien är alldeles för knapphändig för att kunna göra en relevant jämförelse av metoderna. Därför blir det svårt att dra någon slutsats om metoderna i sig, men emellertid kan verktygen fortfarande granskas. Valet av verktyget EnCase grundar sig på eget intresse men hade vi valt ett forensiskt verktyg med öppen källkod kunde vi ha redovisat dess metoder mer ingående. När det gäller huruvida verktygen klarade av att identifiera misstänkt grooming i chattkonversationer missade Overview ord i chattkonversationen då det förekommer symboler intill ordet. Anledningen är att verktyget endast letar efter hela ord. EnCase däremot kunde detektera det specifika ordet. I vår studie var detta inte av betydelse då ordet för det första bara återfanns en gång och för det andra återfanns det i harmlös diskussion. Men i verkligheten kan många chattkonversationer se ut på detta vis, att symboler ligger i direkt anslutning till orden. Vi menar på att det kan få konsekvenser vid analys av chattloggar om de orden inte visas som träff vid sökningen. Overview tillhandahåller en så kallad fuzzy sökning som kan kringgå detta problem men man måste då på förhand veta vilket ord som den sökningen ska göras på, vilket kan försvåra processen.

58

Vid uppstarten och insamlande av data hade vi 14 stycken harmfulla chattkonversationer och 6 stycken harmlösa att jobba med. Egentligen fanns det mycket mer material att tillgå på de sidor där vi inhämtade informationen. Vi nämnde i problemdiskussionen att vårt största problem skulle bli insamling av data med tanke på vilken tid det kan ta och i och med att vi skulle skapa ordlistor utifrån dessa chattkonversationer och den tidsramen som vi hade, fick vi begränsa oss till enbart 20 chattkonversationer totalt. Detta kan såklart utökas och på så sätt kanske förbättra ordlistorna ytterligare. Att vår studie använder sig av en mindre mängd data kan vara till nackdel och vi är fullt medvetna om att om undersökningen gjorts på en större mängd kanske resultatet blivit annorlunda.

En betydande observation vid utfört experiment som är värd att nämnas är att EnCase inte kunde göra sökningar i .docx filerna som vi först använde oss av och därför behövdes experimentet göras om. Detta hade vi inte ens tagit med i åtanke som ett eventuellt problem som kunde uppstå. Vi löste det snabbt genom att spara ner filerna som .txt filer istället och ett nytt fall kunde då skapas i EnCase och således kunde sökningarna genomföras.

På grund av tidsbrist genomfördes de tre experimenten endast en gång var på respektive verktyg, och det kanske hade varit önskvärt att dubbelkolla och köra experimenten en extra gång. Vi kände däremot inget behov av det och om misstanke hade uppstått att något blev fel i den första experimentomgången, hade självklart dessa gjorts om på nytt för att undvika ofullständigt resultat.

Att både Overview och EnCase till lika hög grad kan detektera misstänkt grooming i chattkonversationer, enligt denna studie, visar på att den IT-forensiska teknologin och data mining går hand i hand. Både vid data mining och vid IT-forensiska undersökningar ska stora mängder data bearbetas och det kan vara en anledning till att de är uppbyggda på liknande sätt. Vår tredje problemställning handlade om att besvara vilket av verktygen som är mest tillämpbar för att framgångsrik detektera grooming i chattkonversationer, och vilka skillnader resultatet uppvisade. För den oinvigde kan programmet EnCase te sig vara väldigt komplicerad vid första anblick, medan Overview upplevs som mer lättförståelig enligt oss. Då vi inte hade någon

59 praktisk erfarenhet av Overview när experimenten skulle genomföras var vi lite fundersamma på om det skulle ta tid att lära sig programmet. Därför gjordes några test-experiment innan studiens experiment. Det visade sig att Oveviews funktioner och användningssätt inte alls var komplicerade och vi fick snabbt en förståelse hur verktyget arbetade. EnCase har vi jobbat med tidigare, och därför underlättade det för oss att genomföra de delarna av experimenten som berörde det programmet. För någon som är oerfaren av programmet kan EnCase upplevas som svårt och komplicerat. Overview är som sagt ett data mining-verktyg och programmet arbetade snabbt. Att ladda upp dokument och ordlistor i programmet var smidigt, sökningarna gick mycket fort och presentationen var utformad på ett enkelt men presentativt sätt. Vi blev lite förvånade över att se att Overview tillämpar flera sökfunktioner som återfinns i EnCase, såsom exempelvis GREP-funktionen, sökning på versaler och gemener samt sökning på hela eller delar av ord. Vi testade dessa olika funktioner i båda programmen, men då de inte har relevans för studien har de inte redovisats.

Ett problem vi hade från början var hur vi skulle åskådliggöra jämförelsen av de båda verktygen och hur resultatet skulle presenteras. Vi valde ut ett fåtal relevanta kategorier att undersöka närmare men ingen vidare undersökning om hur olika relevanta dessa kategorier är sinsemellan. I verkligheten är detta inte att föredra eftersom det exempelvis kanske inte spelar roll att EnCase tar lite längre tid på sig att göra sökningarna om det i slutändan visar på en tillförlitlig procedur. Valet att betygsätta på det viset vi gjorde var för att vi själva inte ville lägga in våra egna åsikter på vilken kategori som väger tyngre än en annan. Trots dessa problem tycker vi att vi lyckats bra med jämförelsen och förhoppningsvis har vi fått med de kategorier som är av störst intresse för användaren.

Att EnCase enligt denna studie visade sig mindre tillämpbart verktyg vid detektering av grooming i chattkonversationer beror på, enligt oss, att EnCase är ett mer komplext program och därför tar exempelvis dess sökningar längre tid. Detta visar dock inte på att verktyget EnCase inte kan utföra arbetet med just sökningarna. Om syftet är att detektera enstaka ord, och antal förekomster av ord för att få ett mer statistiskt perspektiv är inte EnCase att föredra enligt oss. Programmet hittar orden, men är inte anpassat för att redovisa exakta utslag och förekomster av ord. Det ska således inte glömmas bort att i EnCase finns möjligheten att implementera ett eget

60 skript via EnScript, för att förbättra sökresultaten. En annan funktion som väger till EnCase fördel är programmets dokumentationsmöjligheter. Efter avslutad utredning och sökningar går det att bokmärka det som är av intresse och det som man vill redovisa, för att sedan via funktionen “Report” få dessa bokmärken automatiskt inlagda i en färdigställd rapport. Denna möjlighet eller något liknande som sammanställer efter att en sökning har gjorts finns inte tillgänglig för Overview. EnCase är anpassat för IT-forensiska undersökningar och detta kunde man se spår av vid de olika sökningarna. Hashsummor, filstorlek, tidsstämplar med mera var information som kunde hittas om filerna. Dessa uppgifter var inte relevanta just för den här uppsatsen och de sökningarna vi gjorde och därför är de exkluderade. Att EnCase arbetar på detta vis gör att det förberedande arbetet tar längre tid än i Overview. Men när ett ärende väl är inlagt i programmet görs sökningarna relativt snabbt. Trots detta arbetar Overview snabbare än EnCase och vår hypotes om programmens arbetstid stämde.

Vid grooming-brott skapar förövaren en falsk identitet och chattar med minderåriga under en tid för att bygga upp en bekantskap som offret känner sig trygg i. Förövarens syfte är att så småningom utnyttja offret sexuellt. Eftersom grooming-brott idag knappt alls detekteras i tid tyckte vi att det var en intressant uppgift att undersöka om Overview kunde vara till nytta i förebyggandet av sexuell kriminalitet på nätet. Efter genomförd studie anser vi att Overview kan användas i förebyggande syfte om mötet mellan förövare och offer inte har skett ännu. Men då ska detta vara grundat på att man har väl utförda ordlistor att implementera och använda sig av direkt. Till exempel om ansvarig på en webbsida anar suspekta chattkonversationer, ska denna lätt kunna kopiera in en särskild ordlista i Overview, och därmed snabbt kunna göra en sökning. På så sätt kan de snabbt se om grooming försiggår och vidta åtgärder, och slipper även läsa genom alla dokument.

En intressant aspekt som inte undersöks i denna studie är hur polisen jobbar med grooming idag, och hur de spårar förövarna. I problemdiskussionen nämndes att en svaghet med denna studie är att undersökningen inte gjordes på ”live-data”. Det hade varit mycket intressant att få mer inblick i hur analys på pågående chattdiskussioner görs. Att vi innan studiens början inte hade någon som helst praktisk kunskap om hur man identifierar och detektera grooming tror vi har varit till nackdel för oss. Efter att vi har läst studien Online Predation: A Linguistic Analysis of Online

61

Predator Grooming75 skriven av Melissa Wollis fick vi en förståelse om att grooming-förövare arbetar under lång tid med sitt tilltänkta offer och skiftar sitt språkbruk genom ett flertal faser. Denna studie har varit oss behjälpliga även om det har varit svårt för oss att fullt ut förstå vilka ord och fraser som används och när de används. Vi tycker dock att vi lyckats bra under de förutsättningar vi hade.

Det finns inga tidigare studier som har gjorts som har jämfört Overview och EnCase, och dessutom testat verktygen med två olika ordlistor. Därför är denna uppsats en unik jämförelse mellan de två verktygens metoder. Den tidigare utförda studien Suspicous data mining from chat and email76, skriven av S. Gowri, G.S Anandha Mala och G. Divya, var snarlik vår studie med tanke på att de använde sig av en ordlista för att eftersöka misstänkta konversationer i email och chattloggar. Det är svårt för oss att fullt ut avgöra hur bra deras modell är jämfört med vår studie eftersom de inte fullt ut har presenterat sitt resultat. Men i slutsatsen nämner de att deras modell rensar data från bland annat stoppord och efter det görs sökning. När man ska undersöka stora mängder data är det en fördel om man har ett verktyg som automatiskt rensar data från onödiga ord och symboler. I Overview finns möjligheten att själv välja de ord som inte ska inkluderas i sökningen samt att man kan välja de ord som ska vara av särskilt vikt vid en sökning. Eftersom verktyget Overview har samma egenskaper som den modell de tagit fram i sin studie känns vårt resultat mycket snarlikt deras resultat. De nämner, för vidare studier, att det finns behov av ett system som automatiskt letar efter de eftersökta orden i epost och chattmeddelanden och efter det sparas bara de meddelanden som är av intresse och resten raderas bort från databasen. Vår åsikt är att det låter som en god idé men för att säkerställa att inte fel data rensas behöver systemet ett flertal säkerhetsnivåer.

I problemdiskussionen nämnde vi att vår studie kanske inte skulle komma fram till något nytt och revolutionerande inom området på grund av att vi inte själva utvecklade någon ny metod. Med facit i hand kan vi konstatera att studien inte visar på någon ny teknik. Men studien visar på, enligt vår åsikt, att data mining, IT-forensik och dessutom lingvistik är en intressant kombination

75 Wollis, 2011

76 Gowri, Anandha och Divya, 2014

62 att jobba utifrån. Vår förhoppning är att denna studie ska bidra till tankar om nya arbetsmetoder som kan användas inom till exempel sociala forum där barn och ungdomar surfar. En tanke är att man med en väl bearbetad ordlista snabbt ska kunna göra en sökning genom chattkonversationer för att kunna utesluta om grooming förekommer eller inte. Om en webbsideansvarig får in en anmälan om grooming eller själv upptäcker något som inte verkar stå rätt till, så är det en stor fördel att slippa läsa genom alla konversationer.

Ett utmärkande drag för studien är att vi inte endast håller oss till bitar som av många kan uppfattas som enbart akademiska och tekniska. Vi har även infört en del teori om grooming som brott för att väcka en viss opinionsbildning kring brottet och dess lagstiftning i Sverige. Det verkar även som att grooming inte är ett allmänt känt brott. Det är viktigt att lyfta fram frågan och även att uppmuntra till anmälan om man misstänker att någon utsatts för grooming. Detta har varit en viktig punkt och därför har vi även förlagt en del av studien kring dessa frågor, men även separerat dessa från de delar som berör experimenten.

Med den här studien och jämförelserna som vi har gjort ville vi påvisa vår kapacitet att göra utredningar. Genom inhämtning och raffinering av data som sen granskats och analyserats har vi påvisat vår förmåga att göra den djupare undersökningen som nextgenforensic77 efterfrågade. Det resultat som vi fick fram gällande Overview överensstämde en hel del med resultatet som Ian A. Elliot kom vi fram till vid sin undersökning av Overview. Det som skiljer våra studier åt är att vi även gör en jämförelse av Overview med ett IT-forensiskt verktyg. Vi tycker vår studie visar på ett framåtskridande i det IT-forensiska området eftersom vi klargör att data mining-verktyget Overview går att använda för att identifiera misstänkt grooming i chattkonversationer och även att Overview är snäppet bättre än EnCase när det gäller tillämpbarheten vid undersökning av chattkonversationer innehållande grooming.

Det har varit mycket intressant att få göra en jämförelse mellan ett text-analys verktyg och ett IT- forensiskt verktyg. Genom att utföra denna studie har vi fått praktisk användning av våra

77 Ian A. Elliott, 2014

63 kunskaper och vi har specifikt fått tillämpa våra kunskaper inom statistiken genom att göra en sammanställning av ord och skapat en frekvensordlista samt utfört test av beroende på resultaten

6.2 Slutsats

Idén till denna studie kom från ett forum där en professionell IT-forensiker efterfrågade en djupare undersökning av programmet Overview för att se om det går att tillämpa vid IT- forensiska undersökningar. Vi antog utmaningen och det huvudsakliga syftet med denna studie var att utifrån en experimentell undersökning försöka identifiera misstänkta grooming- chattkonversationer med hjälp av data mining-verktyget Overview och det IT-forensiska verktyget EnCase.

De efterforskningar som har gjorts inför denna studie visar på att data mining går att tillämpa inom det IT-forensiska området. Många av de studier som vi har läst har haft som uppgift att ta fram en modell som inte bara kan utvinna stora mängder data utan även bearbeta och tvätta den innan analys görs. Då vi använde av oss två redan utvecklade verktyg tog vår studie en annan väg och mer fokus lades på att testa om verktygen kunde identifiera misstänkt grooming i chattkonversationer.

Att upptäcka grooming i chattkonversationer är inte enkelt då förövaren oftast har kontakt med sitt offer under lång tid. I studien gjord av Wollis78 undersöks grooming-förövares språk genom att analysera deras chattkonversationer. Målet med undersökningen är att visa på att de dömda grooming-förövarna har pratat med sina offer på ett identifierbart sätt. Analysen visar på ett klart och signifikant mönster i förövarens chattspråk. För vår del har denna studie var oss behjälpliga på så sätt att vi har fått förståelse om vilka ord som kan eftersökas i chattkonversationerna.

Undersökningen bestod av tre olika experiment med två olika ordlistor och det förväntade resultatet i alla experimenten var att Overview och EnCase skulle finna de eftersökta orden men

78 Wollis, 2011

64 den mest markanta skillnaden antogs vara hur programmen redovisar resultaten och tidsåtgången vid förfarandena. Valet av att dela upp experimenten i tre delar grundade sig inte på att kontrollera verktygen extra noga utan syftet var att se hur stor betydelse val av ord i ordlistan hade för resultatet. Vilken typ av ordlista som användes visade sig ha stor betydelse.

Hypotestest utfördes för att kunna dra slutsats om det bara var slumpen som var orsaken till de erhållna värdena eller om något av experimenten visade på ett beroende mellan träff i harmfull och harmlös diskussion. Efter genomförda experiment stod det klart att båda verktygen till lika hög grad kunde detektera misstänkta chattkonversationer som innehåller grooming och detta visar på att dess metoder är likartade.

Eftersom Overview visade på bättre resultat än EnCase i tre stycken kategorier och EnCase fick bättre resultat än Overview i två kategorier visar jämförelsen på att Overview fick ett högre resultat än EnCase och svaret på frågan vilket av verktygen som är mest tillämpbar vid detektering av grooming i chattkonversationer blir då Overview enligt denna studie.

Vi har med denna studie kunnat besvara den undran som ställdes om Overview går att tillämpa vid IT-forensiska undersökningar, inte bara genom att testa verktyget utan även göra en jämförelse mellan Overview och det IT-forensiska verktyget EnCase. Detta, vad vi vet, har inte tidigare gjorts och därför är denna studie synnerligen intressant när det gäller framtida utveckling av nya arbetsmetoder inom det IT-forensiska området.

6.3 Förslag på fortsatt arbete Under tiden som detta arbete har gjorts har det öppnats nya dörrar och nya tankar har väckts.

Förslag på fortsatta studier och arbeten i området som kan vara av intresse är:

• I EnCase fick vi manuellt räkna antal gånger ett visst ord förekom. Ett förslag för att förbättra sökningen och presentationen av antal ord med mera, skulle kunna vara att utveckla ett script i EnScript.

• En mer djupgående analys av vilka ord förövare använder sig av samt finna ett diskussionsmönster, genom att undersöka vilket förhållande ett ord har till ett annat ord. 65

• Undersöka hur polisen jobbar idag med att spåra groomare, och i samarbete med polisen utforma ordlistor som är anpassade till att detektera misstänka chattkonversationer.

• Jobba med mer material och fler chattkonversationer vid utformande av ordlistor.

• Ännu ett experiment med ytterligare en ordlista som är en blandning mellan de två olika metoderna hade varit intressant att undersöka. Denna ordlista skulle då kombinera både mest frekventa ord och ord av sexuell karaktär.

66

7 Referenser

Webbsidor

BRÅ

Få anmälda fall leder till åtal, 2013. Tillgänglig: http://www.bra.se/bra/nytt-fran- bra/arkiv/press/2013-06-19-fa-anmalda-fall-av-grooming-leder-till-atal.html (hämtad 2015-01-27)

The Dipartimento di Elettronica, Informazione e Bioingegneria

A Tutorial on Clustering Algorithms, K-Means Clustering. Tillgänglig: http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/kmeans.html (hämtad 2015-04-04)

EDRM

Search Methodologies. Tillgänglig: http://www.edrm.net/resources/guides/edrm-search-guide/search-methodologies (hämtad 2015-04-14)

Guidance Software, EnCase

About Guidance Software, 2015. Tillgänglig: https://www.guidancesoftware.com/about/Pages/about-guidance- software.aspx?cmpid=nav (hämtad 2015-02-27)

Overview, 2015. Tillgänglig: https://www.guidancesoftware.com/products/Pages/EnCase- Enterprise/overview.aspx (hämtad 2015-02-27)

EnCase EnScript Programming, 2015. Tillgänglig: https://www.guidancesoftware.com/training/Pages/courses/classroom/EnCase%C2%AE- EnScript%C2%AE-Programming.aspx (hämtad 2015-04-14)

67

Heaton Research

Normalization, 2013. Tillgänglig: http://www.heatonresearch.com/wiki/Normalization (hämtad 2015-06-01) icq.

Chatrooms, 2015. Tillgänglig: http://chat.icq.com/icqchat/ (hämtad 2015-02-25)

INFOSEC INSTITUTE

21 Popular Computer Forensics Tools, 2015. Tillgänglig: http://resources.infosecinstitute.com/computer-forensics-tools (hämtad 2015-04-13)

Internet slang

Internet Slang – Internet Dictionary, 2015. Tillgänglig: www.internetslang.com/ (hämtad 2015-04-25)

Lagen.nu

Brottsbalk (1962:700). Tillgänglig: https://lagen.nu/1962:700 (hämtad 2015-02-04)

NE Nationalencyklopedin

Eriksson, Bengt Erik, 2015. kvantitativ metod. Tillgänglig: http://www.ne.se/uppslagsverk/encyklopedi/l%C3%A5ng/kvantitativ-metod (hämtad 2015-04-14)

Netscan

Netscan, 2015. http://netscan.se/ (hämtad 2015-02-18)

68

Nextgenforensic

Obout Tillgänglig: https://nextgenforensic.wordpress.com/about/ (hämtad 2015-02-21)

Elliott, Ian A. 2014 Can we analyze word associations in online solicitation texts? Tillgänglig: https://nextgenforensic.wordpress.com/2014/07/18/can-we-analyze-word- associations-in-online-solicitation-texts/ (hämtad 2015-02-21)

Oracle

Oracle Outside In Technology. Tillgänglig: http://www.oracle.com/us/technologies/embedded/025613.htm (hämtad 2015-04-15)

Overview

Obout. Tillgänglig: http://overview.ap.org/about/ (hämtad 2015-02-21)

How Overview can organize thousands of documents for a reporter. 2013. Tillgänglig: http://overview.ap.org/blog/2013/04/how-overview-can-organize-thousands-of-documents-for-a- reporter/ (hämtad 2015-03-21)

Advanced search: quoted phrases, boolean operators and more. 2013. http://overview.ap.org/blog/2013/12/advanced-search-quoted-phrases-boolean-operators-fuzzy- matching-and-more/ (hämtad 2015-04-15)

Perverted Justice Foundation, Inc

Frequentlyg Asked Questions, 2008. Tillgänglig: http://www.pjfi.org/?pg=faq (hämtad 2015-02-24)

69

Polisen

IT-brott, 2015. Tillgänglig: https://polisen.se/Om-polisen/Olika-typer-av-brott/IT-brott/ (hämtad 2015-01-27)

Grooming, 2015. Tillgänglig: https://polisen.se/Om-polisen/lan/os/op/Polisen-i-Ostergotlands- lan/Projekt-och-samverkan/Projekt-Tindra/Grooming/ (hämtad 2015-01-28)

Regeringen

Vuxnas kontakter med barn i sexuella syften, 2015. Tillgänglig: http://www.regeringen.se/sb/d/8588/a/80667 (hämtad 2015-02-15)

Sveriges Riksdag

Ask, Beatrice, m.fl. 2014. Motion 2014/15:2969 Internet som en arena för brott. Tillgänglig: http://webcache.googleusercontent.com/search?q=cache:H6YtpvPcsVQJ:www.riksdagen.se/sv/D okument-Lagar/Forslag/Motioner/Internet-som-en-arena-for- brot_H2022969/%3Ftext%3Dtrue+&cd=1&hl=sv&ct=clnk&gl=se (hämtad 2015-02-04)

SVT

Bering, Sofia och Salö, Freja. Polis kan inte ingripa mot nätpedofiler, 2012. Tillgänglig: http://www.svt.se/nyheter/sverige/polisen-frustrerad-over-tandlos-lag (hämtad 2015-02-15)

Åklagarmyndigheten

Vuxnas kontakter med barn i sexuella syften föreslås bli straffbara, 2007. http://www.aklagare.se/Media/Nyhetsarkiv/Vuxnas-kontakter-med-barn-i-sexuella-syften- foreslas-bli-straffbara/ (hämtad 2015-02-15)

70

Wikipedia

Computer forensics, 2015. Tillgänglig: http://en.wikipedia.org/wiki/Computer_forensics (hämtad 2015-01-27)

Datautvinning, 2015. Tillgänglig: http://sv.wikipedia.org/wiki/Datautvinning (hämtad 2015-01-27)

Klusteranalys, 2015. Tillgänglig: http://sv.wikipedia.org/wiki/Klusteranalys_%28datavetenskap%29 (hämtad 2015-04-10)

Search engine indexing, 2015. Tillgänglig: http://en.wikipedia.org/wiki/Search_engine_indexing (hämtad 2015-04-13)

Scoop, 2014. Tillgänglig: http://sv.wikipedia.org/wiki/Scoop (hämtad 2015-04-22) k-means clustering, 2015. Tillgänglig: http://commons.wikimedia.org/wiki/File:Iris_Flowers_Clustering_kMeans.svg#filelinks (hämtad 2015-04-23)

Gromning, 2015. Tillgänglig: http://sv.wikipedia.org/wiki/Gromning (hämtad 2015-04-25)

Smiley, 2015. Tillgänglig: http://sv.wikipedia.org/wiki/Smiley (hämtad 2015-04-22)

Wordcounter

Wordcounter, 2004. Tillgänglig: http://www.wordcounter.com/ (hämtad 2015-03-26)

71

Böcker

Apostol, Tom M, Mathematical Analysis, University of Michigan, Addison-Wesley Educational Publishers Inc, 1974.

Bunting, Steve, Ence - EnCase Computer Forensics: The Official EnCase Certified Examiner, Study Guide, John Wiley & Sons, Inc, Indianapolis, 2012.

Holme, Magne Idar och Solvang Krohn Bernt, Forskningsmetodik: Om kvalitativa och kvantitativa metoder, Studentlitteratur AB, Lund 1997.

Marcum, Catherine D och Higgins, George E, Social Networking as Criminal Enterprise, CRC Press Taylor & Francis Group, New York, 2014.

Sumathi, S och Sivanandam, S.N, Introduction to Data Mining and its Applications, New York, Springer, 2006.

Ullman, D Jeffrey och Rajaraman, Anand och Leskovec, Jure, Mining of Massive Datasets, California, Stanford Education, 2014.

Witten, lan och Frank, Eibe och Hall, Mark: Data Mining Practical Machine Tools and Techniques, Elsevier Inc. Burlington, 2011.

Uppsatser och Artiklar

Data MiningTutorial, tutorialspoint SimplyEasyLearning

Tillgänglig: http://www.tutorialspoint.com/data_mining/dm_pdf_version.htm (hämtad 2015-02-10)

Gowri, S och Anandha Mala, G.S och Divya, G Suspicious data mining from chat and email data,Chennai, Sathyabama University, 2014

Tillgänglig: http://webcache.googleusercontent.com/search?q=cache:FQDHc- OGrx8J:www.iraj.in/journal/journal_file/journal_pdf/6-46-139764250775- 79.pdf+&cd=1&hl=sv&ct=clnk&gl=se (hämtad 2015-03-25)

72

Hedin Anna, En liten lathund om kvalitativ metod med tonvikt på intervju, 2011

Tillgänglig: https://studentportalen.uu.se/uusp-filearea- tool/download.action?nodeId=459535&toolAttachmentId=108197 (hämtad 2015-04-14)

Sindhu, K.K, och Meshram, B.B. Digital Forensics and Cyber Crime Datamining, 2012

Tillgänglig: http://www.scirp.org/journal/PaperInformation.aspx?PaperID=21340#.VZZq3ufl2ag (hämtad 2015-04-04)

Kucukyilmaz, Tayfun och Cambazoglu, B. Barla och Aykanat , Cevdet och Can, Fazli Chat mining: Predicting user and message attributes in computer- mediated communication, Bilkent University, 2008

Tillgänglig: http://www.researchgate.net/profile/Berkant_Cambazoglu/publication/222410421_Chat_mining_ Predicting_user_and_message_attributes_in_computer- mediated_communication/links/0912f50b7cbedd7032000000.pdf (hämtad 2015-02-15)

Xu, Li-Fang, Klusteranalys, Umeå universitet 2008

Tillgänglig: http://snovit.math.umu.se/Studenter/matstat/Examensarbeten/Li%20Fang20080618.pdf (hämtad 2015-04-10)

Melin, Lena; Kriminalunderrättelsetjänsten Nord, 2010. Grooming online - En kartläggning av vuxnas kontakter med barn i sexuellt syfte under 2009

Tillgänglig: https://www.polisen.se/Global/www%20och%20Intrapolis/Personaltidningar/Vastra%20Gotalan d/L%C3%A4nsmannen/Lansmannen_3_2013_web.pdf. (hämtad 2015-02-17)

Wollis, Melissa, Online Predation; A Linguistic Analysis of Online Predator Grooming, Cornell University, 2011

Tillgänglig: http://dspace.library.cornell.edu/bitstream/1813/23125/2/Wollis,%20Melissa%20- %20Research%20Honors%20Thesis.pdf (hämtad 2015-02-15) Övriga

73

Shannon, David. Bestämmelsen om kontakt med barn i sexuellt syfte, Vällingby, Brottsförebyggandet rådet, 2013

Tillgänglig: http://www.bra.se/download/18.421a6a7d13def01048a80008906/1371564797441/2013_14_Best %C3%A4mmelsen_kontakt_med_barn_i_sexuellt_syfte.pdf. (hämtad 2015-02-15)

Jansson, Anders. Vuxnas sexuella kontakter med barn via Internet, Stockhom, Brottsförebyggandet rådet, 2007

Tillgänglig: https://www.bra.se/bra/publikationer/arkiv/publikationer/2007-04-20-vuxnas-sexuella-kontakter- med-barn-via-internet.html (hämtad 2015-02-15)

74

1

Bilaga A

K-means algoritmen

K-means algoritmen raffinerar upprepande en slumpmässigt vald (användarens indata) uppsättning av K och delar in data i kluster som första steg. Steg 2 är att centrum för vart och ett av de k- klustren bestäms och varje objekt associeras till det kluster vars centrum ligger närmast med hjälp av det euklidiska avståndet. Det euklidiska avståndet är en definition på avstånd mellan två punkter x och y i en flerdimensionell rymd, Rn.79

1/2 ! ! 1/2 ∥x∥ = (x*x) = ( !!! � !)

Därefter räknas nya centrumpunkter ut för k-klustren och förloppet upprepas från steg 2 och framåt som i en for-loop tills argumentet inte stämmer längre, och ingen mer omlokalisering sker.80

K-means algoritmen:

! ! ! 2 � = !!! !!! ∥ �! − �! ∥

! 2 (!) där ∥ �! − �! ∥ är ett avståndsmått mellan datapunkt �! och klustercentret �! är en indikator på distansen mellan n datapunkter från deras respektive klustercenter.

Där; j = objekt funktion k = antal kluster

79 Tom M. Apostol, Mathematical Analysis, University of Michigan, Addison-Wesley Publishing Company, 1974.

80 Xu, 2008

2

n = antal fall

(j) xi = fall i

81 Cj = center för kluster .

81 Politecnico Di Milano, A Tutorial on Clustering Algorithms, K-Means Clustering. http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/kmeans.html (hämtad 2015-04-04)

1

Bilaga B

Brottsbalk (1962:700) 6 kap. Om sexualbrott82

10 a § Den som, i syfte att mot ett barn under femton år begå en gärning för vilken straff föreskrivs i 4, 5, 6, 8 eller 10 §, träffar en överenskommelse med barnet om ett sammanträffande samt därefter vidtar någon åtgärd som är ägnad att främja att ett sådant sammanträffande kommer till stånd, döms för kontakt med barn i sexuellt syfte till böter eller fängelse i högst ett år. Lag (2009:343)

82 Lagen.nu, 2015. Brottsbalk (1962:700). https://lagen.nu/1962:700 (hämtad 2015-02-04)

2

1

Bilaga C

Diskussion om grooming

Enligt Per-Åke Irskog, universitetsadjunkt i juridik, finns det två brister med grooming-lagen. Det är för det första svårt att avgöra vad någon har för avsikt när de kontaktar ett barn. Det kan vara en fullt legitim kontakt som sker på nätet av till exempel mor- och farföräldrar, som sedan vill träffa sitt barnbarn i verkligheten. Det är svårt att avgöra om det är i sexuellt syfte eller inte. Den andra bristen är att om man nu verkligen träffar det här barnet, då måste man ju göra någonting av sexuell karaktär. Och det är enligt Per-Åke då vi hamnar i något slags limbo. För det är då brottet övergår till ett annat brott, såsom våldtäkt mot barn, grov våldtäkt mot barn, sexuellt utnyttjande av barn, sexuellt övergrepp mot barn och så vidare. När groomingen övergår till dessa brott, så är straffsatsen högre. Det som händer då är att man blir åtalad för det grövsta brottet. Detta reducerar groomingen till en försvårande omständighet. Om man till exempel blir åtalad för grov våldtäkt mot barn kommer straffet att lägga sig mellan 4-10 år, och då hamnar man i övre skalan och problemet är då att groomingen “försvinner”. Det är heller inte tillåtet att avlyssna samtal om det kommer in en anmälan om grooming, då straffet endast ger max ett år i fängelse. För att använda avlyssning som ett tvångsmedel måste det vara fängelse i över två år på straffskalan. Det utesluter alltså vissa tvångsmedel eftersom straffet är lågt. Om man ska vara riktigt cynisk som han uttrycker sig så uppkom lagen i samband med att det var en politiker som ville visa sig vara handlingskraftig.

- “Nu ska vi ha en grooming-lag. Här har vi ett nytt fenomen, det här måste vi sätta stopp för. Sådana snuskgubbar ska inte få hålla på”. - Per-Åke Irskog Per-Åke anser att det är förödande att vi har en lag som man inte kan kolla efterlevnaden av.83

Idag samlar polisen in uppgifter om personer som kontaktar barn i sexuella syften. Uppgifter såsom e-postadresser och användarnamn sparas i en databas och kan användas i brottsutredningar. I en nyhetsartikel från 2012 “Polis kan inte ingripa mot nätpedofiler” säger polisen att de har kartlagt flera hundratals män som ägnar sig åt grooming men med dagens grooming-lag kan de inte ingripa

83 Irskog, Per-Åke, universitetsadjunkt i juridik vid Högskolan Halmstad. Intervju 2015-03-17, Halmstad

2

på ett tidigt stadie för att förhindra sexuella övergrepp utan de måste vänta tills ett övergrepp skett. Enligt Jörgen Lindeberg, kriminalinspektör vid Rikskriminalen, finns inga problem i att styrka att en vuxen har tagit kontakt med ett barn i sexuellt syfte. Problemet ligger i att de inte kan bevisa att ett riktigt möte har bestämts och praktiska åtgärder har tagits för att det sexuella mötet ska bli av. Anledningen är att oftast flyttas konversationen till exempelvis chattforum som MSN och dit når inte polisen med de förfaranden de har tillgängliga. Detta leder till att när väl förövarna åker fast är det inte för grooming utan för våldtäkt. Jörgen Lindeberg vill att grooming-lagen ska ändras för att lättare kunna lagföra förövarna. Exempelvis om det skulle bli straffbart att vilseleda barn på det sätt som förövarna gör kan brotten förhindras.84

Mats Andersson som driver företaget Netscan85, är en av Sveriges mest anlitade föreläsare när det gäller riskexponering online och Internetsäkerhet för barn och ungdomar.

Mats och hans fru Karin är de enda som jobbar på företaget, och en del av deras jobb är att själva agera barn via olika alias på webbsidor som riktar sig mot barn och ungdomar. De tar inte aktivt kontakt med någon annan medlem, utan är inaktiva och väntar på att bli kontaktade.

När en kontakt har blivit etablerad är de även väldigt noggranna med att inte själva uppmana till något sexuellt eller att själva driva konversationen framåt.

Om det förekommer en sexuell konversation talar Mats om vem han är och meddelar groomaren om att han kommer att använda chattkonversationen i utbildningssyfte. Mats använder alltså inte detta material till att anmäla vederbörande, utan först och främst till sina föreläsningar. Men däremot lämnar han vissa uppgifter till polisen, bara som en extra åtgärd ifall de skulle ha användning för det.

-”Om jag skulle mejla sajtägaren varje gång något sådant händer, så skulle jag inte göra något annat. Men när någon verkar vara lite mer effektiv eller skicklig, då slår jag larm.

Jag polisanmäler ingen, det får sajtägarna göra i så fall. Jag är utbildare, inte pedofiljägare.”

84 Sofia Bering och Freja Salö, svt, 2012. Polis kan inte ingripa mot nätpedofiler. http://www.svt.se/nyheter/sverige/polisen-frustrerad-over-tandlos-lag (hämtad 2015-02-15)

85 Netscan. 2015. http://netscan.se/ (hämtad 2015-02-18)

3

- Mats Andersson

Han säger också att han många gånger har blivit kontaktad av dessa groomare som menar på att de inte visste att det var en så pass ung person de pratade med, och att de försöker ursäkta sig.

De ansvariga för dessa sajter känner väl till Mats och hans fru och har uppgifter på vilka alias som tillhör dem. Mats säger att han är väldigt öppen med det han sysslar med och har bra kontakt och samarbete med sajtägarna.

Enligt Mats upplever många barn att det som händer på nätet inte är på riktigt. Internet är ju roligt, och de ska fortsätta kunna ha roligt på nätet, det är förövarna som han tycker ska få det svårare. Därför efterlyser han ett större ansvar från ägarna till olika sajter, vilket skett i till exempel England, där sajtägare gjorts juridiskt ansvariga för innehållet. I Sverige har inte de ett juridiskt ansvar, och även om de anmäler till polisen händer det oftast ingenting enligt Mats.

På föreläsningarna han håller runtom i landet säger han sig endast bemöta positiv kritik från föräldrar och andra vuxna. Han håller även mycket föreläsningar på skolor för endast skolklasser. Det har hänt att barn har kontaktat honom i syfte att få stöd eller hjälp, men då ser Mats till att detta förmedlas vidare till en kurator på skolan.86

86 Andersson, Mats; Företagare och föreläsare Internetsäkerhet, 2015-03-23, Halmstad, Intervju.

4

1

Bilaga D

Ordlista 1 adress cock jurking panties sucking age come kiss penis swallow alone cum kissing pic sweety anal date lick pics teach ass dick live porn think attracted email lonely photosharing touch baby finger meet practice touching blowjob fucking motel pussy turn boobs fuck mouth rub virginity boyfriend hard naked satifying warm bra horny nude sexual webcam camera hot older sexy wet car hotel oral spit wetness clit jacking orgasm suck

2

1

Bilaga E

Ordlista 2 ask hey n tomorrow back hmmm nice tonight bout hold off ur call home ok wanna come how phone want cool id play wat dad idk r well did ill real wit doin im school work dont k see wow dowm kinda still y feel little stuff ya get love suck goin make sure good maybe take got mean tell gotta meet thing gu mom think hang much time

2

1

Bilaga F

4 kap. 9a § BrB Olovlig avlyssning

9 a § Den som i annat fall än som sägs i 8§ olovligen medelst tekniskt hjälpmedel för återgivning av ljud i hemlighet avlyssnar eller upptager tal i enrum, samtal mellan andra eller förhandlingar vid sammanträde eller annan sammankomst, vartill allmänheten icke äger tillträde och som han själv icke deltager i eller som han obehörigen berett sig tillträde till, dömes för olovlig avlyssning till böter eller fängelse i högst två år. Lag (1975:239).

2

1

Bilaga G

Figurer över träffresultat i programmen

Figur 11. Resultat antal träffar på ord i Overview utförd i experiment 3A. Ordet ”good” är markerat och återfinns i 7 dokument.

2

Figur 12. Resultat på träff med ordet "good" i fall 4. Ordet förekommer totalt 12 gånger i fall 4. Träffarna markeras gult. Experiment 3A i Overiview.

3

Figur 13. Resultat av sökning med ordlista 1 i programmet EnCase. Träffarna markeras gult.

4

1

Bilaga H

Utdrag ur ”Fall 11 – Harmfull diskussion”

07-26-04:

SnapShotDeath [5:31 PM]: where u been? DavieWants2 [5:32 PM]: sorry been so busy SnapShotDeath [5:32 PM]: i try 2 send email and it says ur not member then ur profi is gone SnapShotDeath [5:32 PM]: so i call and it sayz to check number DavieWants2 [5:33 PM]: i was out of town so i shut off my screennames SnapShotDeath [5:33 PM]: ur fone dont work 2 DavieWants2 [5:33 PM]: i was in the mountains of NH it didnt work SnapShotDeath [5:34 PM]: o i thot it like mine prepay so if u dont pay it dont work DavieWants2 [5:34 PM]: nope, it was in the mountaism boi, DavieWants2 [5:34 PM]: but i was thinking of YOu so much SnapShotDeath [5:35 PM]: me 2 i killed nuther cat DavieWants2 [5:35 PM]: why boi. ? SnapShotDeath [5:35 PM]: i wanted 2 DavieWants2 [5:35 PM]: did it make YOU hard boi? SnapShotDeath [5:35 PM]: it made me like feel like i oculd do all SnapShotDeath [5:35 PM]: like i was big DavieWants2 [5:36 PM]: boi, YOU make me so hard, i would reely just love to met and fuck boi DavieWants2 [5:36 PM]: id be very abusive and rought if that is waht my boi likes SnapShotDeath [5:36 PM]: why u go to mountains? DavieWants2 [5:37 PM]: vacation ...sort of... SnapShotDeath [5:37 PM]: what that mean DavieWants2 [5:37 PM]: nothing boi, dont worry about it, i just am glad YOU emialed me again SnapShotDeath [5:38 PM]: i want to put the cat in the microwave but was scared DavieWants2 [5:38 PM]: what the heck, its a useless creature anyway SnapShotDeath [5:38 PM]: no but what if i culn't get it all out DavieWants2 [5:39 PM]: yeah, i guess it would be sort of a mess SnapShotDeath [5:40 PM]: no so i took ruber bands with a zip bag over his head and watched him freak and die it was funny DavieWants2 [5:41 PM]: i bet he squermed reel good boi SnapShotDeath [5:41 PM]: lots and hit walls and i kicked him round SnapShotDeath [5:42 PM]: brb DavieWants2 [5:42 PM]: its like tthe bois whose cock i grabbed and twisted and tossed thois boi against a tree once SnapShotDeath [5:50 PM]: srry DavieWants2 [5:50 PM]: its ok boi, SnapShotDeath [5:50 PM]: i had to poop DavieWants2 [5:51 PM]: oh i hope everything came out okay boi SnapShotDeath [5:51 PM]: all good SnapShotDeath [5:51 PM]: lol SnapShotDeath [5:51 PM]: i dont get what u said bout the tree DavieWants2 [5:52 PM]: i ssaid i once smacked this bois head against a tree when he wanted to stop

2

SnapShotDeath [5:52 PM]: did he cry DavieWants2 [5:52 PM]: yes SnapShotDeath [5:52 PM]: lol SnapShotDeath [5:53 PM]: did u kill him DavieWants2 [5:53 PM]: oh no, but i should have SnapShotDeath [5:53 PM]: i hate cry babys DavieWants2 [5:54 PM]: me too, but waht can U do/ most bois cry SnapShotDeath [5:54 PM]: i dont DavieWants2 [5:55 PM]: reely. id make YOU cry boi SnapShotDeath [5:55 PM]: nope i dont DavieWants2 [5:56 PM]: even if i tied U spread eagle to a tree and stuck and stabbed YOUR nuts with a stick SnapShotDeath [5:56 PM]: nope SnapShotDeath [5:56 PM]: im bad SnapShotDeath [5:57 PM]: u ever cut sum1 up i wanted 2 cut the cat up but dont no how DavieWants2 [5:57 PM]: well sort of , i did slice this bois nut sac after he bit me SnapShotDeath [5:59 PM]: he dead DavieWants2 [6:00 PM]: oh no, just wanted to let him know that i wanted my cock sucked, he was only poked , it hardly broke the skin SnapShotDeath [6:00 PM]: so u lied u never really killed no 1? SnapShotDeath [6:01 PM]: ? DavieWants2 [6:01 PM]: oh yeah, i did but i reely cant talk about it here silly boi SnapShotDeath [6:01 PM]: y not? SnapShotDeath [6:01 PM]: i tell u bout the cat SnapShotDeath [6:01 PM]: i want 2 no how to do it DavieWants2 [6:02 PM]: but i reely dont like to beside s it was a while a go SnapShotDeath [6:02 PM]: u says u do DavieWants2 [6:03 PM]: thanks boi SnapShotDeath [6:03 PM]: huh? DavieWants2 [6:04 PM]: ok ok, i did but he was never found and i would like it to stay that way boi SnapShotDeath [6:04 PM]: thats hot SnapShotDeath [6:04 PM]: its like the catz SnapShotDeath [6:05 PM]: i just put them in bag and in the dumpster DavieWants2 [6:05 PM]: it can be a trun on SnapShotDeath [6:06 PM]: u like cut him up DavieWants2 [6:07 PM]: sort of, but waht i did was made sure he had no id , and i made sure he was pretty much disbursted SnapShotDeath [6:07 PM]: huh? SnapShotDeath [6:08 PM]: whats that mean DavieWants2 [6:09 PM]: i drove around all nite and distributed body parts to every corner of the state SnapShotDeath [6:09 PM]: o SnapShotDeath [6:09 PM]: thats kewl SnapShotDeath [6:10 PM]: i wanna keep the dick DavieWants2 [6:11 PM]: yeah ok. well see, but i sure get turned on by wanting to see YOU naked and see how good a fuck YOU are boi SnapShotDeath [6:11 PM]: im finnneeeee DavieWants2 [6:12 PM]: i bet YOU are boi, SnapShotDeath [6:12 PM]: shyt i gotta go im gotta b at tonyz at 6-30 to eat cuz my mas a crack whore and we got no food DavieWants2 [6:12 PM]: have fun boi SnapShotDeath [6:12 PM]: u gotta nuther number i can call u 2nite the one u give me keeps sayin try the number gain SnapShotDeath [6:12 PM]: like itz disco'd DavieWants2 [6:13 PM]: 1 631 872 1880 is my only # boi, wouild love to fuck U later too

3

SnapShotDeath [6:13 PM]: k i call laytar DavieWants2 [6:13 PM]: yes boi, but be ready to be roughted up boi

4

1

Bilaga I

Utdrag ur ”Fall 104 – Harmlös diskussion”

Hey everyone look at this pic here of me and my hot asian ex gf at the beach high on cocaine. I might be pale as fuk but im still SHINING with a super hot chica thats totally down for me whenever i wanna call her up. shes hotter than any of these chat chicks so who's rejected now Sopheari? HUH? U think ur better than me? Ur not as hot as my hot asian ex gf so that means im better than YOU. NOW PISS OFF!!! http://i1264.photobucket.co

edm masterrace

I don't think I know you brit. :P

Is it by jon secada dude sets mode: +b *!*@E1943C.1EA1D1.755D0F.32484A

lel

Dylan #English

lol

Not jon secada, i think its kinda new

Aw. Bro's link got cut off.

and in my channel

:X

O_O

Guest its Jon Secada Just Another Day

:)

no its not

no?

how does it go?

or not the one i have found

brit is a bot :X

2

it!

cant find

i have exceeded g00gle's search capabilities

Maybe youre hearing things

i say dude a lo

in 30s

oops i did it again

comcast disconnected me for scanning all the IPs

the spam

is real

brit how are u today?

am ok

Im a maaaniac MAAAAANIAC

Hi

good to read

i'm trying to find a theem

them

okie

for my mirc

;)

yea

i don't think we need anymore moderation, unless it's to ban ISIS spammers

I WIN!!! YOU LOSE!! You're only able to ban me because I ALLOW IT!! I'll chat in here under another name RIGHT UNDER YOUR NOSE and you cant do shyt niggga!!! You're only able to ban me now cuz im making it EASY for you, im using the same name everytime. Im king kong up in this bich!!!! So what are you doing this for anyways? Just to have bragging rights and to feel important? We all know its not to protect the chat cuz u ops only end up ki

3

lel

They had to burn it down for more land.

b/c computers

lol

He's using up all the damn proxies.

lol

fun fact: all proxies in the US are ran by the fbi

any out-bound proxies ( transatlantic ones ) are monitored by the NSA for terrorism

most russian servers are botnets

Russians

but wuteva

hi

http://www.ebay.com/itm/261817188616?ssPageName=STRK:MESELX:IT&_trksid=p3984.m1555 .l2649

that is why i don't use proxxies, because some russian kid is just gonna steal my passwords

proxies

Omg, this dog won't stop barking.

<`skater> kick the dog

gl, i'm behind 7 boxxys

one of my friends in cali met boxxy once

He should've eaten her face.

o_O

she was like 'are u boxxy' and she was like 'omg yeah lol'

@ some food store

Cool fuckin' story.

Prime :)

4

11/10

ohai skateronni

Sopheari isnt cute guys, i just want u all to know that :)

are there any c00l forums where 'computer shit' doesn't equate to posting 3 monitors full of anime and games

VasiaCatgirl has quit (XMLSocket Connection closed)

and Ryann is mean as all hell and tricks guys :)

<`skater> who is Sopheari

just some little asianiatic person in Sacramento

:)

Check out an adult website called 1 Nihgters..

bro thats you isnt it

yes its me :)

bro you look great in a skirt

i win, yet again

*`skater hugs Sortof?hawtchick

gross

ty SHC xoxo

<`skater> oops

over 900 boxxys

Sopheari is a pretty pretty princess.

no not gross its just what i have to do

princess of dick and cupcakes

THE FUK SHE IS!!!

SHE AINT NO FUKIN PRINCESS!!!!

5

Devran Öncü [email protected]

Ewa Gärdström [email protected]

Besöksadress: Kristian IV:s väg 3 Postadress: Box 823, 301 18 Halmstad Telefon: 035-16 71 00 E-mail: [email protected] www.hh.se