Examens Arbete

IT-Forensik och Informationssäkerhet EXAMENS Detektering av misstänkt grooming ARBETE Ewa Gärdström och Devran Öncü Datateknik 15hp Halmstad 2015-07-23 Detektering av misstänkt grooming Kandidatuppsats 2015 Juni Författare: Devran Öncü & Ewa Gärdström Handledare: Eric Järpe Examinator: Mattias Wecksten Sektionen för informationsvetenskap, data- och elektroteknik Högskolan i Halmstad Box 823, 301 18 HALMSTAD © Copyright Devran Öncü & Ewa Gärdström 2015. All rights reserved Kandidatuppsats Sektionen för informationsvetenskap, data- och elektroteknik Högskolan i Halmstad II Förord Vi vill här ta tillfället i akt och tacka alla de personer som har bidragit vid examensarbetet. Först och främst vill vi tacka vår handledare Eric Järpe för ett stort tålamod, hans goda samarbetsvilja och för alla matematiska tips. Vi vill även tacka Mats Andersson för att han tog sig tiden att träffa oss för en intervju och delade med sig av sina erfarenheter rörande grooming och sitt jobb. Och slutligen ett tack till Per-Åke Irskog som ställde upp på ett möte där han delade med sig av sina juridiska kunskaper kring brottet grooming och den svenska lagstiftningen kring brottet. Ewa Gärdström Devran Öncu III IV Sammanfattning Examensarbetets primära innehåll behandlar detektering av grooming via experiment på två olika program. Experimenten utgår från två olika ordlistor och utförs på ett textanalysverktyg - Overview, och på ett IT-forensiskt verktyg - EnCase. Då de två verktygen använder sig av olika metoder vid sökningar och är utformade för olika syften så går studien även igenom olika metoder av data mining och forensiska metoder. Dataset i form av chattkonversationer har samlats in inför studiens experiment, och har därefter kategoriserats efter harmfull och harmlös data. Harmfull data representerar chattkonversationer med innehåll av grooming, och harmlös data är chattkonversationer som innehåller allmänna konversationer om vardagliga ting. De två ordlistorna som har använts vid sökningarna är av olika innehåll, där den ena baseras på ord av sexuell karaktär och där den andra är skapad utifrån en frekvensordanalys. Andra delar av uppsatsen tar upp intressanta aspekter kring grooming, hur dess process ser ut och lagstiftningen i Sverige kring brottet. Resultatet av studien påvisar att båda verktygen till lika hög grad kunde detektera misstänkt grooming i chattkonversationer. Vissa skillnader fanns i resultatet i form av ord som inte detekterades fullt ut av Overview. Andra påfallande skillnader mellan verktygen var deras arbetstid och dokumentationsmöjligheter, där Overview var det verktyg som jobbade snabbt, och EnCase det verktyg som hade bra dokumentationsmöjligheter. Enligt gjord studie vore en kombination av data mining och IT-forensiska metoder samt en väl genomförd ordlista en metod att föredra vid detektering av grooming. V VI Innehållsförteckning 1 Inledning ............................................................................................................................................... 1 1.1 Bakgrund ...................................................................................................................................................... 1 1.2 Syfte och problemformulering .............................................................................................................. 3 1.3 Problemställning ....................................................................................................................................... 5 1.4 Problemdiskussion och problematisering av frågeställning ..................................................... 5 1.4 Avgränsningar ............................................................................................................................................ 8 2 Teori ....................................................................................................................................................... 9 2.1 Data Mining ................................................................................................................................................. 9 2.2 K-means clustering ................................................................................................................................ 11 2.3 Metoden: TF-IDF, term frequency–inverse document frequency .......................................... 12 2.3.1 Overview .................................................................................................................................................................. 14 2.4 EnCase ........................................................................................................................................................ 15 2.5 Indexering/Nyckelordssökning/Outside In .................................................................................. 16 2.6 Grooming ................................................................................................................................................... 18 2.7 Lagen ........................................................................................................................................................... 18 2.7.1 Kritik mot grooming-lagen ................................................................................................................................. 19 3 Metod .................................................................................................................................................. 21 3.1 Metodval .................................................................................................................................................... 21 3.2 Litteratursökning ................................................................................................................................... 23 3.3 Metod för datainsamling ...................................................................................................................... 27 3.4 Metod för skapande av ordlista ......................................................................................................... 28 3.5 Val av verktyg .......................................................................................................................................... 31 3.6 Metod-kritik ............................................................................................................................................. 33 3.7 Experiment ............................................................................................................................................... 37 3.7.1 Experimenthypotes ............................................................................................................................................... 37 3.7.2 Experimentuppställning ....................................................................................................................................... 39 4 Resultat ............................................................................................................................................... 41 4.2 Experiment 1B – med ordlista 1 ........................................................................................................ 44 4.4 Experiment 3A och 3B – med ordlista 2 .......................................................................................... 48 4.5 Jämförelse av programmen Overview och EnCase7. .................................................................. 50 5 Analys .................................................................................................................................................. 53 5.1 Identifiering av grooming-konversationer ................................................................................... 53 5.2 Test av beroende .................................................................................................................................... 54 5.3 Det mest tillämpbara verktyget ........................................................................................................ 54 6 Diskussion och Slutsats ................................................................................................................. 57 6.1 Diskussion ................................................................................................................................................. 57 6.2 Slutsats ....................................................................................................................................................... 64 6.3 Förslag på fortsatt arbete .................................................................................................................... 65 VII 7 Referenser ......................................................................................................................................... 67 Bilagor Bilaga A K-means algoritmen Bilaga B Brottsbalk (1962:700) 6 kap. Om sexualbrott Bilaga C Diskussion om grooming Bilaga D Ordlista 1 Bilaga E Ordlista 2 Bilaga F Brottsbalk (1962:700) 4 kap. 9a §. Olovlig avlyssning Bilaga G Figur 14, 15, 16 Bilaga H Utdrag ur ”Fall 11 – Harmfull diskussion” Bilaga I Utdrag ur ”Fall 104 – Harmlös diskussion VIII FIGURFÖRTECKNING OCH TABELLFÖRTECKNING FIGUR 1. DATAUPPSÄTTNING K-MEANS CLUSTERING RESULTAT. 12 FIGUR 2. RESULTAT FRÅN EXPERIMENT 1A, TRÄFF MED ORDLISTA 1 I HARMFULL DISKUSSION. 42 FIGUR 3. RESULTAT FRÅN EXPERIMENT 1A, TRÄFF MED ORDLISTA 1 I HARMLÖS DISKUSSION. 42 FIGUR 4. RESULTAT AV EXPERIMENT 1B, TRÄFF MED ORDLISTA 1 I HARMFULL DISKUSSION. 45 FIGUR

Examens Arbete

Natural Language Processing Technique for Information Extraction and Analysis

United States Patent (19) 11 Patent Number: 6,094,649 Bowen Et Al

1.3.4 Web Technologies Concise Notes

Exploring Search Engine Optimization (SEO) Techniques for Dynamic Websites

Check out Our Initial Report Example Here

How Does Google Work?

Metadata Statistics for a Large Web Corpus

SEO Prices- Start-Up SEO :- Free SEO Step-1 Payment SEO Step-2

Extending Full Text Search Engine for Mathematical Content

PART II Finding Needles in the World's Biggest Haystack

The Weaknesses of Full-Text Searching

Web Manifestations of Knowledge-Based Innovation Systems in the U.K