Brno University of Technology User and Device Metadata Collection from the Darkweb

BRNO UNIVERSITY OF TECHNOLOGY VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ FACULTY OF INFORMATION TECHNOLOGY FAKULTA INFORMAČNÍCH TECHNOLOGIÍ DEPARTMENT OF INFORMATION SYSTEMS ÚSTAV INFORMAČNÍCH SYSTÉMŮ USER AND DEVICE METADATA COLLECTION FROM THE DARKWEB SBĚR METADAT UŽIVATELŮ A ZAŘÍZENÍ Z DARKWEBU TERM PROJECT SEMESTRÁLNÍ PROJEKT AUTHOR JÁN GULA AUTOR PRÁCE SUPERVISOR Ing. VLADIMÍR VESELÝ, Ph.D. VEDOUCÍ PRÁCE BRNO 2018 Vysoké učení technické v Brně Fakulta informačních technologií Ústav informačních systémů (UIFS) Akademický rok 2018/2019 Zadání bakalářské práce Student: Gula Ján Program: Informační technologie Název: Sběr metadat uživatelů a zařízení z Darkwebu User and Device Metadata Collection from the Darkweb Kategorie: Web Zadání: 1. Nastudujte si problematiku anonymizace a šifrování provozu dle konceptu onion/garlic routingu a traffic mixingu. 2. Seznamte se s nástroji umožňujícími přístup do overlay sítí (např. TOR, I2P, Freenet či OpenBazaar) a frameworky pro web-scraping (např. Lemmiwinks či Scrapy). 3. Dle doporučení vedoucího identifikujte zájmové stránky (primárně tržiště s nelegálním obsahem) na Darkwebu a navrhněte způsob automatizovaného a periodického sběru metadat. 4. Implementujte řešení s ohledem na to, aby výstupy běhu výsledného programu byly dostupné v podobě (ne)strukturovaných dat uložených v databázi. 5. Proveďte validační testování, diskutujte možná rozšíření. Literatura: Chaum, D. L. (1981). Untraceable electronic mail, return addresses, and digital pseudonyms. Communications of the ACM, 24(2), 84-90. Mahto, D. K., & Singh, L. (2016, March). A dive into Web Scraper world. In Computing for Sustainable Global Development (INDIACom), 2016 3rd International Conference on (pp. 689-693). IEEE. Baravalle, A., Lopez, M. S., & Lee, S. W. (2016, December). Mining the dark Web: Drugs and fake Ids. In Data Mining Workshops (ICDMW), 2016 IEEE 16th International Conference on (pp. 350-356). IEEE. Pro udělení zápočtu za první semestr je požadováno: Body 1 až 3. Podrobné závazné pokyny pro vypracování práce viz http://www.fit.vutbr.cz/info/szz/ Vedoucí práce: Veselý Vladimír, Ing., Ph.D. Vedoucí ústavu: Kolář Dušan, doc. Dr. Ing. Datum zadání: 1. listopadu 2018 Datum odevzdání: 15. května 2019 Datum schválení: 30. října 2018 Zadání bakalářské práce/21557/2018/xgulaj00 Strana 1 z 1 Powered by TCPDF (www.tcpdf.org) Abstract This bachelor’s thesis solves the problem of anonymization on the Internet, that is widely used for dealing with illegal substances. This problem drives law enforcement agencies to be interested in web pages that represent markets with forbidden content which are hidden behind anonymity networks. My goal is to focus on the biggest markets with such content and to gather as much information as possible about subjects that posture on similar types of web pages either as sellers or as buyers. I have resolved the given problem by choosing the most impactful markets according to the number of users signed in. I have become one of the users and applied algorithms for data scraping to get information from web pages into a structured form that is more suitable for a deeper analysis. The results of this thesis will help law enforcement agencies with the analysis of metadata of users that commit illegal activities as they will not have to manually search through the illegal markets, and they will have all available data summed up in a structured form in a database. Unifying data into a structured form will help speeding up the investigation and address the biggest drug sellers. Abstrakt Táto bakalárska práca rieši problém anonymizácie na Internete, ktorá sa vo veľkej miere využiva na obchodovanie s nelegálnymi substanciami. Tento problém núti zákonodarné zložky zaujímať sa o stránky predstavujúce trhy so zakázaným obsahom skryté za anonymiza- čnými sieťami. Mojím cieľom je zameriať sa na najväčšie obchody s podobným obsahom a získanie čo najväčšieho množstvá informácií o osobách, ktoré na trhoch figurujú či už ako predajcovia alebo nákupujúci. Daný problém som vyriešil tak, že som na základe počtu uživateľov vybral najvýznamnejšie tržiská stal sa jedným z ich uživateľov, a následne aplikoval algo- ritmy na vyškriabávanie dát z web stránok na to, aby som informácie zo stránok dostal do štrukturovanej podoby vhodnej na hlbšiu analýzu. Výsledky tejto práce umožnia orgánom činným v trestnom konaní jednoduchšiu analýzu metadat uživateľov dopúšťajúcich sa nelegálnej činnosti nakoľko nebudú musieť manuálne prechádzať jednotlivé nelegálne tržiská, ale všetky prístupné data budú zrhnuté v štruk- túrovanej forme v databáze. Zjednotenie dát do štruktúrovanej formy pomôže urýchliť vyšetrovanie a určiť najväčších predajcov drog. Keywords anonymity, onion routing, data scraping, network, darkweb Klíčová slova anonymita, cibuľové trasovanie, vyškriabávanie dát, sieť, darkweb Reference GULA, Ján. User and Device Metadata Collection from the Darkweb. Brno, 2018. Term project. Brno University of Technology, Faculty of Information Technology. Supervisor Ing. Vladimír Veselý, Ph.D. Rozšířený abstrakt Cieľom tejto bakalárskej práce je získanie čo najväčšieho množstva metadát o uživateľoch, ktorí využívaju anonymizáciu na Internete na prevádzkovanie nelegálnych činností. Práca prináša štúdiu technológií, ktoré sa používajú na účely anonymizácie ako sú napríklad overlay siete. V prvej časti sú popísané konkrétne anonymizačné siete, ktoré sa dnes používajú a tech- nológie ktorými sa umožňuje ich prevádzkovanie. V práci je taktiež analyzovaný rozdiel medzi stránkami s nelegálnym obsahom takzvany darkweb a stránkami, ktoré nie sú voľne dostupné pre bežného uživateľa, avšak nefiguruje na nich nelegálny obsah deepweb. Po- drobnejšie je popísaný najpoužívanejší prehliadač Tor, jeho funkcionalita a základné prvky, ktoré zabezpečujú anonymný prenos dat pričom práca popisuje aj počiatky tohto fenoménu a nástroje, ktoré predchádzali dnešnej verzii. V poslednej časti sekcie venovanej anonymizá- cií je popísaná technológia, ktorá je využívaná týmto prehliadačom a ktorá je základným stavebným kameňom zasielania šifrovaných dát nazývaná Onion Routing. Druhou hlavnou témou, ktorá sa v tejto práci rozoberá je "vyškriabávanie" dát alebo scraping a popis programovacích jazykov, ktoré sa pri ňom používajú. V tejto sekcii sú tak- tiež popísane metódy získavania dát, príklady využitia tejto techniky, problémy s ktorými sa môžeme stretnúť pri jej implementácií ale aj spôsoby, ktorými sa veľké organizácie chrá- nia proti získavaniu dát. Prvým z analyzovaných programovacích jazykov v tejto časti je hypertextovy značkovací jazyk označovaný anglickou skratkou HTML. Tento jazyk je zák- ladným prvkom každej webovej stránky a elementy, ktoré tvoria tieto stránky sú dotazované pri procese získavania dát nakoľko sú držiteľmi textu s potrebnými informáciami. Práca taktiež analyzuje programováci jazyk Python, ktorý predstavuje najpoužívanejší jazyk pre tvorbu skriptov, ktoré periodicky zbierajú data. Je to najmä vďaka jeho všestrannosti a možnosti jednoduchej implementácie pri riešení procesov spojených s vyškriabavaním dát ako aj preliezavánim stránok. V práci su zároveň popísané špecifické vlastnosti získava- nia dát z drogových trhov. Toto zahŕňa napríklad popis obchádzania ochrán proti botom. Posledná sekcia je venovaná kategorizácií a popisu typu informácií, ktoré má táto práca za úlohu zbierať a to konkrétne metadata. Samotným výstupom tejto práce je nazbieranie čo najväčšieho objemu metadát o uži- vateľoch a zariadeniach a preto je potrebné definovať, aké informácie sa dajú považovať za metadata, aké informácie bude táto práca získavať a dôvody pre ktoré sú tieto informácie relevantné z pohľadu vyšetrovateľov. Zbieranie dat je automatizované pomocou skriptu, ktorý techniku vyškriabavania dát a jazyky s ňou spájané využíva v praxi, a to konkrétne pri získavaní metadat o uživateľoch, ktorí figurujú na nelegálnych trhoch. Tento skript napísaný v jazyku Python prechádza obsah trhu. Skript zapisuje informácie o jednotlivých položkách ako sú autor, cena, množstvo tovaru alebo zoznam krajín, kam sa zbožie môže zaslať. Ďalej sa dajú získať napríklad in- formácie o recenzentoch, ktorí nepriamo predstavujú nakupujúcich. Po získaní zásadného množstva metadat je možné spravíť štatistiku o uživateľoch skrývajúcich sa za prezývkami, ktorí na daných trhoch figurujú ako predávajúci alebo nakupujúci. Na základe týchto štatistík je možné spraviť komplexnú analýzu o danom trhu. User and Device Metadata Collection from the Darkweb Declaration Hereby I declare that this master’s thesis was prepared as an original author’s work under the supervision of Mr. Ing. Vladimír Veselý Ph.D. The supplementary information was provided by Mr. Ing. Lukáš Zobal. All the relevant information sources, which were used during preparation of this thesis, are properly cited and included in the list of references. ....................... Ján Gula May 16, 2019 Acknowledgements I would like to thank my supervisor Dr. Veselý for his friendly approach, the opportunity to work on this project under his supervision and for helping me improve by giving regular feedback and pushing me to get the job done. I would also like to thank my family and loved ones for supporting me during my years in college as it would be very hard if not impossible without them. It would not be a complete thesis without a delicious recipe. My favorite cake is a banana chocolate cake called the mole cake. Ingredients for the batter: 100g of unsalted butter at room temperature, 140g of sugar, 150g of all-purpose flour, 30g of cocoa

Load more