The Google Search Engine

University of Business and Technology in Kosovo UBT Knowledge Center Theses and Dissertations Student Work Summer 6-2010 The Google search engine Ganimete Perçuku Follow this and additional works at: https://knowledgecenter.ubt-uni.net/etd Part of the Computer Sciences Commons Faculty of Computer Sciences and Engineering The Google search engine (Bachelor Degree) Ganimete Perçuku – Hasani June, 2010 Prishtinë Faculty of Computer Sciences and Engineering Bachelor Degree Academic Year 2008 – 2009 Student: Ganimete Perçuku – Hasani The Google search engine Supervisor: Dr. Bekim Gashi 09/06/2010 This thesis is submitted in partial fulfillment of the requirements for a Bachelor Degree Abstrakt Përgjithësisht makina kërkuese Google paraqitet si sistemi i kompjuterëve të projektuar për kërkimin e informatave në ueb. Google mundohet t’i kuptojë kërkesat e njerëzve në mënyrë “njerëzore”, dhe t’iu kthej atyre përgjigjen në formën të qartë. Por, ky synim nuk është as afër ideales dhe realizimi i tij sa vjen e vështirësohet me zgjerimin eksponencial që sot po përjeton ueb-i. Google, paraqitet duke ngërthyer në vetvete shqyrtimin e pjesëve që e përbëjnë, atyre në të cilat sistemi mbështetet, dhe rrethinave tjera që i mundësojnë sistemit të funksionojë pa probleme apo të përtërihet lehtë nga ndonjë dështim eventual. Procesi i grumbullimit të të dhënave ne Google dhe paraqitja e tyre në rezultatet e kërkimit ngërthen në vete regjistrimin e të dhënave nga ueb-faqe të ndryshme dhe vendosjen e tyre në rezervuarin e sistemit, përkatësisht në bazën e të dhënave ku edhe realizohen pyetësorët që kthejnë rezultatet e radhitura në mënyrën e caktuar nga algoritmi i Google. Mbledhja, sistemimi dhe paraqitja e rezultateve nga Google paraqet boshtin e shtjellimit në këtë punim. Me rritjen e Google, përkatësisht, me fuqizimin e Google në ueb, paraqiten edhe problemet e përshtatshmërisë dhe përputhshmërisë së sistemit me teknologjitë aktuale që disponon tregu. Sikur që çdo sistem i veçantë, kërkon zgjidhje të veçantë, edhe Google ka sistemin e saj shumë specifik për funksionalizimin e pjesëve të saj në mënyrat, të cilat janë treguar mjaft optimale, sidomos financiarisht. Përfundimisht, pjesë e këtij punimi janë edhe mashtrimet që i bëhen Google duke shfrytëzuar dobësitë e algoritmit për radhitjen e rezultateve, si dhe studimi i mundësive dhe ideve për zhvillimin e mëtutjeshëm dhe avancimin e teknologjive të kërkimit në ueb. Fjalët kyçe: Google makina kërkuese, Google klaster arkitektura, PageRank, ueb semantike Abstract Generally, Google search machine is presented as a projected system of computers that handles the search requests for information on web. Google tries to understand human search requests in a “human” way, as well as it tries to return search results in the most possible clear format. But, this goal is not so close to the ideal case, and its realization is becoming more difficult when we take in consideration webs exponential enlargement. The process of collecting data and their representation in search results comprises data registration from various web pages and saving of those data into system reservoirs, respectively in the databases, that are used to run queries. These queries returns search results to the users, ordered in the way that is defined by Google algorithm. Data collecting, systematization and result representation from Google engine will be in the center of explication on this paper. Analysis of mega-systems, such as Google, is constructed by inspecting particles from which system is composed, those one in which system lays on, as well as environments that make system work without encountering problems or recover the system from eventual failures. While web is enlarging, Google’s taking a new role in the web. But, this is also followed by a range of problems, starting from system compatibility with current technologies. As all specific systems does, also this issue needs a specific solution, so Google has its own system for turning its system components work in a particular way, which has been seen more efficient and financially optimal. Finally, in this paper are discussed also the ‘work around’ or ‘cheats’ on Google, through using algorithm weaknesses, which orders the search result. Advanced technologies for web searching are discussed at the very end of this paper. Keywords: Google search engine, Google cluster architecture, PageRank, web semantics Falënderime Deshiroj të falënderoj në rend të parë familjen time, babain Mexhitin, nënen Nazlien, motrat, vëllaun, posaqërisht vajzën Ninen si dhe bashkëshortin tim Islamin, për ndihmen dhe përkrahjen e pakursyer që më dhanë gjatë studimeve. Falënderime të veçanta kam edhe për familjen e gjerë, te cilët me interesimin e tyre, më dhanë shtytje të fortë, që t’i perfundoj studimet me sukses. Deshiroj t’i falënderoj, gjithashtu shokët e shoqet për përkrahjen që më kanë dhënë, dhe për kujtimet e mira nga koha e studimeve. Një falënderim të posaçëm kam për profesorin Dr. Bekim Gashin, në radhë të parë për durimin e tij, mbështetjen dhe ndihmën e pakursyer që më ka dhënë gjatë punimit të diplomës. 1. Hyrja dhe motivimi 1.1 Hyrje Përmbajtja 1 HYRJA DHE MOTIVIMI.........................................................................................1 1.1 Hyrje....................................................................................................................... 1 1.2 Motivimi................................................................................................................. 2 1.3 Përshkrimi i problemit dhe objektivat .................................................................... 2 2 PARAQITJA E GOOGLE NË UEB ..........................................................................3 2.1 Zhvillimi i makinave kërkuese ................................................................................ 3 3 ARKITEKTURA E GOOGLE MAKINËS KËRKUESE ..........................................6 3.1 Arkitektura e klasterëve të Google ......................................................................... 6 3.2 Sistemi i skedarëve të Google ................................................................................ 8 3.3 Struktura e të dhënave............................................................................................ 13 4 ORGANIZIMI I TË DHËNAVE NË GOOGLE.......................................................15 4.1 Struktura funksionale e komponentëve të klasterëve të Google ........................... 15 4.2 Mbledhja e informative në ueb ............................................................................. 18 4.3 Indeksimi i uebit dhe MapReduce modeli............................................................. 21 5 REZULTATET E KËRKIMIT.................................................................................25 5.1 Analiza e pyetësorëve dhe përpilimi i rezultateve preliminare të kërkimit .......... 25 5.2 Renditja e rezultateve të kërkimit përmes algoritmit PageRank........................... 27 5.3 Efektshmëria e sistemit......................................................................................... 31 5.4 Google dhe makinat tjera kërkuese ....................................................................... 32 6 SI TË MASHTROHET GOOGLE?..........................................................................35 6.1 Teknikat për manipulimin e rezultateve të kërkimit të Google makinës kërkuese ........................................................................................................................................... 35 6.2 Teknikat e makinave kërkuese për mbrojtje kundër mashtrimeve........................ 36 1 1. Hyrja dhe motivimi 1.1 Hyrje 7 E ARDHMJA E MAKINAVE KËRKUESE ...........................................................38 7.1 Zhvillimi i vetive semantike te makinat kërkuese ................................................ 38 8 PËRFUNDIMI .........................................................................................................41 REFERENCAT .......................................................................................................44 Shtesat Listae figurave Figura 1: Grafi i rritjes së numrit të ueb faqeve .............................................................................. 4 Figura 2: Klaster arkitektura (stendat) e Google ............................................................................. 6 Figura 3: Arkitektura e sistemit të skedarëve të Google ................................................................. 9 Figura 4: Kontrolli i shkrimit dhe rrjedha e të dhënave ............................................................... 11 Figura 5: Një pjesë e tabelës të BigTable, që ruan të dhënat për ueb faqe13 Figura 6: Arkitetktura e nivelit të lartë të Google makinës kërkuese ............................................. 15 Figura 7: Indekset e avancuara dhe të përmbysura dhe leksikoni .................................................. 17 Figura 8: Rrjedha e një crawler-i të thjeshtë sekuencial................................................................. 18 Figura 9: Një faqe e bazuar në HTML dhe struktura përkatëse ...................................................... 21 Figura 10: Pseudokodi i funksionit map dhe reduce ....................................................................... 22 Figura 11: Pamja e përgjithshme e ekzekutimit të funksionit map dhe reduce............................... 23 Figura 12: Relacioni në mes tri dokumenteve të lincuara ndërmjet veti ......................................... 27 Figura 13: Diagrami

The Google Search Engine

Why We Need an Independent Index of the Web ¬ Dirk Lewandowski 50 Society of the Query Reader

Efficient Focused Web Crawling Approach for Search Engine

Distributed Indexing/Searching Workshop Agenda, Attendee List, and Position Papers

Web-Page Indexing Based on the Prioritize Ontology Terms

Analysis and Evaluation of the Link and Content Based Focused Treasure-Crawler Ali Seyfi 1,2

Google Bing Facebook Findopen Foursquare

Effective Focused Crawling Based on Content and Link Structure Analysis

Awareness Watch™ Newsletter by Marcus P

Crawling Frontier Controls

Context Based Web Indexing for Storage of Relevant Web Pages

Web Crawling, Analysis and Archiving

Finding OGC Web Services in the Digital Earth