Univerzita Karlova V Praze Internetové Vyhledávače S Důrazem Na
Total Page:16
File Type:pdf, Size:1020Kb
Univerzita Karlova v Praze Filozofická fakulta Ústav informačních studií a knihovnictví Studijní program: informační studia a knihovnictví Studijní obor: informační studia a knihovnictví Libor Nováček internetové vyhledávače s důrazem na technický vývoj a ekonomiku provozu Diplomová práce Praha 2008 Vedoucí diplomové práce: PhDr. Richard Papík, Ph.D. Oponent diplomové práce: Datum obhajoby: Hodnocení: Vysoká škola: Univerzita Karlova v Praze Fakulta: Filozofická fakulta Součást: Ustav informačních studií a knihovnictví Školní rok: 2004/2005 - ZADÁNÍ DIPLOMOVÉ PRÁCE (PROJEKTU, UMĚLECKÉHO DÍLA, UMĚLECKÉHO VÝKONU) pro Libor Nováček obor Informační studia a knihovnictví Název tématu: Internetové vyhledávače s důrazem na technický vývoj a ekonomiku provozu Zásady pro vypracování: Cílem diplomové práce je popsat a analyzovat vývoj hlavních celosvětových a českých vyhledávačů typu „web search engines“ a současně se záměřit na jejich technické a ekonomické aspekty. Předběžná osnova: 1. Úvod do problematiky vyhledávacích prostředků na Internetu - období před komerčním rozšířením WWW služby - období druhé poloviny 90. let minulého století - "search engines" v 21. století 2. Technický vývoj vyhledávačů 3. Ekonomické aspekty provozu vyhledávačů 4. Předpokládané trendy vývoje internetových vyhledávacích prostředků Diplomová práce bude připravena a upravena v souladu s platnými vnitřními předpisy FF UK a dalšími metodickými pokyny a normativními dokumenty. Tisk: Rapy 0078/2001 o |SEVT| 49 395 0 1/2001 Rozsah grafických prací: Rozsah průvodní zprávy: Seznam odborné literatury: 1. BAEZA-YATES, Ricardo; RIBEIRO-NETO, Berthier. Modern information retrieval. New York : Addison-Wesley. 1999. 513 s. ISBN 0-201-39829-X 2. Search engine watch [online]. Darien (Connecticut): Jupitermedia, 1998-. [cit. 2005-01-11]. Dostupné z WWW: <http://searchenainewatch.com> 3. HOCK, Randolph. The extreme searcher's guide to Web search engines: a handbook for the serious searcher. Medford (N .J.): CyberAge Books, 1999. 212 s. ISBN 0-910965-26-9 Vedoucí diplomové práce: PhDr. Richard Papík, Ph.D. Datum zadání diplomové práce: 11.1. 2005 Termín odevzdání diplomové práce: L.S. PhDr. Richard Papík, Ph.D. Vedoucí součésti-ředitel ŮISK FF UK Děkan FF UK V Praze dne 11.1.2005 Prohlášení: Prohlašuji, že jsem diplomovou práci zpracoval samostatně a že jsem uvedl všechny použité informační zdroje. V Praze, 21. srpna 2008 Identifikační záznam: NOVÁČEK, Libor. Internetové vyhledávače s důrazem na technický vývoj a ekonomiku provozu [Internet search engines, with emphasis on their technical development and business operationsj. Praha, 2008. 125 s., 75 s. příl. Diplomová práce. Univerzita Karlova v Praze, Filozofická fakulta, Ústav informačních studií a knihovnictví 2008. Vedoucí diplomové práce PhDr. Richard Papík, Ph.D.. Abstrakt Tématem práce jsou internetové vyhledávače, zejména vyhledávače operující v prostředí volně indexovatelného WWW. Nejprve je přiblížena struktura internetových vyhledávacích systémů. Dále jsou rozebrány jejich jednotlivé části, zvláštní pozornost je věnována zejména crawleru. Hlouběji se práce věnuje také způsobům řazení výsledků a jejich možnému ovlivňování. V další části práce jsou pak popsány hlavní zahraniční a domácí vyhledávače a to nejen vyhledávající v prostoru www. Důraz je kladen na okolnosti jejich vzniku, použité technologie a jejich financování. Pozornost je věnována též osobám zakladatelů. Klíčová slova: internetové vyhledávače, vyhledávací stroje, Internet, World Wide Web, WWW, volně indexovatelný web, web crawler, spider, robot, technologie, historie internetu, optimalizace pro vyhledávače (SEO), intelektuální kapitál, rozvojový kapitál. Obsah Poděkováni.............................................................................................................................11 Předmluva.............................................................................................................................. 11 Tvůrčí poznámka....................................................................................................................12 1.Úvo d................................................................................................................................. 14 1.1.Význam pojmu „internetový vyhledávač“ ...................................................................14 1.2. Vymezení obsahu práce.................................................................................. 15 2.Technologie a struktura webu.......................................................... ................................... 18 2.1 .Technologický pohled na web.....................................................................................18 2.2.„Motýlková struktura“ webu.......................................................................................19 2.3.Regionální působnost a překryv vyhledávačů............................................................. 20 2.4.Speciální webové technologie......................................................................................22 2.4.1 .Technologie AJAX...............................................................................................22 2.4.2.AJAX aplikace z hlediska vyhledávačů................................................................23 3.Architektura vyhledávačů................................................................................................... 25 3.1.1.Softwarová stavba vyhledávačů........................................................................... 27 3.2.Crawler neboli robot....................... ......... .................................................................. 28 3.2.1.Překážky pro robota............................................................................................. 30 3.2.2.0mezení crawlingu plynoucí z legislativy............................................................32 3.2.2.1.Právní situace v České republice...................................................................33 3.3.Index a databáze vyhledávače...................................................................................... 33 3.3.1.Algoritmy pro řazení výsledků vyhledávání......................................................... 34 3.3.2.PageRank algoritmus a související patenty...........................................................35 3.3.3.Zrychlení algoritmů PageRank................. ........................................................... 36 3.3.4.0dkazy přirozené („organické“) vs. odkazy „umělé“...........................................36 3.3.5.Nejdůležitější faktory ovlivňující pořadí výsledků................................................37 3.3.6.Atribut „nofollow“......................................................................................38 3.3.7.Google bomby......................................................................................................39 3.3.8.Google Sitemaps................................................................................................. 40 3.3.8.1.Podpora Sitemaps ostatními vyhledávači...................................................... 40 3.3.8.2.Nástroje pro tvorbu sitemaps........................................................................41 3.3.8.3.Technická specifikace SiteMaps....................................................................41 3.3.9.Google Analytics.................................................................................................. 41 3.4.Vyhledávače a jejich uživatelé..................................................................................... 42 3.4.1.Frekvence používání výhledávačů uživateli..........................................................43 3.4.2.Chování uživatelů při zadávání dotazů............................................................... 44 3.4.2.1.Bezpečnostní rizika a hrozby na straně uživatelů.......................................... 44 3.4.3.Průniky hackerů do vyhledávacích služeb................... .........................................45 3.5.Postavení vyhledávačů na trhu, srovnávání a měření................................................46 3.6.Tržm podíly českých vyhledávačů ........................................................................47 3.6.1.Tržní podíly českých vyhledávačů v roce 2004....................................................47 3.6.2.Tržní podíly českých vyhledávačů v letech 2005 - 2008...................................... 47 3.6.3. Tržní podíly podle unikátních návštěvníků....................................................48 4.Vybrané aspekty reklamy u vyhledávačů............................................................. ................ 49 4.1.Právní aspekty kontextové reklamy.............................................................................. 49 4.2.Certifikace AdWords profesionálů................................................................................49 4.3.Pay-per-Click systém Sklik systém vyhledávače Seznam.cz......................................... 50 8 4.4.Reklamní program AdSense.........................................................................................51 4.4.1 .MFA weby........................................................................................................... 52 4.4.1.1 .MFA v České republice.................................................................................53 4.4.1.2.Google AdSense for domains........................................................................53 4.4.1.3.AdSense v České republice...........................................................................53