<<

. Wydział Informatyki i Zarządzania kierunek studiów: Informatyka specjalność: Systemy informacyjne

Praca dyplomowa - magisterska

Agregator wyników zapytań w wyszukiwarkach internetowych Agregator of results gathered from Internet search engines

Maksim Buben

słowa kluczowe: search engines quality raters agregator

Krótkie streszczenie: Ta praca ma na celu zbadanie dziedziny zastosowania agregatorów wyników wyszukiwania, w których jakość uzyskanych wyników będzie wyższa niż jakość poszczególnych wyszukiwarek, wyniki wyszukiwania, których zostaną wykorzystane w tworzeniu zagregowanych wyników.

opiekun pracy Dr inż. Marek Kopel ...... dyplomowej Tytuł/stopień naukowy/imię i nazwisko ocena podpis

Do celów archiwalnych pracę dyplomową zakwalifikowano do:* a) kategorii A (akta wieczyste) b) kategorii BE 50 (po 50 latach podlegające ekspertyzie) * niepotrzebne skreślić

pieczątka wydziałowa

Wrocław 2018

Streszczenie Tematem niniejszej pracy magisterskiej jest agregator wyników zapytań w wyszukiwarkach internetowych. Opisano zarówno istniejące systemy meta-wyszukiwania, jak i meta-wyszukiwarki, które przestały i obecnie nie są wykorzystywane przez użytkowników Internetu. Przeanalizowano przyczyny tego zjawiska oraz zaproponowano sposoby rozwoju systemów informacyjnych typu metasearch . W pierwszej części niniejszej pracy przybliżono podstawowe pojęcia niezbędne do zrozumienia zasad funkcjonowania takiego rodzaju systemów: SERP (Search engine results page), Snippet, Search query (Zapytanie), Rodzaje zapytań, Organic results (Wyniki organiczne). Zaprezentowano również pojęcia konieczne do oceny jakości zagregowanych wyników wyszukiwań: Relewantność, Pertynentność, Assesor (Ассесор), Quality Rater, Discounted Cumulated Gain – DCG, Normalized Discounted Cumulated Gain - nDCG. Podano przykłady wykorzystania agregacji wyników wyszukiwania. W drugiej części niniejszej pracy opisano i zaimplementowano agregator wyników wyszukiwania na podstawie pozycji w wynikach wyszukiwania, których wyniki zostały wykorzystane w utworzeniu wyników agregacji. W trzeciej części pracy zbadano jakość wyników wyszukiwania agregatora na podstawie preferencji użytkownika. Przygotowano dokumentację do oceny jakości, korzystając z dwóch przewodników oceny jakości wyszukiwania: Przewodnik oceny jakości wyszukiwania (Search Quality Evaluator Guidelines), Przewodnik dla Asesora (Руководство для Ассесора). Zespół badawczy składał się z 15 osób: specjalistów SEO, specjalistów PPC, programistów oraz specjalistów ds. marketingu internetowego. Oceny przyznawane przez użytkowników składały się na analizę jakości zarówno poszczególnych wyszukiwarek (Google, Bing, Yandex), jak i agregatora, wykorzystującego dane z wyszukiwarek w tworzeniu własnych wyników. Zapytania do wyszukiwarek wysyłano w trzech językach. Miały one charakter zapytań o stan faktyczny. W podsumowaniu przedstawiono wnioski na temat uzyskanych wyników. Na ich podstawie można stwierdzić, że korzystanie z agregatorа wyników zapytań dla zapytań o aktualnym stanie jest uzasadnione i może poprawić jakość wyników wyszukiwania, zwiększając zadowolenie użytkownika.

1 Abstract The subject of my master's thesis is: “The aggregator of results gathered from Internet search engines. In my master's thesis, I have described existing meta-search systems and also meta- search engines, have stopped working in the recent past. The reasons for this phenomenon are analyzed. The methods of development of this type of information systems have been proposed. The first part of my work describes the basic concepts necessary to understand the principles of functioning of such systems, such as: SERP (Search engine results page), Snippet, Search query, Types of queries, Organic results. The concepts necessary to evaluate the quality of aggregated search results have also been described: Relevance, Pertinence, Assessor, Quality Rater, Discounted Cumulated Gain – DCG, Normalized Discounted Cumulated Gain - nDCG. Examples are provided of the use of aggregation of search results. In the second part of my work, a search results aggregator was described and implemented based on positions in search results, the results of which were used to create aggregation results. In the third part of my, the quality of the aggregator search results was tested based on the user's preferences. Prepared documentation for this evaluation based on two search quality evaluator guides from Google and Yandex: Search Quality Evaluator Guidelines, Guide for Assessor from Yandex. As a research team, there were 15 people involved: SEO specialists, PPC specialists, programmers and internet marketing specialists. On the basis of user ratings, a quality evaluation was made, like individual search engines (Google, Bing, Yandex), as well as an aggregator that used data from search engines to create its own results. Inquiries for search engines were in three languages and had the character of inquiries about the actual state. In summary, I presented conclusions on the obtained results. Based on these results, it can be concluded that using an aggregator of query results for queries about the current state is justified and can improve the quality of search results, which in turn increases user satisfaction.

2 Spis treści Wstęp ...... 5 Przegląd stanu wiedzy w dziedzinie agregacji wyników zapytań ...... 9 Meta-wyszukiwanie standardowe ...... 11 Meta-wyszukiwanie zaawansowane ...... 13 Meta-wyszukiwarka Nigma ...... 15 Duckduckgo.com ...... 16 Podsumowanie ...... 17 Obszary wykorzystania agregacji wyników zapytań ...... 19 Wyniki wyszukiwania (SERP)...... 20 Snippet ...... 20 Search query (Zapytanie) ...... 21 Organic results (Wyniki organiczne) ...... 21 Rodzaje zapytań ...... 22 Przykłady narzędzi wykorzystujących agregację wyników wyszukiwania ...... 23 Ahrefs ...... 23 Webpozycja ...... 25 Serp.watch ...... 25 Senuto ...... 26 Console ...... 26 Podsumowanie ...... 27 Faza konceptualna ...... 31 Zdefiniowanie podstawowych pojęć do oceny jakości systemu wyszukiwania informacji ...... 31 Dokładność (precision) ...... 33 Kompletność (recall) ...... 33 Fall-out ...... 34 F-miara (F-measure, miara Van Riesbergena) ...... 34 Discounted Cumulative Gain ...... 37 Normalized Discounted Cumulative Gain ...... 37 Cel pracy ...... 39 Koncepcja realizacji agregacji ...... 40 Opis algorytmu agregacji ...... 40 Algorytm rankingowania ...... 40 Wybór wyszukiwarek ...... 41 Wybór rodzaju zapytań ...... 47 Podsumowanie ...... 49 Wybór zapytań dla agregacji wyników...... 50 Faza Implementacyjna ...... 52 Omówienie szczegółów implementacji agregatora na podstawie pozycji w poszczególnych wyszukiwarkach ...... 52 Faza Badawcza ...... 56 Opis grupy i procedury badawczej ...... 56 Opracowanie dokumentacji oceny jakości wyników zapytań na podstawie ocen użytkowników (raterów) ...... 56 Przeprowadzenie oceny jakości agregowanych wyników na podstawie NDCG ...... 58

3 Zapytania w języku polskim ...... 58 Zapytania w języku angielskim ...... 60 Zapytania w języku rosyjskim ...... 62 Opracowanie wyników badań ...... 65 Testy statystyczne ...... 66 Podsumowanie ...... 70 Wnioski wynikające z realizacji badań ...... 70 Potrzeba kontynuacji prac ...... 70 Spis ilustracji:...... 71 Spis tabel: ...... 73 Literatura ...... 74

4 Wstęp

Obecnie mamy do czynienia z dynamicznie zmieniającą się liczbą danych w Internecie. Globalna sieć to rosnący organizm, który wymaga narzędzi usprawniających sprawny przepływ informacji. Należą do nich przede wszystkim aplikacje i systemy służące do wyszukiwania. Dlatego rozwój i ciągłe doskonalenie jakości wyszukiwarek powinno być jednym z głównych zadań znajdujących się w obszarze badań. Według danych z czerwca 2017 r. 51% światowej populacji ma dostęp do Internetu [1]. Około 2 miliardy użytkowników pochodziło z krajów rozwijających się, а 89 milionów z krajów mniej rozwiniętych. [2]

Rys.1 “Użytkownicy Internetu na 100 mieszkańców” [źródło [3][4]] Na podstawie informacji z tabeli 1 można założyć, że w przyszłości główny wzrost liczby użytkowników Internetu będzie wynikał ze wzrostu wskaźników krajów rozwijających się, dla których potencjał szybkiego wzrostu nie został jeszcze do końca wyczerpany.

Tabela 1: Internauci na całym świecie [4]

2005 2010 2016 Populacja świata 6.5 6.9 7.3 miliarda miliarda miliarda Użytkownicy na całym świecie 16% 30% 47% Użytkownicy z krajów rozwijających się 8% 21% 40% Użytkownicy z krajów rozwiniętych 51% 67% 81%

5

Zgodnie z danymi „Internet Live Stats” – projektem, którego celem jest udostępnienie statystyk o Internecie w dynamicznym formacie dla szerokiego grona odbiorców na całym świecie [5] na dzień 26.02.2018 o godzinie 14.00 otrzymujemy następujące wyniki: [6]

 Całkowita liczba stron internetowych 1 341 180 889 [7]  Użytkownicy Internetu na świecie: 3 857 089 345 [8]  Wyszukiwania Google na sekundę: 65 529 [9]  Liczba filmów z YouTube oglądanych na sekundę: 72 845 [6]  Liczba e-maili wysyłanych na sekundę: 2 669 778 [6]

Interesująca jest także tendencja wzrostu wielkości Internetu w ciągu ostatnich 20 lat, jeśli porównamy ten wzrost z wejściem na rynek firm, które później stały się znaczącymi graczami w branży internetowej. [7] Tendencja jest pokazana w tabeli 2.

Rys. 2 “Łączna liczba witryn” [źródło [7]]

6 Tabela 2 ”Wzrost łącznej liczby witryn w ciągu ostatnich 20 lat” [7]

Użytkownicy Użytkowników na Uruchomiono witryny Rok Witryny Zmiana internetu stronę internetowe 863 105 2015 -11% 3 185 996 155* 3.7 652 968 882 2014 44% 2 925 249 355 3.0 453 672 985 2013 -3% 2 756 198 420 4.1 183 697 089 2012 101% 2 518 453 530 3.6 489 346 004 2011 67% 2 282 955 130 6.6 403 206 956 2010 -13% 2 045 865 660 9.9 Pinterest 723 238 027 2009 38% 1 766 206 240 7.4 855 172 338 2008 41% 1 571 601 630 9.1 Dropbox 726 121 892 2007 43% 1 373 327 790 11.3 Tumblr 559 2006 85 507 314 32% 1 160 335 280 13.6 Twttr 2005 64 780 617 26% 1 027 580 990 16 YouTube, Reddit 2004 51 611 646 26% 910 060 180 18 Thefacebook, Flickr 2003 40 912 332 6% 778 555 680 19 WordPress, LinkedIn 2002 38 760 373 32% 662 663 600 17 2001 29 254 370 71% 500 609 240 17 Wikipedia 2000 17 087 182 438% 413 425 190 24 1999 3 177 453 32% 280 866 670 88 PayPal 1998 2 410 067 116% 188 023 930 78 Google 1997 1 117 255 334% 120 758 310 108 Yandex 1996 257 601 996% 77 433 860 301 Altavista, Amazon, 1995 23 500 758% 44 838 900 1,908 AuctionWeb 1994 2 738 2006% 25 454 590 9,297 Yahoo 1993 130 1200% 14 161 570 108,935 1992 10 900% Aug. 1 World Wide Web Project 1991

Powyższe dane są z pewnością imponujące, ale nie pozwalają w pełni przedstawić prawdziwej, łącznej liczby witryn w Internecie. Niestety, żadna z wyszukiwarek, a tym bardziej

7 algorytmy wyszukiwania nie są w stanie samodzielnie objąć wszystkich niekończących się zasobów Internetu. Dlatego liczba i rodzaj zaindeksowanych dokumentów różni się w poszczególnych wyszukiwarkach. [10] By zrozumieć specyfikę procesu wyszukiwania, poniżej przedstawiono definicję indeksowania. Indeksowanie w wyszukiwarkach (indeksowanie stron) - proces dodawania informacji za pomocą robotów wyszukiwarek do bazy danych, a następnie wykorzystywania tej zaindeksowanej informacji do wyszukiwania na zaindeksowanych stronach. [11] Zaindeksowana informacja o stronie internetowej często zawiera słowa kluczowe (algorytm wyznaczania słów kluczowych zależy od wyszukiwarki), artykuły, linki, dokumenty. Również obrazy lub pliki audio mogą być indeksowane. Aby kontrolować indeksowanie własnych witryn przez wyszukiwarki internetowe, webmasterzy posługują się plikiem robots.txt i dyrektywami: Disallow, Allow, User-agent, crawl-delay itp. Do dyspozycji pozostaje również tag i atrybut . [12] Algorytmy i czas indeksowania poszczególnych wyszukiwarek znacznie się różnią. Na przykład szybkość indeksowania nowych stron w systemie wyszukiwania Yandex trwa od tygodnia do czterech tygodni, a w Google - od kilku minut do jednego tygodnia. [11] Aby poszerzyć możliwości wyszukiwania poprzez agregowanie wyników wyszukiwania poszczególnych wyszukiwarek, zostały stworzone systemy wyszukiwania, zwane agregatorami wyników zapytań, czyli meta-wyszukiwarkami. Meta-wyszukiwarka to wyszukiwarka, która po wpisaniu zapytania wysyła równolegle kilka niezależnych od siebie zapytań do tradycyjnych wyszukiwarek i zwraca wyniki w ujednoliconej liście wyników, działając jako pośrednik między użytkownikiem oraz kilkoma wyszukiwarkami internetowymi. [10] Temat rozwoju tego typu systemów informatycznych oraz aktualny stan wiedzy w dziedzinie agregacji wyników zapytań zostanie szczegółowo opisany w następnej części niniejszej pracy magisterskiej.

8 Przegląd stanu wiedzy w dziedzinie agregacji wyników zapytań

W literaturze przedmiotu istnieje kilka definicji systemów agregacji wyników zapytań, które chociaż różnią się od siebie, posiadają kilka cech wspólnych. Zwracając uwagę na istotne elementy tego typu systemu informacyjnego, otrzymujemy następującą definicję: Agregator wyników zapytań w wyszukiwarkach internetowych (także agregator lub meta-wyszukiwarka) to narzędzie wyszukiwania, które wykorzystuje dane z innych wyszukiwarek do generowania własnych wyników z Internetu. Agregator pobiera dane wejściowe od użytkownika i jednocześnie wysyła zapytania do zewnętrznych wyszukiwarek w celu uzyskania wyników. Zebrane informacje zostają sformatowane według indywidualnego rankingu agregatora i przedstawione użytkownikom. [13] Agregator wyników wyszukiwania - to system informacyjny, który w przeciwieństwie do klasycznych wyszukiwarek nie posiada własnej bazy danych i własnego indeksu wyszukiwania, ale generuje wyniki wyszukiwania poprzez mieszanie i przerankowanie wyników wyszukiwania innych wyszukiwarek. [14] Zagregowane wyniki są wyświetlane użytkownikowi bez powielania linków i jeśli to możliwe poprawiane są wyniki wyjściowe za pomocą rozwiązań informatycznych agregatora, działając jako pośrednik między użytkownikiem i wyszukiwarkami. [10] Dostępność kilku indeksowych baz danych dokumentów sieciowych gromadzonych za pomocą różnych metod i algorytmów generuje niszę dla całej klasy systemów meta- wyszukiwania. Takie systemy nie zbierają informacji niezależnie, ale wysyłają zapytanie użytkownika do kilku innych wyszukiwarek, łączą wyniki wyszukiwania, wykonują dodatkowe przetwarzanie i wydają uogólnioną odpowiedź. Powoduje to zwiększenie zasięgu wyszukiwania poprzez przetwarzanie danych z różnych baz indeksu. [74] Ponadto meta-wyszukiwarka oszczędza czas użytkownika, który musiałby posiadać osobisty dostęp do wszystkich niezbędnych serwerów, aby dotrzeć do podobnych danych zagregowanych ręcznie z różnych wyszukiwarek. Jest to schemat w pełni rozwiniętego systemu meta-wyszukiwania. [74] Istnieje również szereg serwisów meta-wyszukiwania, które nie przeprowadzają własnej analizy wyników. W skrajnym przypadku można po prostu uzyskać kilka oddzielnych stron z wynikami różnych wyszukiwarek. Zasadniczo takie podejście może funkcjonować jedynie w początkowej fazie rozwoju meta-wyszukiwarki. Bardziej dotkliwy staje się problem przetwarzania wyników meta-search w przypadku oddzielnej wyszukiwarki. Z tego względu wiele ciekawych, eksperymentalnych rozwiązań można zobaczyć właśnie w takim rodzaju systemów informacyjnych. [74] Główną zaletą meta-wyszukiwania jest możliwość szybkiego i wygodnego generowania zapytania za pomocą jednej linii wyszukiwania do wielu wiodących wyszukiwarek internetowych, co oszczędza czas, a analiza pojedynczego zestawienia wyników staje się znacznie łatwiejsza niż przetwarzanie wielu różnych wyników przy dużym powielaniu wyników. [10] Każda wyszukiwarka to unikalny system z unikatowymi narzędziami do indeksowania, wyszukiwania i udostępniania informacji. Nie każda wyszukiwarka, nawet ta najbardziej popularna w danym kraju, nie posiada pełnych danych. Dlatego warto wziąć pod uwagę inne meta-wyszukiwarki. Za pomocą agregowania wyników wyszukiwania możemy korzystać z zalet kilku wyszukiwarek jednocześnie. Używając agregatora wyników zapytań, dostęp do informacji w Internecie zawsze będzie znacznie szerszy niż uzyskiwanie informacji za pomocą poszczególnych wyszukiwarek. [10] Arbitralnie systemy meta-wyszukiwania można podzielić na dwie grupy:  Meta-wyszukiwanie standardowe

9  Meta-wyszukiwanie zaawansowane. Szczegółowy opis każdego rodzaju meta-wyszukiwania zaprezentowano w następnej części niniejszej pracy.

10 Meta-wyszukiwanie standardowe

Rozpatrując tego rodzaju agregację, warto zauważyć, że ze względu na prostą strukturę standardowe agregatory praktycznie nie wymagają dużych początkowych nakładów na realizację projektu. Większość z tych systemów informatycznych posiada długą historię i jest dobrze znana doświadczonym internautom, ale ze względu na ich zasadniczo identyczną strukturę nie zostaną one przeanalizowane w niniejszej pracy indywidualnie. [10] Na rysunku 3 zaprezentowana została architektura klasycznego agregatora wyników zapytań (meta-wyszukiwarki).

Rys. 3 “Architektura silnika meta-wyszukiwarki” [źródło [13]] Agregator wyników zapytań przyjmuje jedno zapytanie wyszukiwania od użytkownika, które jest następnie przekazywane do innej bazy danych wyszukiwarki. Mechanizm meta- wyszukiwarek nie tworzy własnych bazy danych stron internetowych, ale generuje wirtualną bazę danych w celu integracji danych z wielu źródeł. [15] [16] Ponieważ każda wyszukiwarka jest unikalna i ma indywidualne algorytmy generowania danych rankingowych, duplikaty również zostaną wygenerowane. Aby usunąć kopie, silnik meta-wyszukiwarki przetwarza dane i stosuje własne algorytmy. Ujednolicona lista zostaje stworzona jako wynik dla użytkownika. [13]

Rys. 4 „Wizualizacja agregacji wyników wyszukiwania” [źródło [20]] Poniżej przedstawiono kilka przykładów agregatorów wyników zapytań (meta- wyszukiwarek):

11  IxQuick

Rys. 5 “Meta-wyszukiwarka Quick” [źródło [18]]

Ixquick zwraca dziesięć pierwszych wyników z wielu wyszukiwarek. Agregator wyników wyszukiwania używa "Systemu Star", aby uszeregować wyniki, przyznając jedną gwiazdkę za każdy wynik, który został zwrócony z wyszukiwarki. Tym samym najlepsze wyniki wyszukiwania to te, które zostały zwrócone przez większość wyszukiwarek. [18] System meta-wyszukiwania Ixquick współpracuje z dziesięcioma zewnętrznymi bazami danych. Są to wyszukiwarki Bing, Yahoo! Ask, All the Web, , Entire Web, , katalogi Open Directory i Wikipedia. Zasięg systemów powinien zostać uznany za wystarczająco szeroki, co czyni ten meta-finder bardzo cennym zasobem. [74] Ixquick może wyszukiwać dane w 17 językach: uproszczonym i tradycyjnym chińskim, duńskim, holenderskim, angielskim, fińskim, francuskim, niemieckim, włoskim, japońskim, koreańskim, norweskim, polskim, portugalskim, hiszpańskim, szwedzkim i tureckim. Każda wersja językowa obejmuje lokalne wyniki wyszukiwarki. [18] Ixquick oferuje standardowe narzędzia do pracy z operatorami logicznymi: wyszukiwanie z obowiązkowym włączeniem lub wyłączeniem określonych słów kluczowych, wyszukiwanie z użyciem dokładnej frazy. Do funkcji agregatora należy również obsługiwanie wyszukiwania w tytułach stron i adresach tekstowych, ograniczając wyszukiwanie do określonej domeny. Ixquick umożliwia także znalezienie linków do witryn na stronie internetowej zdefiniowanej przez użytkownika. [74]

 MetaCrawler

Rys. 6 “Meta-wyszukiwarka MetaCrawler” [źródło [19]]

MetaCrawler to meta-wyszukiwarka, która łączy wyniki m.in. z takich wyszukiwarek internetowych jak: Google, Yahoo!, Bing (dawniej Live Search), Ask.com, About.com, MIVA, LookSmart. MetaCrawler udostępnia użytkownikom opcję wyszukiwania zdjęć, filmów, wiadomości, katalogów telefonicznych firmowych i osobistych, a nawet dźwięku. [19] Ponadto do meta-wyszukiwarek korzystających z meta-wyszukiwania standardowego należą:

 ZapMeta  Draze  MetaSearch  MetaEureka  Search.com

12 Różnice między poszczególnymi systemami meta-wyszukiwania standardowego polegają jedynie na zastosowaniu różnych interfejsów podczas projektowania danych systemów meta-wyszukiwania. Meta-wyszukiwanie zaawansowane

Istnieje kilka podstawowych cech charakterystycznych dla zaawansowanego meta- wyszukiwania:

 Silne przetwarzanie wyników wyszukiwania otrzymanych z klasycznych wyszukiwarek.

Zazwyczaj w pierwszym etapie zaraz po otrzymaniu wyników od wyszukiwarek następuje niezależne rankowanie wszystkich opisów otrzymanych dokumentów. Następnie wyniki są dodatkowo analizowane oraz korelowane z uwzględnieniem miejsca, które zajmowały w poszczególnych wynikach wyszukiwania, i łączną liczbą podobnych dokumentów znalezionych w poszczególnych wyszukiwarkach (tj. wyniki poszczególnych wyszukiwarek stają się przedmiotem rankingu, a także aktywnej analizy przeprowadzanej przez silnik meta-wyszukiwarki). Skuteczność rankowania zależy od poziomu zaawansowania agregatora wyników wyszukiwania. [22]

 Obecność klastrowania

Metody klastrowania mogą być używane do automatycznego grupowania pobranych dokumentów w listy znaczących kategorii. [22]

Rys. 7 “Przykład klastrowania przy wykorzystaniu meta-wyszukiwarki ” [źródło [76]]

Rys. 8 “Przykład klastrowania przy wykorzystaniu meta-wyszukiwarki Izito” [źródło [77]]

13 Klastry technicznie mogą zostać zaimplementowane w różnej postaci, jednak najczęściej automatycznie podświetlają kluczowe tematy lub słowa wyszukiwania, a także kategorię wyników, jak pokazano na rysunku 7. Dodatkowo może powstać chmura tagów tematycznych albo gotowy zestaw kluczowych zapytań nawiązujących do tematu interesującego użytkownika, jak to jest pokazane na rysunku 8. Takie funkcjonalności udoskonalają kolejne wyszukiwania. Rysunek 7 pokazuje typowy schemat zaawansowanych systemów meta-wyszukiwania:

Rys. 9 “Zaawansowane systemy meta-wyszukiwania” [źródło [10]] Do najpopularniejszych zaawansowanych systemów meta-wyszukiwania należą:

Rys. 10 “Meta-wyszukiwarka Dogpile” [źródło [17]]

Dogpile jest silnikiem meta-wyszukiwania informacji w sieci WWW, pobierającym wyniki z Google, Yahoo!, Yandex oraz kilku innych popularnych wyszukiwarek, w tym kilku dostawców treści audio oraz wideo. [17]

14  WebCrawler

Rys. 11 “Meta-wyszukiwarka WebCrawler” [źródło [78]]

WebCrawler to silnik meta-wyszukiwania, który łączy najlepsze wyniki wyszukiwania z wyszukiwarek Google i Yahoo!. WebCrawler zapewnia użytkownikom opcję wyszukiwania obrazów, audio, wideo, wiadomości. Został opublikowany 20 kwietnia 1994 r. i stworzony przez Briana Pinkertona na University of Washington. [21] Ponadto wśród zaawansowanych meta-wyszukiwarek można także wymienić:

 Yippy  Izito

Warto zauważyć, że podział na meta-wyszukiwanie standardowe i zaawansowane jest raczej arbitralny. W procesie rozwoju standardowej meta-wyszukiwarki, a mianowicie implementacji własnych autorskich mechanizmów służących poprawie jakości wyszukiwania zaawansowanie systemu rośnie, dlatego system może zostać sklasyfikowany jako zaawansowany. Meta-wyszukiwarka Nigma Zdaniem autora pracy jednym z najciekawszych projektów ostatnich lat w tym obszarze był projekt Nigma.

Rys. 12 “Meta-wyszukiwarka Nigma” [źródło [23]] Nigma - rosyjski system meta-wyszukiwania inteligentnego z akcentem akademickim. Projekt powstał przy wsparciu wydziałów IUM i psychologii Moskiewskiego Uniwersytetu Państwowego, a także Uniwersytetu Stanford. [23]. Pierwsza wersja usługi została uruchomiona na początku 2005 r. Nigma sprawdzała wszystkie duże bazy zawierające dokumenty w języku rosyjskim, w tym Google, Yahoo! AltaVista, MSN, Yandex i , zapewniające szeroki zakres źródeł wyników wyszukiwania. Następnie stopniowo generowany jest indeks własny Nigmy. System Nigma pozwolił dostrzec mocne strony meta-wyszukiwania. Twórcy oprogramowania skoncentrowali się na poszukiwaniu innowacji w stworzeniu programu wyszukującego informacje w Internecie. [74]

15 Wyszukiwarka Nigma działała od ok. 14 lat i posiadała zarówno właściwości meta- wyszukiwania, jak i własne narzędzia rankingujące. Należała do najpopularniejszych wyszukiwarek w Rosji. Nigma korzystała z indeksów Google, Bing, Yandex itd., których łączny stan indeksu na dzień 28 lutego 2009 r. wyniósł ponad 7,16 miliarda dokumentów. [23]

Rys. 13 “Możliwości meta-wyszukiwarki Nigma” [źródło [23]] W 2018 r. strona wyszukiwarki Nigma przestała działać. [23] Ten przypadek jest przykładem ostrej konkurencji w dziedzinie wyszukiwania w Internecie. Na rynku meta-wyszukiwarek można także znaleźć aplikacje, które potrafią oprzeć się rosnącej rywalizacji. Należy do nich wyszukiwarka DuckDuckGo. Duckduckgo.com

Dzięki kompetentnej polityce dostrzegania słabych punktów światowych liderów wyszukiwania (Google, Bing) - np. wycieku danych użytkownika – DuckDuckGo zdążyła nie tylko wytrzymać konkurencję, ale także zyskała dużą popularność wśród użytkowników, którzy obawiają się o bezpieczeństwo danych osobowych. DuckDuckGo (DDG) to internetowa wyszukiwarka, która preferuje ochronę prywatności użytkowników. Aplikacja nie śledzi internautów, nie przechowuje adresów IP, plików cookies (o ile nie jest to niezbędne) i nie jest zaśmiecona reklamami. Tez ma funkcjonalność, która pozwala przeszukiwać sieć anonimowo. DuckDuckGo analizuje wyniki z ponad 400 pojedynczych źródeł, takich jak Yahoo! Search BOSS, Wikipedia, Bing, a także własny DuckDuckBot.

Rys. 14 “Wyszukiwarka DuckDuckGo” [źródło [24]]

16

Rus. 15 “Anonimowość użytkownika przy korzystaniu DuckDuckGo” [źródło [79]]

Tempo wzrostu użycia tej wyszukiwarki pokazano na rysunku 16.

Rys. 16 “Wzrost użycia DuckDuckGo” [źródło [24]]

DuckDuckGo jest pozytywnym przykładem tego, jak standardowa meta-wyszukiwarka na początkowym etapie rozwoju stała się jedną z najpopularniejszych wyszukiwarek na świecie. Podsumowanie Agregacja wyników nie jest ograniczona do meta-wyszukiwarek. Meta-wyszukiwanie jest najbardziej oczywistym, ale nadal szczególnym przypadkiem agregowania wyników wyszukiwania. W oparciu o przetwarzanie wyników SERP pojawiło się wiele systemów informatycznych, które można porównać do popularności meta-wyszukiwarek. Wartością meta-wyszukiwania jest szeroki zasięg zasobów. Pozwalają one zaobserwować, że odwołując się do jednej, nawet najlepszej "normalnej" wyszukiwarki, ryzykuje się przekazanie zasobów w alternatywnych bazach danych. Szczególnie interesujące stają się meta-wyszukiwarki, które wspierają technologię klastrowania, czyli grupowania znalezionych wyników. [74]

17 Wykorzystanie agregatorów wyników wyszukiwania szczegółowo zostanie omówione w następnej części niniejszej pracy.

18 Obszary wykorzystania agregacji wyników zapytań

Oprócz klasycznego przetwarzania jako źródła danych dla systemów meta- wyszukiwania dane wyników wyszukiwania wykorzystują wiele różnych typów systemów informatycznych. Zasadniczo te systemy informacyjne mają na celu zdobycie dodatkowych informacji, by uzyskać przewagę nad konkurentami. Informacje te są kluczowe dla optymalizacji stron internetowych (zarówno wewnętrznej optymalizacji, jak i zewnętrznej optymalizacji) do wyszukiwarek. Autor pracy używa tych narzędzi w pracy zawodowej na stanowisku Specjalisty SEO. Po pierwsze, trzeba podać przykłady rodzajów danych, które otrzymujemy przy zapytaniu do wyszukiwarki i zdefiniować pojęcia dla zrozumienia procesów zachodzących podczas wyszukiwania. Lista głównych pojęć związanych z procesem wyszukiwania informacji w Internecie obejmuje:

 Wyniki wyszukiwania (Search engine results page – SERP)  Snippet  Search query (Zapytanie)  Organic results (Wyniki organiczne)  Sponsored results (Wyniki sponsorowane)  Rodzaje zapytań.

19 Wyniki wyszukiwania (SERP)

Rys. 17 “Wyniki wyszukiwania Google” [źródło [27]] Wyniki wyszukiwania (SERP - ang. Search Engine Resultant Page) - jest to strona, na której prezentowane są wyniki wyszukiwania dla określonego zapytania użytkownika jak to jest pokazane na rysunku 17. Znajdują się na niej linki do serwisów posiadających treści odpowiadające zapytaniu wraz z krótkim opisem strony, który się nazywa snippet. [26] Linki zostają ustawione w formie listy rankingowej stworzonej na podstawie zgodności z zadanym zapytaniem. Po wprowadzeniu zapytania przez użytkownika wyszukiwarka analizuje je na podstawie różnych właściwości (lingwistycznych, morfologicznych, geograficznych itd.) i zgodnie z określonymi algorytmami wyszukiwania buduje wyniki, wyświetlające się na stronie w formie listy stron w porządku odpowiadającym ich zgodności z zapytaniem - w pierwszej kolejności pojawiają się te najbardziej odpowiadające zapytaniu. [26] Wyniki wyszukiwania w odpowiedzi na to samo zapytanie mogą różnić się w poszczególnych wyszukiwarkach, co spowodowane jest zastosowaniem odmiennych algorytmów wyszukiwania. Każdy system posiada swój unikalny sposób doboru najbardziej odpowiednich odpowiedzi na podstawie określonych czynników. [26] Snippet Snippet (z ang. snippet - fragment) - niewielki fragment tekstu, wyświetlający się obok linku w wynikach wyszukiwania. Inaczej mówiąc, jest to krótki opis strony internetowej odpowiadający zapytaniu wpisanemu do wyszukiwarki. [28] W snippecie wyróżnione są słowa kluczowe z zapytania wpisanego w wyszukiwarce. Treść zawarta w snippecie często pozwala na uzyskanie poszukiwanej informacji bez konieczności przechodzenia do strony. [28] Rola snippetu jest często niedoceniana, jednakże aby zmotywować użytkownika do wejścia na stronę, warto zatroszczyć się, by przyciągał on uwagę. Konkurencja, nawet

20 znajdując się o kilka pozycji niżej, dzięki optymalnemu snippetowi, może cieszyć się większą popularnością niż strona na pierwszej pozycji bez dopracowanego snippetu. [28] Im dokładniejszą i bardziej treściwą odpowiedź na zapytanie daje snippet, tym większą liczbę przejść zanotuje dana strona, co ma znaczący wpływ na pozycję strony w wynikach wyszukiwania. [28] Search query (Zapytanie) Zapytanie wyszukiwarki internetowej to wyrażenie, które użytkownik wprowadza do wyszukiwarki internetowej. Wyszukiwane hasła mają charakter odróżniający, ponieważ często jest to zwykły tekst lub hipertekst z opcjonalnymi dyrektywami wyszukiwania (takimi jak "and" / "or" z "-" do wykluczenia). [29] Organic results (Wyniki organiczne) Wyniki organiczne – to ta część wyników wyszukiwania (SERP-ów), która nie obejmuje wyników płatnych, czyli linków sponsorowanych. [31] Organiczne wyniki wyszukiwania SERP są naturalnymi wynikami generowanymi przez silnik wyszukiwarki w oparciu o szereg wskaźników, które określają ich relewantność i pertynentność dla podanego zapytania. Strony internetowe, które osiągają dobre wyniki na podstawie algorytmu wyszukiwania, są pokazywane wysoko na liście organicznych wyników. Algorytmy wyszukiwarki są najczęściej oparte na takich czynnikach jak zawartość i wiarygodność strony internetowej, linki zewnętrzne, media społecznościowe, wiadomości, reklama itp. [30]

Rys. 18 “Wyniki płatne i organiczne” [źródło [37]]

Każda wyszukiwarka ma nieco inny układ wyników wyszukiwania. W przypadku Google pod paskiem wyszukiwania mogą pojawić się maksymalnie 4 linki sponsorowane, następnie wyświetlonych zostaje przeważnie 10 wyników organicznych (chociaż w niektórych przypadkach ich może być nawet 13), a pod nimi znajduje się jeszcze miejsce dla 3-4 reklam AdWords. [33] Nigdy nie został udowodniony związek między organicznymi i płatnymi wynikami zapytań.

21 Kolejność SERP ustalają złożone algorytmy wyszukiwarki. Za układ linków sponsorowanych odpowiada aukcyjny mechanizm platformy AdWords – analizie podlega jakość tekstu reklamowego (obecność fraz) oraz stawka CPC, którą jest gotowy zapłacić reklamodawca za kliknięcie w link. [33] Na kolejność wyników organicznych ma wpływ pozycjonowanie i optymalizacja strony internetowej. Dobrze zoptymalizowane serwisy, nasycone słowami kluczowymi, na których generowany jest duży ruch, są oceniane wyżej przez algorytmy Google i zajmują wysokie pozycje w SERP. [33]

Rodzaje zapytań Istnieją trzy szerokie kategorie obejmujące większość zapytań internetowych: informacyjne, nawigacyjne, transakcyjne, ogólne. [35]  Zapytania informacyjne.  Zapytania nawigacyjne.  Zapytania transakcyjne.  Ogólne. [36] [68] Więcej szczegółów na temat typów zapytań zostanie opisane w rozdziale „Wybór rodzaju zapytań” niniejszej pracy.

22 Przykłady narzędzi wykorzystujących agregację wyników wyszukiwania

Ahrefs

Rys. 19 “Ahrefs” [źródło [38]] Analizuje wyniki wyszukiwania, porównuje lokalne SERP-y, określa potencjał ruchu i pokazuje sposoby ulepszania rankingów analizowanych witryn. Screen narzędzia Ahrefs pokazany jest na rysunku 19.

Analiza organicznego ruchu w wyszukiwarce

Sprawdzając SERP Ahrefs pokazuje, jak dużo ruchu organicznego z wyszukiwarki najlepsze wyniki uzyskują ze wszystkich słów kluczowych na które się wyświetlają (pokazane jest na rysunku 20).

Rys. 20 „Analiza organicznego ruchu w wyszukiwarce w Ahrefs” [źródło [38]]

23 Historia pozycji w wynikach wyszukiwania

Rys. 21 “Historia pozycji w wynikach wyszukiwania” [źródło [38]] Narzędzie Ahrefs posiada funkcję "pozycja historyczna SERP", która pozwala sprawdzić historyczne rankingi dla stron obecnie znajdujących się w TOP5. W oparciu o ich historyczne wzorce rankingowe, można dostrzec, kiedy wyszukiwarka uznaje strony w TOP10 za odpowiadające zapytaniu albo czy będzie skłonna wprowadzić inne wartościowe serwisy. [38]

24 Webpozycja

Rys. 22 “Webpozycja” [źródło [39]] Webpozycja.pl to profesjonalna platforma do sprawdzania pozycji stron WWW w Google i innych wyszukiwarkach w polskim segmencie Internetu. Szeroki zakres możliwości systemu, m.in. badanie konkurencji, analiza SERP, zaawansowana obsługa płatności dla firm pozycjonujących, czy sprawdzanie mobilnych wyników wyszukiwania sprawia, że Webpozycja jest jednym z liderów w polskim Internecie w zakresie agregowania pozycji wyników zapytań do wyszukiwarek internetowych. [39] [40] Serp.watch Serp.watch to narzędzie do ogólnego monitorowania zmian w wynikach wyszukiwania w Internecie według kraju, obszaru wyszukiwania, typu urządzenia.

Rys. 23 “Serp.watch” [źródło [80]]

25 Senuto Jedno z najlepszych narzędzi do analizy widoczności strony w polskim segmencie Internetu. Na postawie analizy zagregowanych SERP prezentuje, ile słów kluczowych w konkretnych przedziałach pozycji TOP 50/10/3 ma dana witryna. [41]

Rys. 24 “Zakres widoczności witryny” [źródło [42]]

Wykres widoczności zawiera 3 linie jak to jest pokazane na rysunku 24:

 TOP 3: Informuje o liczbie słów kluczowych w TOP 3 wyników wyszukiwania (na miejscach 1-3) – kolor jasnoniebieski  TOP 10: Informuje o liczbie słów kluczowych w TOP 10 wyników wyszukiwania (na miejscach 1-10) – kolor niebieski  TOP 50: Informuje o liczbie słów kluczowych w TOP 50 wyników wyszukiwania (na miejscach 1-50) – kolor ciemnoniebieski [42]

Google Search Console Warto wspomnieć również o natywnym narzędziu Google, które zawiera wiele informacji analitycznych uzyskiwanych na podstawie wyników wyszukiwania. Screen tego narzędzia jest pokazany na rysunku 25.

Rys. 25 „Google Search Console” [źródło [43]]

26 Google Search Console (wcześniej się nazywał Google Webmaster Tools) to darmowa platforma internetowa stworzona przez Google dla administratorów stron internetowych. Pozwala na sprawdzenie statusu indeksowania witryny przez wyszukiwarkę Google oraz zoptymalizowanie widoczności strony. [44]

Google Search Console posiada m.in. następujące narzędzia:

 Wysłanie i sprawdzenie statusu mapy witryny,  Przegląd statystyk indeksowania strony przez roboty Google,  Wygenerowanie i sprawdzanie pliku robots.txt,  Analiza wewnętrznych i zewnętrznych linków do strony,  Lista wadliwych linków na stronie,  Analiza widoczności strony w naturalnych wynikach wyszukiwarki Google według różnych słów kluczowych,  Ustawienie preferowanej domeny (np. z www lub bez www),  Otrzymywanie powiadomień od Google w przypadku zawirusowania strony, kar za nieuczciwe pozycjonowanie. [44]

Podsumowanie Zakres zastosowania tego typu systemów informatycznych jest dość szeroki - należą one do głównych narzędzi pracy specjalistów SEO. Warto również zauważyć, że wyszukiwarki stale walczą z robotami danych systemów, dlatego że marketingowa wartość tych danych jest bardzo duża.

27 Wprowadzenie do problemu wykorzystania agregacji wyników zapytań

Głównym problemem w korzystaniu z systemów meta-wyszukiwania jest wybór techniki agregacji, która pozwala polepszyć wyniki wyszukiwania w porównaniu z klasycznymi wyszukiwarkami. Staje się to coraz trudniejsze ze względu na stale rosnące wskaźniki jakości światowych liderów wyszukiwania w Internecie. Jednym z potencjalnie przydatnych obszarów zastosowania agregatorów wyników wyszukiwania jest ich wykorzystanie w przypadku niektórych typów zapytań oraz w tych państwach, w których nie dominuje jedna z wyszukiwarek. W Polsce dominacja Googla nie podlega wątpliwości jak to jest pokazane na rysunku 26 i rysunku 27.

Rys. 26 “Popularność wyszukiwarek w Polsce” [źródło [45]]

Rys. 27 “Popularność wyszukiwarki Google w Polsce” [źródło [45]]

28 Wykorzystanie wyszukiwarek internetowych na świecie nie jest tak jednoznaczne jak w Polsce jak to jest pokazane na rysunku 28.

Rys. 28 “Popularność wyszukiwarek w państwach świata” [źródło [46]] W opinii autora niniejszej pracy najciekawsze wyniki agregacji można uzyskać w krajach, w których nie ma dominacji jednej z wyszukiwarek. Przykładem takich państw mogą być: Chiny, Rosja, Czechy. Rynki tych krajów reprezentują największy potencjał w zakresie zwiększania jakości wyszukiwania w przypadku korzystania z agregatorów wyników wyszukiwania. Nie dla każdego kraju i typu zapytania wykorzystanie agregatora wyników wyszukiwania ma sens. Wydaje się oczywiste, że w przypadku 90% zapytań wystarczy jedna wyszukiwarka. Jakość wyników dla tak zwanych prostych typów zapytań jest w tej chwili bardzo wysoka. W większości przypadków użytkownik jest zadowolony z pierwszych wyników (TOP1, TOP2, TOP3). Problemy z jakością wyników zapytań w wyszukiwarkach zaczynają się od niestandardowych zapytań.

Przykłady skomplikowanych zapytań:

 wskaźniki makroekonomiczne kanada 2000 2010  albert einstein nagroda nobla za co  bmw x6 m50d ile koni  elon musk wiek

29 Aby pomóc użytkownikowi uzyskać systemy meta-wyszukiwania, które rozszerzą zakres danych w porównaniu z jedną, nawet najbardziej zaawansowaną wyszukiwarką i będą przydatne dla użytkownika podczas wyszukiwania niezbędnych informacji. W niniejszej pracy zweryfikowana zostanie prawdziwość tezy postawionej przez autora: „Jakość wyników wyszukiwania na podstawie preferencji użytkownika jest związana z popularnością tej wyszukiwarki w danym kraju.” Ciekawym obiektem do takiego sprawdzenia może być Polska. Według danych gs.statcounter.com za styczeń 2018 roku z wyszukiwarki Google'a korzysta 97-98% użytkowników. Czy żaden z konkurentów Google nie może zaoferować akceptowalnych wyników dla zapytań w języku polskim? W niniejszej pracy jakość wyników wyszukiwania sprawdzono na podstawie ocen dla polskiego segmentu internetowego dla następujących wyszukiwarek:

 Google  Yandex  Bing

Badania prowadzono dla powyższych systemów wyszukiwania w języku angielskim i rosyjskim. Dodatkowym problemem stał się wybór typu zapytania i faktycznych zapytań służących do weryfikacji postawionej tezy. Więcej na ten temat opiszę w następnej części niniejszej pracy magisterskiej.

30 Faza konceptualna

Zdefiniowanie podstawowych pojęć do oceny jakości systemu wyszukiwania informacji

Poznanie mechanizmu wyszukiwania wymaga zrozumienia problemu, w jaki sposób wyszukiwarki rozumieją działania użytkownika. Na podstawie oficjalnych raportów od przedstawicieli Google i Yandex obraz interakcji między użytkownikiem a wyszukiwarką wygląda tak, jak pokazano na rysunku 29.

Rys. 29 "Interakcja między wyszukiwarką a użytkownikiem" [źródło [20]]

Każdy użytkownik ma cel, który próbuje osiągnąć za pomocą wyszukiwarki. To zadanie może być skomplikowane lub proste i pochłaniać więcej albo mniej czasu. W ramach tego zadania użytkownik rozwiązuje podzadania, a dla każdego z nich potrzebuje informacji (odpowiedzi na zapytania). Jednocześnie użytkownik nie zawsze w pełni rozumie, czego naprawdę potrzebuje. Przykładem takiego celu może być zadanie planowania wakacji. Aby rozwiązać ten problem, należy zrealizować kilka potrzeb informacyjnych - dowiedzieć się o atrakcjach miasta, do którego użytkownik zamierza się udać, poznać ceny miejsc noclegowych, sprawdzić prognozy pogody dla terminu w okresie wakacyjnym itd. Po określeniu potrzeb informacyjnych użytkownik zaczyna komunikować się z wyszukiwarką za pomocą zapytań. Przykłady takich zapytań podane zostały poniżej w tabeli 1:

Tabela 3 „Poziomy interakcji między użytkownikiem a wyszukiwarką”

Zadanie Planowanie wakacji

Wymagania informacyjne  poznać zabytki miasta  znaleźć ceny miejsc noclegowych  sprawdzić prognozę pogody w okresie wakacyjnym Zapytania  warszawa syrena

31  warszawa syren  warszawa atrakcje  hotel warszawa  ceny nocleg w warszawie  warszawa prognoza pogody na 30 dni  pogoda 17.09 Warszawa

Na każdym etapie rozwiązywania problemu występuje utrata informacji na temat intencji użytkownika, ponieważ każdy inaczej formułuje zapytania do systemu wyszukiwania. Jak twierdzą niektórzy eksperci w dziedzinie wyszukiwania, jeśli kiedykolwiek uda się odstąpić od procedury komunikacji między użytkownikiem a wyszukiwarkami za pomocą zapytań, będzie to ogromny skok w rozwoju wyszukiwarek. [20] Istnieje wiele sposobów oceny czy dokumenty znalezione przez wyszukiwarkę dobrze odpowiadają na zapytanie użytkownika. Niestety, pojęcie stopnia relewantności wyników zapytania (jego znaczenia) jest pojęciem subiektywnym, które zależy od osoby oceniającej wyniki zapytania. Relewantność stanowi zgodność odpowiedzi wyszukiwarki na zapytanie wyszukiwane, które otrzymano od użytkownika. Odpowiedź najbardziej odpowiednia dla żądania użytkownika jest uważana za relewantną. Relewantność to najważniejszy wskaźnik w pracy wyszukiwarek internetowych. Sortowanie listy wyników zapytań według relewantności jest merytoryczną funkcją w przeważającej większości systemów wyszukiwania. Jednak występują pewnie nieścisłości przy ustalaniu trafności i jakości wyników wyszukiwania. Ścisłe przestrzeganie warunków zapytania nie gwarantuje jakościowego wyniku wyszukiwania. Relewantne odpowiedzi mogą być nierelewantnymi, mimo że idealnie pasują do zapytania. Użytkownik może sformułować nieudane lub zbyt ogólne zapytanie. Dlatego w celu określenia jakości wyszukiwania, często używa się pojęcia pertynentności, które wskazuje stopień, w jakim wyszukiwarka reaguje na rzeczywiste potrzeby informacyjne użytkownika. Odpowiedź jest pertynentną, jeżeli oferuje użytkownikowi niezbędne informacje, nawet jeśli żądanie nie zostało sformułowane przez użytkownika w najbardziej skuteczny sposób. Na polepszenie pertynentności wyników wyszukiwania skierowano szereg nowych technologii wyszukiwania w Internecie. Obecnie jednym z głównych mechanizmów oceny jakości wyszukiwarek stanowi ocena ekspercka. [20] W Yandeks osoby te nazywane są Asesorami, w Google - Quality Raters. Pomimo różnicy w nazewnictwie specjaliści wykonują identyczną pracę - przekazują do wyszukiwarki zwrotną informację o jakości wyników wyszukiwania na podstawie przyznanych ocen. Otrzymując oceny wyników wyszukiwania z tych wyszukiwarek, w kolejnym zadanie jest przekonwertowanie tych danych na liczbę w celu późniejszej analizy wyników. Ocena jakości wyszukiwarek liczy ponad 50 lat. W 1957 r. bibliotekarz z Wyższej Szkoły Aeronautycznej Cyril Cleverdon zaproponował dość prosty system oceny wyników wyszukiwania. Za jego pomocą rozwiązany został problem poszukiwania artykułów na dany temat. Bibliotekarz stworzył testową kolekcję dokumentów (1100 sztuk) i porównywał dokładność oraz kompletność algorytmów wyszukiwania za pomocą tabeli pokazanej na rysunku 30: [75]

32

Rys. 30 “Kompletność i dokładność przy ocenie efektywności wyszukiwania” [źródło [20]] Poniżej znajdują się miary efektywności wyników wyszukiwania: Dokładność (precision)

Dokładność jest zdefiniowana jako stosunek liczby relewantnych dokumentów znalezionych przez system wyszukiwania do łącznej liczby znalezionych dokumentów.

Rys. 31 “Dokładność jako miara skuteczności wyników wyszukiwania” [źródło [50]] gdzie D r e l jest zbiorem relewantnych dokumentów w bazie, a D r e t r to zestaw dokumentów znalezionych przez system. [50]

Kompletność (recall)

Stosunek liczby znalezionych relewantnych dokumentów do całkowitej liczby odpowiednich dokumentów w bazie:

Rys. 32 “Kompletność jako miara skuteczności wyników wyszukiwania” [źródło [50]] gdzie D r e l — jest zbiorem odpowiednich dokumentów w bazie danych, a D r e t r to zestaw dokumentów znalezionych przez system. [50]

33

Rys. 33 “Dokładność i kompletność” [źródło [51]] Fall-out

Fall-out charakteryzuje prawdopodobieństwo znalezienia nierelewantnego wyniku i jest zdefiniowany jako stosunek liczby nierelewantnych dokumentów znalezionych do całkowitej liczby nierelewantnych dokumentów w bazie danych:

Rys. 34 „Fall-out, jako miara skuteczności wyników wyszukiwania” [źródło [50]] gdzie D n r e l — to zbiór nierelewantnych dokumentów w bazie danych, а D r e t r — zbiór dokumentów znalezionych przez system. [50] F-miara (F-measure, miara Van Riesbergena)

Aby wspólnie ocenić dokładność i kompletność, stosuje się F-miarę, która jest zdefiniowana jako ważona średnia harmoniczna dokładności P i kompletności R: [50]

34

Rys. 35 “F-miara, jako miara efektywności wyszukiwania” [źródło [50]]

Rys. 36 “F-miara, jako miara efektywności wyszukiwania - 2” [źródło [50]] α – waga dokładności z przedziału [0, 1] β2– określa, ile razy ważniejsza jest kompletność niż dokładność; wartość z przedziału [0, ∞]. [48] Te miary są skuteczne przy wyszukiwaniu określonej liczby dokumentów, ale w Internecie wszystko dzieje się trochę inaczej niż w tym klasycznym przypadku: [20]

1. Liczba dokumentów jest bardzo duża. 2. Liczba zapytań jest również duża. 3. Użytkownik nie przegląda wszystkich znalezionych przez wyszukiwarkę elementów.

Największą wartość uzyskuje pierwsza strona wyników wyszukiwania. Wprowadza się także pojęcie tak zwanego modelu użytkownika, który ma następujące cechy zachowania: 1. Przegląda wyniki wyszukiwania od góry do dołu 2. Otwiera każdy dokument 3. Wstrzymuje wyszukiwanie, gdy znajdzie odpowiedź na zapytanie lub jest zmęczony wyszukiwaniem. [20]

Poniżej na rysunku 37 przedstawiono przykład pierwszej strony wyszukiwarki z 10 wynikami wyszukiwania.

Rys. 37 “Przykład pierwszej strony wyników wyszukiwania” [źródło [20]]

35 Dokładność w tym przypadku będzie proporcją relewantnych dokumentów do całkowitej liczby dokumentów na pierwszej stronie wyszukiwarki. Na podstawie wzoru z rysunku 31 otrzymujemy następujący wynik: Dokładność = 6/10 = 0.6 W obu przypadkach dokładność będzie taka sama. Ten parametr pokazuje, że oba SERP mają te same oceny jakości, ale intuicyjnie użytkownik rozumie, że wyniki wyszukiwania, które na wyższych pozycjach mają relewantne wyniki, są lepsze niż SERP, który w pierwszych wynikach nie ma relewantnych wyników. Konieczne jest uwzględnienie pozycji dokumentów w SERP. W tym celu stosują się wskaźniki: Discounting Cumulative Gain (DCG) i Normalized Discounting Cumulative Gain (nDCG).

36 Discounted Cumulative Gain

Założeniem DCG jest to, że sytuacja, gdy wysoce istotne dokumenty znajdujące się niżej na liście wyników wyszukiwania, nie powinna mieć miejsca, ponieważ stopniowana wartość relewantności jest zmniejszona logarytmicznie proporcjonalnie do pozycji wyniku. DCG na określonej pozycji rangowej określa się jak to jest pokazane niżej na rysunku 38:

Rys. 38 “Discounting Cumulative Gain” [źródło [50]] DCG używa stopniowanej skali relewantności dokumentów z wyników zapytania, aby ocenić́ użyteczność́ dokumentu na podstawie jego pozycji na liście wyników. Wysoko relewantne dokumenty występujące na niskich pozycjach na liście wyników otrzymają̨ gorszą ocenę̨ (będzie ona maleć logarytmicznie). Wysoko relewantne dokumenty są istotniejsze niż dokument o marginalnym znaczeniu. [48] DCG jest popularną miarą oceny wyszukiwania jakości wyszukiwania w sieci i powiązanych zadań. Im niższa pozycja w rankingu danej pozycji dokumentu, tym mniej przydatny staje się on dla użytkownika, ponieważ jest mniej prawdopodobne, że zostanie obejrzany. [49] [53] Normalized Discounted Cumulative Gain

Listy wyników wyszukiwania różnią się długością w zależności od zapytania. Dla poprawnego porównania DCG różnych zapytań należy znormalizować DCG różnych zapytań. Odbywa się to poprzez uporządkowanie wszystkich istotnych dokumentów w wynikach zapytań przez ich względną relewantność jak to jest pokazane na rysunku 39, generując maksymalny możliwy DCG przez pozycję, zwany również idealnym DCG (Ideal DCG). [54]

Rys. 39 “Discounted Cumulative Gain i Ideal Discounted Cumulative Gain” [źródło: własne] Dla zapytania, Normalized Discounted Cumulative Gain lub nDCG, jest obliczany jak to jest pokazane na rysunku 40:

Rys. 40 “Normalized discounted cumulative gain - 2” [źródło [54] [55]]

37 Dzięki NDCG wyszukiwarka może nadać większą wagę złożonym zapytaniom, dla których nie ma tak wielu relewantnych dokumentów w Internecie. W obliczeniach Gain stron internetowych zaangażowane są inne czynniki:  Popularność strony  Obecność reklam  Tematyczność strony

Mechanizm oceny jakości wyników wyszukiwania za pomocą Normalized DCG jest obecnie szeroko stosowany przez wiodące wyszukiwarki.

Rys. 41 “Google Quality Rater” [źródło [56]] Oprócz automatycznych algorytmów oceny trafności dane dotyczące jakości strony można uzyskać od ekspertów - specjalnie wyszkolonych osób zwanych "Quality Raters" w Google i „Asesory” w Yandeksie. Każda taka osoba otrzymuje zadanie dla oceny - Page Quality (PQ) rating task. Zadanie oceny jakości strony Page Quality (PQ) składa się z adresu URL i siatki do zapisania obserwacji w celu przeprowadzenia eksploracji strony docelowej i strony internetowej związanej z adresem URL. [56] Ostatecznie celem oceny jakości strony jest określenie, jak dobrze strona osiąga swoją cel. Ponieważ różne typy witryn i stron internetowych mogą mieć różne cele, oczekiwania i standardy dla poszczególnych rodzajów stron są inne. [56]

Rys. 42 “Google Quality Rater 2” [źródło [56]] Temat eksperckiej oceny wyników wyszukiwania zostanie dokładnie opisany w części badawczej niniejszej pracy.

38 Cel pracy

Na podstawie powyższych rozważań cel niniejszej pracy został sformułowany w następujący sposób: zbadanie dziedziny zastosowania (typów zapytań) agregatorów wyników wyszukiwania, w których jakość uzyskanych wyników będzie wyższa niż jakość poszczególnych wyszukiwarek, wyniki wyszukiwania, których zostaną wykorzystane w tworzeniu zagregowanych wyników. Jakość wyników wyszukiwania została wyliczona na podstawie preferencji użytkowników, tj. na podstawie eksperckiej oceny jakości wyników wyszukiwania. W badaniu wykorzystano zapytania o rzeczywisty stan.

39 Koncepcja realizacji agregacji Opis algorytmu agregacji

Jako algorytm agregacji wybrano klasyczny algorytm oparty na pozycjach w poszczególnych wyszukiwarkach. Algorytm rankingowania

W meta-wyszukiwarce rankingowanie może być wykonane na podstawie pozycji w poszczególnych wynikach wyszukiwania. Na przykład dla meta-wyszukiwarki, która korzysta z trzech oddzielnych wyszukiwarek, na potrzeby niniejszej pracy przyjęto założenie, że pierwsza strona każdej wyszukiwarki TOP10 to (A, B, C, D, E, F, G, H, I, J), dla których wyniki mogą być wspólne. Dla poszczególnych wyszukiwarek jest przypisana pewna wartość całkowita dla konkretnej pozycji wyszukiwania. Jeśli wynik wyszukiwania A znajduje się na pierwszej pozycji, to należy nadać mu 10 punktów, gdy znajduje się on na drugim miejscu, to 9 punktów itd. aż do ostatniej pozycji, dla której nadaje się 1 punkt. Jak w przykładzie poniżej pozycja w meta-wyszukiwaniu zostanie wyliczona na podstawie sumy punktów, obliczonej na postawie pozycji w wynikach wszystkich trzech oddzielnych wyszukiwarek. [16] Jeśli strona jako wynik wyszukiwania znajduje się w jednej wyszukiwarce na pierwszej pozycji, w drugiej wyszukiwarce na drugim miejscu, a w trzeciej na pierwszej pozycji, to jej sumaryczna ocena zostanie obliczona na podstawie punktów (10+9+10=29). [16] Zgodność punktów i pozycji została pokazana na rysunku 50.

40 Wybór wyszukiwarek

Zapytania do wyszukiwarki były wpisywane w trzech językach: polskim, angielskim, rosyjskim. Jako źródła danych dla agregatora wyników wyszukiwania w niniejszej pracy użyto 3 wyszukiwarek jak to jest pokazane na rysunku 43:

Rys. 43 “Wyszukiwarki Google, Bing, Yandex jako źródła danych dla agregatora” [źródło: własne]

Google

Rys. 44 “Logo Google” [źródło [57]]

Google Search, zazwyczaj określane jako wyszukiwarka Google lub po prostu Google to wyszukiwarka opracowana przez firmę Google. Jest to najpopularniejszy silnik wyszukiwania w sieci www, przetwarzający ponad trzy miliardy zapytań każdego dnia. [57]

Rys. 45 “https://google.pl” [źródło [57]]

41 Według danych z 2017 roku ponad 70% zapytań od mieszkańców ze wszystkich zakątków Ziemi jest wpisywanych do wyszukiwarki Google, przy czym jedna trzecia całego ruchu google.com przypada na obywateli USA. Ponadto Google to najczęściej odwiedzana strona internetowa na świecie. Średni czas korzystania z wyszukiwarki Google wynosi 9 minut. [59] Wyszukiwarka Google obsługuje wyszukiwanie w dokumentach w formatach PDF, RTF, PostScript, , Microsoft Excel, Microsoft PowerPoint i innych. [58]

Bing

Rys. 46 “Logo Bing” [źródło [60]]

Bing to wyszukiwarka, która jest własnością firmy Microsoft. Usługa powstała na podstawie wyszukiwarek: MSN Search, Windows Live Search i Live Search.

Rys. 47 „https://bing.com” [źródło [60]]

Bing oferuje różne usługi wyszukiwania, w tym liku web, wideo, zdjęcia i mapy, wyszukiwanie produktów. Wyszukiwarka została zaprojektowana z wykorzystaniem ASP.NET. [60] Obecnie strona internetowa Bing zajmuje 2 miejsce na liście najbardziej popularnych wyszukiwarek internetowych. [61] Bing - wyszukiwarka firmy Microsoft, powstała w 2009 roku stała się obowiązkowym atrybutem smartfonów opartych na systemie operacyjnym Windows. Najbardziej popularny Bing jest w USA (31%), Chinach (18%) i Niemczech (6%). [59]

Yandex

Rys. 48 “Logo Yandex” [źródło [62]]

"Yandex" — wyszukiwarka należąca do rosyjskiej firmy Yandex, będąca głównym produktem tego przedsiębiorstwa. [62] Jest najbardziej popularną wyszukiwarką w Rosji, a około 3% oglądalności zawdzięcza mieszkańcom Niemiec. Strona wyróżnia się dużą ilością usług (muzyka, radio, rozkład jazdy komunikacji miejskiej, nieruchomości, tłumacz itp.) [59]

42 Rys. 49 https://yandex.com [źródło [62]]

Główną cechą systemu Yandex, wpływającą na jego wysoką popularność wśród rosyjskojęzycznych użytkowników, stanowi możliwość zdefiniowania różnych odmian słów z uwzględnieniem cech morfologicznych języka rosyjskiego. Wartość zapytania za pomocą geolokalizacji i formuły wyszukiwania przekształca się w maksymalnie możliwie precyzyjne sformułowanie. Również do atutów można zaliczyć wysoką szybkość reakcji na zapytania i stabilną, bez przeciążeń, pracę serwera. [63] Po wysłaniu zapytania do agregatora wysyła on zapytania do Google, Bing, Yandex. Uzyskane wyniki są rankingowane w liście wyników na podstawie pozycji. Żadna z wyszukiwarek nie jest dyskryminowana. Przyjmuje się, że trzy wyszukiwarki mają równą wartość. Każdy z wyników z pierwszej dziesiątki (tzw. TOP10) otrzymuje punkty na podstawie poniższej tabeli pokazanej na rysunku 50:

Rys. 50 „Tabela agregacji na podstawie poszczególnych pozycji” [źródło: własne] W tym momencie należy zadać pytanie, dlaczego jedynie pierwszych 10 wyników wyszukiwania z każdej wyszukiwarki posłuży do tworzenia zagregowanych wyników.

43

Rys. 51 “Agregacja na postawie wyników z Google, Bing, Yandex” [źródło: własne]

Według badań tylko około 5% użytkowników korzysta z wyników z drugiej strony wyników wyszukiwania.

Rys. 52 “Procent ruchu odnośnie pozycji w wynikach wyszukiwarki Google” [źródło: [64]]

Podobne badania przeprowadzone przez „Chitika team” w 2010 roku wykazały porównywalne wyniki.

44

Rys. 53 “Rozkład ruchu odnośnie strony wyszukiwania” [źródło: [64]]

Rys. 54 “Rozkład ruchu odnośnie pozycji wyszukiwania” [źródło: [64]]

Strona 1 (TOP10) uzyskuje 92% całego ruchu. Na drugą stronę przechodzi już tylko 4,8% użytkowników. [65]

45

Rys. 55 “Rozkład ruchu odnośnie pozycji w pierwszej dziesiątce wyników wyszukiwania” [źródło: [66]] W branży SEO funkcjonuje popularne wyrażenie odnoszące się do drugiej strony wyników wyszukiwania: „The best place to hide a dead body is page 2 of Google search results”, co w tłumaczeniu na język polski brzmi to: Najlepsze miejsce, by ukryć zwłoki, to druga strona wyników wyszukiwania.

Rys. 56 «Druga strona wyników wyszukiwania» [źródło: [67]] W związku z powyższym podczas badania wyników użyto tylko pierwszych dziesięć wyników uzyskanych z wyszukiwarek internetowych.

46 Wybór rodzaju zapytań

Obecnie wyróżnia się cztery podstawowe rodzaje zapytań:

 Informacyjne  Nawigacyjne  Operacyjne (komercyjne)  Ogólne.

Zapytanie informacyjne – zapytanie użytkownika, który chce znaleźć satysfakcjonujące go informacje na dany temat. [68]

Nawigacyjne zapytania

Nawigacyjne zapytanie – zapytanie wprowadzone przez użytkownika, który chce znaleźć konkretne miejsce. [68]

Transakcyjne i komercyjne zapytania

Transakcyjne zapytanie – zapytanie użytkownika, który chce popełnić jakiekolwiek działanie (transakcję). Komercyjne zapytanie – zapytanie użytkownika wyrażającego potrzebę zakupu towaru lub zamówienia usługi. Często ogólne zapytanie składa się tylko z jednego słowa i w konsekwencji intencje użytkownika nie są jasne. [68] Ponadto każdy z podstawowych rodzajów zapytań może posiadać następujące cechy:

 Multimedialność  Geozależność  Sezonowość  Częstotliwość  Witalność  Konkurencyjność [68]

Multimedialność zapytania – celem użytkownika jest uzyskanie treści multimedialnych (zdjęcia, wideo, audio lub ich zbiór). Treści multimedialne mogą być zarówno informacyjne, jak i transakcyjne.

Geozależność

Geozależne zapytania (regionalne) – to zapytania, dla których wyniki są różne dla poszczególnych regionów. W większości przypadków geozależne zapytania przedstawione komercyjnymi zapytaniami. [68]

Sezonowość

Sezonowe zapytania – to zapytania, dla których liczba zgłoszeń ma wyraźnie sezonowy charakter; wyniki zmieniają się według daty, miesiąca lub pory roku. Przeciwne sezonowym są całoroczne, niesezonowe wyniki wyszukiwania. [68] Przykładem sezonowości witryny może służyć wykres Senuto jak to jest pokazane na rysunku 57.

47

Rys. 57 “Sezonowość witryny – wykres SENUTO” [źródło: [42]] Częstotliwość

Częstotliwość zapytania – to wartość odpowiadająca prognozie liczby wyświetleń danej frazy w miesiącu w danej wyszukiwarce. Istnieje warunkowy podział zapytań według częstości występowania:  niskiej częstotliwości lub "długi ogon"  średniej częstotliwości;  wysokiej częstotliwości.

W każdej niszy biznesowej istnieje indywidualny zestaw zapytań niskiej, średniej, wysokiej częstotliwości charakteryzujący się ilościowymi wskaźnikami. [68]

Konkurencyjność zapytania

Konkurencyjność zapytania – to względna charakterystyka, na podstawie której określa się zakres, czas i budżet prac niezbędnych do wyświetlania strony na wysokich pozycjach wyników wyszukiwania. [68]

Witalne zapytanie i witalna odpowiedź

Witalne zapytanie – to zapytanie, które ma witalną odpowiedź. Witalna odpowiedź – to obecność jednej lub więcej oficjalnych odpowiedzi na dane zapytanie. [68]

48 Podsumowanie

Ta klasyfikacja, choć dość szczegółowa jest jednocześnie bardzo umowna, gdyż to samo zapytanie może posiadać cechy kilku typów zapytań. Wyszukiwarki budują wyniki na podstawie ogromnej liczby danych pochodzących od użytkowników. W niektórych przypadkach zapytania w miarę wzrostu popularności mogą zmieniać swój typ (na przykład z ogólnego do komercyjnego). W niniejszej pracy do przeprowadzenia badania został wybrany informacyjny typ zapytania o stanie faktycznym z następującymi cechami: niemultimedialny, niesezonowy, geoniezależny i o niskiej częstotliwości. Takie charakterystyki zostały wybrane, by ułatwić pracę ekspertów w trakcie oceny jakości wyszukiwarek. Zapytania zostały przygotowane w trzech językach, przy czym dla każdego z języków została wybrana odpowiednia geolokalizacja w opcjach wyszukiwarek: dla zapytań w języku polskim została wybrana Polska, dla zapytań w języku angielskim - USA, a dla zapytań w języku rosyjskim - Rosja, Moskwa. Lista zapytań znajduje się w następnym rozdziale niniejszej pracy.

49 Wybór zapytań dla agregacji wyników

Niżej przedstawiona tabela 3 z zapytaniami, które były wykorzystane przy badaniu jakości wyników zapytań. Tabela 3 „Zapytania dla badania”

Zapytanie Język zapytania Lokalizacja Data zapytania zapytania wskaźniki makroekonomiczne kanada 2000 Polski Polska 20.11.2017 2010 adam mickiewicz data aresztowania Polski Polska 20.11.2017 albert einstein nagroda nobla za co Polski Polska 20.11.2017 bmw x6 m50d ile koni Polski Polska 20.11.2017 elon musk wiek Polski Polska 20.11.2017 data bitwy pod grunwaldem Polski Polska 20.11.2017 kim dzong un wykształcenie Polski Polska 20.11.2017 kim jong il miejsce urodzenia Polski Polska 20.11.2017 pkb polski 1991 Polski Polska 20.11.2017 populacja mozambique 2015 Polski Polska 20.11.2017 canada macroeconomic indicators 2000 Angielski USA 20.11.2017 2010 adam mickiewicz date of arrest Angielski USA 20.11.2017 albert einstein nobel prize for what Angielski USA 20.11.2017 bmw x6 m50d horsepower Angielski USA 20.11.2017 elon musk age Angielski USA 20.11.2017 where did the battle of grunwald take Angielski USA 20.11.2017 place kim jong un education Angielski USA 20.11.2017 kim jong il birthplace Angielski USA 20.11.2017 gdp polski 1991 Angielski USA 20.11.2017 population of mozambique 201 Angielski USA 20.11.2017 макроэкономические показатели Rosyjski Rosja 20.11.2017 Канады 2000 2010 дата рождения адама мицкевича Rosyjski Rosja 20.11.2017 альберт эйнштейн нобелевскую Rosyjski Rosja 20.11.2017 премию за что получил бмв x6 m50d сколько лошадей Rosyjski Rosja 20.11.2017 элон маск возраст Rosyjski Rosja 20.11.2017 дата битвы под грюнвальдом Rosyjski Rosja 31.10.2017

50 ким чен ын образование Rosyjski Rosja 20.11.2017 ким чен ир место рождения Rosyjski Rosja 20.11.2017 ввп польши 1991 Rosyjski Rosja 20.11.2017 мозамбик население 2015 Rosyjski Rosja 20.11.2017

Każde z badanych zapytań otrzymało konkretną odpowiedź, choć przy niektórych zapytaniach potrzebna była pomoc eksperta w celu określenia relewantności dokumentu. W celu przeprowadzenia oceny jakości wyników wyszukiwania została opracowana dokumentacja na podstawie rekomendacji ekspertów Yandex i Google. Opis procedury badawczej, grupy badawczej, a także opracowanie dokumentacji oceny jakości wyników zapytań zaprezentowano w rozdziale poświęconym fazie badawczej niniejszej pracy.

51 Faza Implementacyjna

Omówienie szczegółów implementacji agregatora na podstawie pozycji w poszczególnych wyszukiwarkach Jak zaprezentowano w rozdziale „Koncepcja realizacji agregacji” w sekcji „Opis algorytmu agregacji” agregator wyników wyszukiwania opiera się na pozycjach w poszczególnych wyszukiwarkach. Aby uzyskać linki badanych stron, użyto plugin Link Klipper do przeglądarki Chrome. Rozszerzenie to ma następujące cechy:

 Ekstrakcja wszystkich linków na stronie,  Przechowywanie wszystkich otrzymanych linków do pliku CSV. [69]

Emulacja działania została zrealizowana za pomocą aplikacji Numbers. Stworzono szablon do obliczania uzyskanych ogólnych wyników. Wygląd tego szablonu zarówno pustego, jak i wypełnionego zaprezentowano poniżej na rysunkach 58 i 59:

Rys. 58 „Pusty szablon dla oceny” [źródło: własne]

52 Rys. 59 „Wypełniony szablon dla oceny” [źródło: własne]

Pusty szablon z agregowanymi wynikami jest pokazany na rysunku 60. Po wystawieniu ocen agregowane wyniki wyglądają, jak to jest pokazane na rysunku 61:

Rys. 60 “Szablon agregowanych wyników” [źródło: własne]

53

Rys. 61 “Szablon agregowanych wyników - 2” [źródło: własne]

Dla każdej wyszukiwarki przy każdym zapytaniu obliczono wskaźnik DCG i iDCG. Pokazane to na rysunku 62.

Rys. 62 “Obliczanie wskaźników DCG i iDCG dla wyszukiwarki Google” [źródło: własne]

W końcu dla każdego zapytania otrzymano następującą tabelę z wskaźnikami Cumulative Gain, Discount Cumulative Gain, Ideal Discount Cumulative Gain, Normalized Discount Cumulative Gain jak to jest pokazane na rysunku 63:

54

Rys. 63 “Ogólna tabela oceny jakości dokumentu z wskaźnikami CG, DCG, iDCG, NDCG” [źródło: własne] Wartość wskaźnika NDCG ma największe znaczenie, ponieważ to właśnie ona posłużyła do analizy. Kryteria oceny zostały opisane w kolejnym rozdziale badawczym niniejszej pracy dyplomowej.

55 Faza Badawcza

Opis grupy i procedury badawczej

W badaniu jakości otrzymanych wyników wyszukiwania zespół badawczy składał się z 15 osób: specjalistów SEO, specjalistów PPC, programistów oraz specjalistów ds. marketingu internetowego.

Rys. 64 “Zespół badawczy” [źródło: własne] Każdy z ekspertów otrzymał papierową i elektroniczną wersję ankiety do wypełnienia. Każdy z ekspertów dostał po 2 zapytania do zweryfikowania. W sumie każdy z użytkowników dał ocenę dla maksymalnie 60 stron. Opracowanie dokumentacji oceny jakości wyników zapytań na podstawie ocen użytkowników (raterów)

Do oceny każdej witryny została wykorzystana następująca gradacja dla oceny relewantności. Ta gradacja jest pokazana w tabeli 4.

Tabela 4 “Poziomy ocen relewantności z opisami” [70], [71], [72]

Ocena relewantności Punkty Opis Jest to najwyższa ocena, którą może otrzymać wynik Witalna (Vital) 10 wyszukiwania. Witalną ocenę najprawdopodobniej uzyska oficjalna strona zapytania. Jest to drugi co do ważności wynik oceny strony. Tę ocenę otrzymuje dokument (strona www), na której Korzystna (Useful) 7 można znaleźć informacje nie tylko dokładnie pasujące do zapytania, ale i posiadające dodatkową wartość informacyjną. Dokument odpowiada na zapytanie, ale nie posiada dodatkowej wartości informatycznej jak przy ocenie Relewantna (Relevant) 5 Useful Często strony z taką oceną posiadają tylko jednym z ważnych aspektów zapytania, a nie wszystkimi. Ocena przyznawana stronom, które nie odpowiadają na Nie relewantna 2 zapytanie, ale w jakiś sposób są powiązane z intencją (Not Relevant) użytkownika. Jest to najniższa pozytywna ocena, którą otrzyma Nie na temat (Off-topic) 1 strona całkowicie niezgodna z zapytaniem. Taka ocena zostanie przypisana stronie internetowej, Język obcy (Foreign 0 jeżeli język docelowy zapytania nie zgadza się z Language) językiem strony.

56 Taką ocenę uzyska strona internetowa, zwracająca błąd Problem z pobraniem 404, błąd „nie znaleziono strony”, błąd „product not 0 dokumentu (Didn’t Load) found”, błąd „server time out, błąd „403 forbidden”, gdy jest wymagana autoryzacja itp. Nie może być oceniona Ocena przyznawana, jeżeli strona nie może zostać 0 (Unratable) oceniona. Spam -5 Spam.

Powyższa tabela jest oparta na dwóch podstawowych dokumentach:  Google Przewodnik oceny jakości wyszukiwania (Search Quality Evaluator Guidelines) (rysunek 59)

Rys. 65 “Google przewodnik oceny jakości wyszukiwania” [źródło: [71]]  Yandex Przewodnik dla Asesora (Руководство для Ассесора) (rysunek 60)

Rys. 66 “Yandex przewodnik dla Asesora” [źródło: [72]]

Powyższe dokumenty należą do oficjalnej dokumentacji Google i Yandex służącej do oceny jakości wyszukiwania. Dane pochodzące z analizy są wykorzystywane do wprowadzenia zmian w algorytmach wyszukiwarek. Na podstawie przyznanych ocen stwierdza się, jak skuteczne były innowacje wprowadzone w wyszukiwarce. W badaniu przeprowadzonym na potrzeby niniejszej pracy agregowano i analizowano wyniki Google, Yandex, Bing, a także meta-agregatora na podstawie danych wyszukiwarek. Wyniki analizy przedstawiono w następnym rozdziale pracy.

57 Przeprowadzenie oceny jakości agregowanych wyników na podstawie NDCG

Zapytania w języku polskim

Lista zapytań w języku polskim pokazane jest w tabeli 5: Tabela 5 „Zapytania w języku polskim”

Zapytania Język Lokalizacja Data zapytania zapytania [wskaźniki makroekonomiczne kanada 2000 2010] Polski Polska 20.11.2017 [adam mickiewicz data aresztowania] Polski Polska 20.11.2017 [albert einstein nagroda nobla za co] Polski Polska 20.11.2017 [bmw x6 m50d ile koni] Polski Polska 20.11.2017 [elon musk wiek] Polski Polska 20.11.2017 [data bitwy pod grunwaldem] Polski Polska 20.11.2017 [kim dzong un wykształcenie] Polski Polska 20.11.2017 [kim jong il miejsce urodzenia] Polski Polska 20.11.2017 [pkb polski 1991] Polski Polska 20.11.2017 [populacja mozambique 2015] Polski Polska 20.11.2017

Wskaźniki nDCG dotyczące silnika wyszukiwania dla zapytań w języku polskim pokazane są w tabeli 6 i na rysunkach 67 i 68:

Tabela 6 “Wskaźniki nDCG dla zapytań w języku polskim”

Google Bing Yandex Agregator 0.851186383 0.4250813 0.246175938 0.606393201 0.967461449 0.580303852 0.461774159 0.70852278 0.984657242 0.932006786 0.67545195 0.891474674 0.940951605 0.827707235 0 0.755485232 0.856691478 0.899498975 0.482404919 0.955516751

1 0.813415391 0.773281909 0.907261943 0.86867189 0.822351389 0.808398771 0.993251859 0.630514225 0.499452346 0.484181547 0.662664269 0.790982483 0.780794773 0.785013688 0.69820307 0.697925427 0.69019418 0.436889463 0.883287352 0.858904218 0.727080623 0.515357234 0.806206113

Rys. 67 “Wskaźniki nDCG dla zapytań w języku polskim - 2” [źródło: własne]

58

Rys. 68 “Wskaźniki nDCG dla zapytań w języku polskim - 3” [źródło: własne] Jak wynika z badań, wyszukiwarka Google okazała się bezkonkurencyjna, co potwierdzają wskaźniki popularności tej wyszukiwarki w Polsce, którą według badań posługuje się 97-98% użytkowników. [45]

Porównanie nDCG Google i Agregatora dla zapytań w języku polskim Google Agregator 1,1

1

0,9

0,8

0,7

0,6

0,5 1 2 3 4 5 6 7 8 9 10 Rys. 69 „Porównanie nDCG Google i Agregatora dla zapytań w języku polskim” [źródło: własne]

Yandex poradził sobie z zapytaniami w języku polskim na przeciętnym poziomie, pokazując najgorsze wskaźniki jakości wyszukiwania, co nie jest zaskakujące, ponieważ dla tej wyszukiwarki polski segment internetu nie stanowi priorytetu.

59 Zapytania w języku angielskim

Lista zapytań w języku polskim pokazane jest w tabeli 7:

Tabela 7 “Zapytania w języku angielskim”

Zapytania Język zapytania Lokalizacja Data zapytania [canada macroeconomic indicators 2000 2010] Angielski Usa 20.11.2017 [adam mickiewicz date of arrest] Angielski Usa 20.11.2017 [albert einstein nobel prize for what] Angielski Usa 20.11.2017 [bmw x6 m50d horsepower] Angielski Usa 20.11.2017 [elon musk age] Angielski Usa 20.11.2017 [where did the battle of grunwald take place] Angielski Usa 20.11.2017 [kim jong un education] Angielski Usa 20.11.2017 [kim jong il birthplace] Angielski Usa 20.11.2017 [gdp polski 1991] Angielski Usa 20.11.2017 [population of mozambique 2015] Angielski Usa 20.11.2017

Wskaźniki nDCG dotyczące silnika wyszukiwania dla zapytań w języku angielskim pokazane są w tabeli 8 i na rysunkach 70 i 71:

Tabela 8 “Wskaźniki nDCG dla zapytań w języku angielskim”

Google Bing Yandex Agregator 0.967094751 0.933049507 0.319023198 0.872017982 0.825572726 0.63057043 0.992312373 0.897789659 0.845176096 0.80557925 0.880899522 0.966518375 0.917222156 0.819354823 0.485457396 0.881289017 0.732028955 0.942458084 0.83698606 0.944755662 0.969939234 0.613330561 0.845732126 0.977435009 0.970130578 0.820087533 0.833992932 0.899617805 0.829549721 0.827767526 0.600463836 0.933800969 0.926333895 0.921587575 0.795387436 0.943238286 0.922871274 0.831829117 0.799463912 0.902135097 0.890591939 0.814561441 0.738971879 0.921859786

Rys. 70 “Wskaźniki nDCG dla zapytań w języku angielskim - 2” [źródło: własne]

60

Rys. 71 „Wskaźniki nDCG dla zapytań w języku angielskim – 3” [źródło: własne] Zapytania w języku angielskim stanowią priorytet dla większości wyszukiwarek, nawet tych lokalnych, jak Yandex czy Baidu. W tych zapytaniach jakość wyników wyszukiwania dla wyszukiwarki Yandex wzrosła w porównaniu z zapytaniami w języku polskim, podobnie jak w Google i Bing, dla których anglojęzyczny segment internetu jest głównym źródłem zysku. Semantyka języka angielskiego zbadana jest przez Google i Bing w wystarczającym stopniu – wyszukiwarki uzyskały bardzo wysokie wyniki. Jednak agregator, korzystając z wszystkich atutow metawyszukiwania i rozszerzając szerokość widzenia klasycznych wyszukiwarek w danym języku zapytania, uzyskał najlepszy wynik.

61 Zapytania w języku rosyjskim

Lista zapytań w języku polskim pokazane jest w tabeli 9:

Tabela 9 “Zapytania w języku rosyjskim”

Zapytania Język Lokalizacja Data zapytania zapytania [макроэкономические показатели Канады 2000 2010] Rosyjski Rosja 20.11.2017 [дата рождения адама мицкевича] Rosyjski Rosja 20.11.2017 [альберт эйнштейн нобелевскую премию за что получил] Rosyjski Rosja 20.11.2017 [бмв x6 m50d сколько лошадей] Rosyjski Rosja 20.11.2017 [элон маск возраст] Rosyjski Rosja 20.11.2017 [дата битвы под грюнвальдом] Rosyjski Rosja 31.10.2017 [ким чен ын образование] Rosyjski Rosja 20.11.2017 [ким чен ир место рождения] Rosyjski Rosja 20.11.2017 [ввп польши 1991] Rosyjski Rosja 20.11.2017 [мозамбик население 2015] Rosyjski Rosja 20.11.2017

Wskaźniki nDCG dotyczące silnika wyszukiwania dla zapytań w języku rosyjskim pokazane są w tabeli 10 i na rysunkach 72 i 73:

Tabela 10 “Wskaźniki nDCG dla zapytań w języku rosyjskim”

Google Bing Yandex Agregator

0.915611808 0.661764405 0.910845706 0.938635335

0.939000348 0.878427736 0.995483776 0.993653734

0.922173622 0.679071893 0.795189759 0.917404545

0.907464398 0.692446399 0.88300339 0.946523138

1 0.899495632 0.936980207 1

0.955935878 0.552977671 0.985100413 0.913026778

0.65589738 0.653882911 0.841142961 0.831979759

0.816423491 0.715936491 0.973641206 0.863869369

0.889243271 0.81315996 0.8336009 0.930861319

0.795391596 0.638138456 0.963668729 0.911012941 0.879714179 0.718530155 0.911865705 0.924696692

62

Rys. 72 “Wskaźniki nDCG dla zapytań w języku rosyjskim - 2”

Rys. 73 “Wskaźniki nDCG dla zapytań w języku rosyjskim - 3” W zapytaniach w języku rosyjskim Yandex ma najlepszy wynik wśród klasycznych wyszukiwarek, co potwierdza jego wiodącą pozycję w rosyjskim segmencie Internetu. Google z kolei ma drugi wynik. Bing uzyskał najgorszy wynik. Agregator dla tego języka zapytań zaprezentował najwyższy wynik. To z kolei potwierdza hipotezę, że największą skuteczność agregacja wyników może mieć miejsce na rynkach, w których nie ma dominacji jednej z wyszukiwarek, a popularność wyszukiwarek na danym rynku jest równoznaczna. Przykładem tu może być rynek wyszukiwarek w Rosji, gdzie Google i Yandex mają niemal równie części rynku jak to jest pokazane na rysunku 73.

Rys. 74 “Ranking wyszukiwarek w 2017 w Rosji” [73]

63 Właśnie w takich segmentach Internetu stosowanie agregatorów wyników wyszukiwania jest najbardziej uzasadnione, co zostało potwierdzone wynikami badań.

64 Opracowanie wyników badań

Ogólne wyniki badań pokazane na rysunkach 75 i 76:

Rys. 75 “Ogólne wyniki badań nDCG” Średnioważone znaczenia wskaźnika nDSG pokazane są w tabeli 10.

Tabela 10 “Ogólne wyniki badań nDCG - 2”

Google Bing Yandex Agregator 0.876403445 0.75339074 0.722064939 0.884254197

Rys. 76 “Ogólne wyniki badań nDCG - 3” Wyniki wykazały, że nieznacznie wskaźnik nDCG agregatora wyników zapytań jest wyższy niż wskaźniki trzech poszczególnych wyszukiwarek. Najlepszy wynik wśród klasycznych wyszukiwarek zaprezentowało Google, na drugim miejscu jest Bing, a najgorsza wyszukiwarka to Yandex.

65 Testy statystyczne

Jako test statystyczny został wykorzystany test Wilkoksona. To nieparametryczny statystyczny test (kryterium), używany w celu sprawdzenia różnic pomiędzy dwoma próbkami pikseli par pomiarów. Po raz pierwszy zaproponowany Frankiem Wilkoksonem. [81]. Test został przeprowadzony przy użyciu online zasobu - http://vassarstats.net/. [82] Poniżej znajdują się wyniki testu statystycznego dla par badanych wyników. Dla pary «Google i Agregator» wyniki są pokazane w tabeli 11 i tabeli 12. Hipotezy: H0: W badanych wynikach zapytań mediana różnic pomiędzy nDCG agregatora i Google wynosi 0. H1: W badanych wynikach zapytań mediana różnic pomiędzy nDCG agregatora i Google różna od 0.

Tabela 11 “Test statystyczny dla pary Google i Agregator”

Google Agregator S/R of|Xa−Xb|

0.851186383 0.606393201 28 0.967461449 0.70852278 29 0.984657242 0.891474674 17 0.940951605 0.755485232 26 0.856691478 0.955516751 -19 1 0.907261943 15 0.86867189 0.993251859 -23 0.630514225 0.662664269 -6 0.790982483 0.69820307 16 0.697925427 0.883287352 -25 0.967094751 0.872017982 18 0.825572726 0.897789659 -14 0.845176096 0.966518375 -22 0.917222156 0.881289017 7 0.732028955 0.944755662 -27 0.969939234 0.977435009 -2 0.970130578 0.899617805 13 0.829549721 0.933800969 -20 0.926333895 0.943238286 -3 0.922871274 0.902135097 4 0.915611808 0.938635335 -5 0.939000348 0.993653734 -12 0.922173622 0.917404545 1 0.907464398 0.946523138 -8 1 1 --- 0.955935878 0.913026778 10 0.65589738 0.831979759 -24 0.816423491 0.863869369 -11 0.889243271 0.930861319 -9 0.795391596 0.911012941 -21

Tabela 12 “Wyniki testu statystycznego dla pary Google i Agregatora”

W=-67

ns/r=29 P(1-tail) P(2-tail) z=-0.72 0.2358 0.4715

66 Dla pary «Bing i Agregator» wyniki są pokazane w tabeli 13 i tabeli 14. Hipotezy: H0: W badanych wynikach zapytań mediana różnic pomiędzy nDCG agregatora i Bing wynosi 0. H1: W badanych wynikach zapytań mediana różnic pomiędzy nDCG agregatora i Bing różna od 0.

Tabela 13 „Test statystyczny dla pary Bing i Agregator”

Bing Agregator S/R of|Xa−Xb|

0.4250813 0.606393201 -22 0.580303852 0.70852278 -16 0.932006786 0.891474674 3 0.827707235 0.755485232 8 0.899498975 0.955516751 -4 0.813415391 0.907261943 -11 0.822351389 0.993251859 -20 0.499452346 0.662664269 -19 0.780794773 0.69820307 10 0.69019418 0.883287352 -23 0.933049507 0.872017982 5 0.63057043 0.897789659 -26 0.80557925 0.966518375 -18 0.819354823 0.881289017 -6 0.942458084 0.944755662 -1 0.613330561 0.977435009 -30 0.820087533 0.899617805 -9 0.827767526 0.933800969 -13 0.921587575 0.943238286 -2 0.831829117 0.902135097 -7 0.661764405 0.938635335 -28 0.878427736 0.993653734 -14 0.679071893 0.917404545 -24 0.692446399 0.946523138 -25 0.899495632 1 -12 0.552977671 0.913026778 -29 0.653882911 0.831979759 -21 0.715936491 0.863869369 -17 0.81315996 0.930861319 -15 0.638138456 0.911012941 -27

Tabela 14 “Wyniki testu statystycznego dla pary Bing i Agregatora”

W=-413

ns/r=30 P(1-tail) P(2-tail) z=-4.24 <.0001 <.0001

67 Dla pary «Yandex i Agregator» wyniki są pokazane w tabeli 15 i tabeli 16. Hipotezy: H0: W badanych wynikach zapytań mediana różnic pomiędzy nDCG agregatora i Yandex wynosi 0. H1: W badanych wynikach zapytań mediana różnic pomiędzy nDCG agregatora i Yandex różna od 0.

Tabela 15 “Test statystyczny dla pary Yandex i Agregator”

Yandex Agregator S/R of|Xa−Xb|

0.246175938 0.606393201 -25 0.461774159 0.70852278 -23 0.67545195 0.891474674 -22 0 0.755485232 -30 0.482404919 0.955516751 -28 0.773281909 0.907261943 -18 0.808398771 0.993251859 -21 0.484181547 0.662664269 -20 0.785013688 0.69820307 10 0.436889463 0.883287352 -27 0.319023198 0.872017982 -29 0.992312373 0.897789659 11 0.880899522 0.966518375 -9 0.485457396 0.881289017 -26 0.83698606 0.944755662 -14 0.845732126 0.977435009 -17 0.833992932 0.899617805 -7 0.600463836 0.933800969 -24 0.795387436 0.943238286 -19 0.799463912 0.902135097 -13 0.910845706 0.938635335 -3 0.995483776 0.993653734 1 0.795189759 0.917404545 -16 0.88300339 0.946523138 -6 0.936980207 1 -5 0.985100413 0.913026778 8 0.841142961 0.831979759 2 0.973641206 0.863869369 15 0.8336009 0.930861319 -12 0.963668729 0.911012941 4

Tabela 16 “Wyniki testu statystycznego dla pary Yandex i Agregatora”

W=-363

ns/r=30 P(1-tail) P(2-tail) z=-3.73 0.0001 0.0002

Dla pary Agregator-Bing i Agregator-Yandex poziom asymptotycznej istotności P poniżej 0.05 (P<0.05), c czego wynika, że dane pary danych statystycznie się różną od siebie

68 nawzajem, co w naszym przypadku będzie mówić o wzroście jakości wyników. Hipoteza zerowa dla tych przypadków ma być odrzucona. Dla pary Agregator-Google P(1-tail) = 0.2358 i P(2-tail) = 0.4715, co jest więcej niż 0.05, co z kolei oznacza, że dane wyniki statystycznie są podobne, czyli różnice między próbkami nie są statystycznie istotne, z czego można stwierdzić, że jakość wyników wyszukiwania agregatora nie jest gorsza niż jakość wyszukiwania każdego z klasycznych wyszukiwarek indywidualnie (Google, Bing, Yandex) i lepiej niż u dwóch wyszukiwarek (Bing i Yandex). W naszym konkretnym przypadku okazało się, że Agregator pokazał trochę lepszy wynik niż najlepsza z wyszukiwarek klasycznych: Google, ale nie da się stwierdzić, że przy przeprowadzeniu powtórnych badań taka sytuacja się powtórzy. Hipoteza zerowa dla tej pary wyników nie może być odrzucona.

69 Podsumowanie Wnioski wynikające z realizacji badań

Na podstawie powyższych wyników można stwierdzić, że korzystanie z agregatorа wyników zapytań dla zapytań o aktualnym stanie jest uzasadnione i może poprawić jakość wyników wyszukiwania, zwiększając zadowolenie użytkowników. Wykorzystanie agregatora powoduje zwiększenie zasięgu wyszukiwania, co z kolei powoduje, że użycie meta-wyszukiwarek jest korzystnie w tych segmentach Internetu, gdzie nie ma dominacji jednej z wyszukiwarek. Zgodnie z rysunkiem 28 “Popularność wyszukiwarek w państwach świata” [46] przykładami takich państw mogą być: Chiny, Rosja, Czechy. Rynki tych krajów reprezentują największy potencjał w zakresie zwiększania jakości wyszukiwania w przypadku korzystania z agregatorów wyników wyszukiwania. Ale tu trzeba brać pod uwagę rodzaj i popularność zapytania do wyszukiwarki. W badaniach były wykorzystane zapytania o stan faktyczny. Jakość wyników przy takim rodzaju zapytań Agregatora była wyższa niż jakość poszczególnych wyszukiwarek, z czego można zrobić podsumowanie, że wykorzystanie agregacji poprawia jakość wyników, co w dalszym ciągu zwiększa zadowolenie użytkowników, co z kolei w jest głównym celem działania systemów wyszukiwania informacji. Więc można stwierdzić, że cel pracy został osiągnięty.

Potrzeba kontynuacji prac

W niniejszej pracy została zbadana jakość wyników wyszukiwania zarówno agregatora, jak i poszczególnych wyszukiwarek na podstawie 30 zapytań o stan faktyczny. Ta próbka w ramach skali wyszukiwarek jest za mała. Niestety dla pary Agregator-Google po przeprowadzeniu testu statystycznego wynika, że dane wyniki statystycznie są podobne, czyli różnice między próbkami nie są statystycznie istotne i nie można stwierdzić, że jakość wyników przy innej próbce zapytań będzie lepsza u Agregatora, więc w przypadku dostępności większej liczby osób zaangażowanych (Search Quality Raters) autor niniejszej pracy uważa, że warto przeprowadzić tego typu badania na większej próbie zapytań.

70 Spis ilustracji:

Rysunek 1 “Użytkownicy Internetu na 100 mieszkańców” [źródło [3][4]] Rysunek 2 “Łączna liczba witryn” [źródło [7]] Rysunek 3 “Architektura silnika meta-wyszukiwarki” [źródło [13]] Rysunek 4 „Wizualizacja agregacji wyników wyszukiwania” [źródło [20]] Rysunek 5 “Meta-wyszukiwarka Quick” [źródło [18]] Rysunek 6 “Meta-wyszukiwarka MetaCrawler” [źródło [19]] Rysunek 7 “Przykład klastrowania przy wykorzystaniu meta-wyszukiwarki Yippy” [źródło [76]] Rysunek 8 “Przykład klastrowania przy wykorzystaniu meta-wyszukiwarki Izito” [źródło [77]] Rysunek 9 “Zaawansowane systemy meta-wyszukiwania” [źródło [10]] Rysunek 10 “Meta-wyszukiwarka Dogpile” [źródło [17]] Rysunek 11 “Meta-wyszukiwarka WebCrawler” [źródło [78]] Rysunek 12 “Meta-wyszukiwarka Nigma” [źródło [23]] Rysunek 13 “Możliwości meta-wyszukiwarki Nigma” [źródło [23]] Rysunek 14 “Wyszukiwarka DuckDuckGo” [źródło [24]] Rysunek 15 “Anonimowość użytkownika przy korzystaniu DuckDuckGo” [źródło [79]] Rysunek 16 “Wzrost użycia DuckDuckGo” [źródło [24]] Rysunek 17 “Wyniki wyszukiwania Google” [źródło [27]] Rysunek 18 “Wyniki płatne i organiczne” [źródło [37]] Rysunek 19 “Ahrefs” [źródło [38]] Rysunek 20 „Analiza organicznego ruchu w wyszukiwarce w Ahrefs” [źródło [38]] Rysunek 21 “Historia pozycji w wynikach wyszukiwania” [źródło [38]] Rysunek 22 “Webpozycja” [źródło [39]] Rysunek 23 “Serp.watch” [źródło [80]] Rysunek 24 “Zakres widoczności witryny” [źródło [42]] Rysunek 25 „Google Search Console” [źródło [43]] Rysunek 26 “Popularność wyszukiwarek w Polsce” [źródło [45]] Rysunek 27 “Popularność wyszukiwarki Google w Polsce” [źródło [45]] Rysunek 28 “Popularność wyszukiwarek w państwach świata” [źródło [46]] Rysunek 29 "Interakcja między wyszukiwarką a użytkownikiem" [źródło [20]] Rysunek 30 “Kompletność i dokładność przy ocenie efektywności wyszukiwania” [źródło [20]] Rysunek 31 “Dokładność jako miara skuteczności wyników wyszukiwania” [źródło [50]] Rysunek 32 “Kompletność jako miara skuteczności wyników wyszukiwania” [źródło [50]] Rysunek 33 “Dokładność i kompletność” [źródło [51]] Rysunek 34 „Fall-out, jako miara skuteczności wyników wyszukiwania” [źródło [50]] Rysunek 35 “F-miara, jako miara efektywności wyszukiwania” [źródło [50]] Rysunek 36 “F-miara, jako miara efektywności wyszukiwania - 2” [źródło [50]] Rysunek 37 “Przykład pierwszej strony wyników wyszukiwania” [źródło [20]] Rysunek 38 “Discounting Cumulative Gain” [źródło [50]] Rysunek 39 “Discounted Cumulative Gain i Ideal Discounted Cumulative Gain” [źródło: własne] Rysunek 40 “Normalized discounted cumulative gain - 2” [źródło [54] [55]] Rysunek 41 “Google Quality Rater” [źródło [56]] Rysunek 42 “Google Quality Rater 2” [źródło [56]] Rysunek 43 “Wyszukiwarki Google, Bing, Yandex jako źródła danych dla agregatora” [źródło: własne]

71 Rysunek 44 “Logo Google” [źródło [57]] Rysunek 45 “https://google.pl” [źródło [57]] Rysunek 46 “Logo Bing” [źródło [60]] Rysunek 47 “https://bing.com” [źródło [60]] Rysunek 48 “Logo Yandex” [źródło [62]] Rysunek 49 “https://yandex.com [źródło [62]] Rysunek 50 „Tabela agregacji na podstawie poszczególnych pozycji” [źródło: własne] Rysunek 51 “Agregacja na postawie wyników z Google, Bing, Yandex” [źródło: własne] Rysunek 52 “Procent ruchu odnośnie pozycji w wynikach wyszukiwarki Google” [źródło: [64]] Rysunek 53 “Rozkład ruchu odnośnie strony wyszukiwania” [źródło: [64]] Rysunek 54 “Rozkład ruchu odnośnie pozycji wyszukiwania” [źródło: [64]] Rysunek 55 “Rozkład ruchu odnośnie pozycji w pierwszej dziesiątce wyników wyszukiwania” [źródło: [66]] Rysunek 56 «Druga strona wyników wyszukiwania» [źródło: [67]] Rysunek 57 “Sezonowość witryny – wykres SENUTO” [źródło: [42]] Rysunek 58 „Pusty szablon dla oceny” [źródło: własne] Rysunek 59 „Wypełniony szablon dla oceny” [źródło: własne] Rysunek 60 “Szablon agregowanych wyników” [źródło: własne] Rysunek 61 “Szablon agregowanych wyników - 2” [źródło: własne] Rysunek 62 “Obliczanie wskaźników DCG i iDCG dla wyszukiwarki Google” [źródło: własne] Rysunek 63 “Ogólna tabela oceny jakości dokumentu z wskaźnikami CG, DCG, iDCG, NDCG” [źródło: własne] Rysunek 64 “Zespół badawczy” [źródło: własne] Rysunek 65 “Google przewodnik oceny jakości wyszukiwania” [źródło: [71]] Rysunek 66 “Yandex przewodnik dla Asesora” [źródło: [72]] Rysunek 67 “Wskaźniki nDCG dla zapytań w języku polskim - 2” [źródło: własne] Rysunek 68 “Wskaźniki nDCG dla zapytań w języku polskim - 3” [źródło: własne] Rysunek 69 „Porównanie nDCG Google i Agregatora dla zapytań w języku polskim” [źródło: własne] Rysunek 70 “Wskaźniki nDCG dla zapytań w języku angielskim - 2” [źródło: własne] Rysunek 71 „Wskaźniki nDCG dla zapytań w języku angielskim – 3” [źródło: własne] Rysunek 72 “Wskaźniki nDCG dla zapytań w języku rosyjskim - 2” Rysunek 73 “Wskaźniki nDCG dla zapytań w języku rosyjskim - 3” Rysunek 74 “Ranking wyszukiwarek w 2017 w Rosji” [73] Rysunek 75 “Ogólne wyniki badań nDCG” Rysunek 76 “Ogólne wyniki badań nDCG - 3”

72 Spis tabel:

Tabela 1 „Internauci na całym świecie” [źródło: [4]] Tabela 2 „Wzrost łącznej liczby witryn w ciągu ostatnich 20 lat” [źródło: [7]] Tabela 3 „Poziomy interakcji między użytkownikiem a wyszukiwarką” Tabela 4 „Poziomy ocen relewantności z opisami” [źródło: [70] [71] [72]] Tabela 5 „Zapytania w języku polskim” Tabela 6 „Wskaźniki nDCG dla zapytań w języku polskim” Tabela 7 „Zapytania w języku angielskim” Tabela 8 „Wskaźniki nDCG dla zapytań w języku angielskim” Tabela 9 „Zapytania w języku rosyjskim” Tabela 10 „Wskaźniki nDCG dla zapytań w języku rosyjskim” Tabela 10 „Ogólne wyniki badań nDCG - 2” Tabela 11 „Test statystyczny dla pary Google i Agregator” Tabela 12 „Wyniki testu statystycznego dla pary Google i Agregatora” Tabela 13 „Test statystyczny dla pary Bing i Agregator” Tabela 14 „Wyniki testu statystycznego dla pary Bing i Agregatora” Tabela 15 „Test statystyczny dla pary Yandex i Agregator” Tabela 16 „Wyniki testu statystycznego dla pary Yandex i Agregatora”

73 Literatura

[1] Statystyka użytkowania internetu, https://www.internetworldstats.com/stats.htm, data ostatniego dostępu: 28.02.2018. [2] Globalne wykorzystanie Internetu, https://en.wikipedia.org/wiki/Global_Internet_usage, data ostatniego dostępu: 28.02.2018. [3] Internauci na 100 mieszkańców, https://en.wikipedia.org/wiki/Global_Internet_usage#/media/File:Internet_users_per_100 _inhabitants_ITU.svg, data ostatniego dostępu: 28.02.2018. [4] Kluczowe wskaźniki ICT dla krajów rozwiniętych i rozwijających się oraz świata, http://www.itu.int/en/ITU-D/Statistics/Documents/statistics/2014/ITU_Key_2005- 2014_ICT_data.xls data ostatniego dostępu: 28.02.2018. [5] Informacja o „Internet Live Stats, http://www.internetlivestats.com/about/, data ostatniego dostępu: 28.02.2018. [6] http://www.internetlivestats.com/, data ostatniego dostępu: 28.02.2018. [7] Łączna liczba stron internetowych, http://www.internetlivestats.com/total-number-of- websites/, data ostatniego dostępu: 26.02.2018. [8] Użytkownicy Internetu, http://www.internetlivestats.com/internet-users/, data ostatniego dostępu: 26.02.2018. [9] Statystyki wyszukiwarki Google, http://www.internetlivestats.com/google-search- statistics/, data ostatniego dostępu: 26.02.2018. [10] Zalety meta-wyszukiwania, http://internetno.net/category/shpargalki/meta-search/, data ostatniego dostępu: 26.02.2018. [11] Indeksacja w systemach wyszukiwania https://ru.wikipedia.org/wiki/ Индексация_в_поисковых_системах, data ostatniego dostępu: 26.02.2018 [12] Blokowanie dostępu do treści w witrynie, https://support.google.com/webmasters/topic/4598466?hl=pl&ref_topic=4617736, data ostatniego dostępu: 28.02.2018 [13] https://en.wikipedia.org/wiki/Metasearch_engine, data ostatniego dostępu: 28.02.2018 [14] System meta-wyszukiwania, https://ru.wikipedia.org/wiki/Метапоисковая_система, data ostatniego dostępu: 26.02.2018 [15] Metasearch Engines, Weiyi Meng http://www.cs.binghamton.edu/~meng/pub.d/EDBS_Metasearch.pdf, data ostatniego dostępu: 26.02.2018 [16] Ranking algorithm for meta search engine, Mr. Biraj Patel and Dr. Dipti Shah, http://www.technicaljournalsonline.com/ijaers/VOL%20II/IJAERS%20VOL%20II%20ISSU E%20I%20%20OCTBER%20DECEMBER%202012/231., data ostatniego dostępu: 26.02.2018 [17] https://en.wikipedia.org/wiki/Dogpile, data ostatniego dostępu: 01.03.2018 [18] https://en.wikipedia.org/wiki/Ixquick, data ostatniego dostępu: 01.03.2018 [19] https://en.wikipedia.org/wiki/MetaCrawler, data ostatniego dostępu: 01.03.2018 [20] Porównanie metod oceny jakości wyszukiwania, Roman Poborchy, 2015 https://events.yandex.ru/lib/talks/2344/, data ostatniego dostępu: 01.03.2018 [21] https://www.theregister.co.uk/2012/12/18/search_engines_we_have_known/?page=3, data ostatniego dostępu: 02.03.2018 [22] Klastrowanie w wyszukiwarkach, https://en.wikipedia.org/wiki/Document_clustering# Clustering_in_search_engines, data ostatniego dostępu: 02.03.2018 [23] Meta-wyszukiwarka Nigma, https://ru.wikipedia.org/wiki/Нигма, data ostatniego dostępu: 02.03.2018

74 [24] Wyszukiwarka DuckDuckGo, https://en.wikipedia.org/wiki/DuckDuckGo, data ostatniego dostępu: 02.03.2018 [25] http://natemat.pl/56717,duckduckgo-powstalo-ze-zlosci-na-googla-wyszukiwarka-ktora- nie-sledzi-uzytkownika-zagrozi-gigantowi, data ostatniego dostępu: 02.03.2018 [26] Wyniki wyszukiwania SERP, https://www.seopilot.pl/wiki/Wyniki_wyszukiwania_- _SERP., data ostatniego dostępu: 02.03.2018 [27] https://www.artefakt.pl/blog/slownik-seo/co-jest-serp-wyniki-wyszukiwania#wyniki , data ostatniego dostępu: 02.03.2018 [28] Snippet, https://www.seopilot.pl/wiki/Snippet.html, data ostatniego dostępu: 02.03.2018 [29] Zapytanie do wyszukiwarki, https://en.wikipedia.org/wiki/Web_search_query, data ostatniego dostępu: 02.03.2018 [30] Organiczne wyniki wyszukiwania, https://en.wikipedia.org/wiki/Search_engine_results_page# Organic_results, data ostatniego dostępu: 02.03.2018 [31] https://pl.wikipedia.org/wiki/Wyniki_organiczne, data ostatniego dostępu: 02.03.2018 [32] Catherine Juon, Dunrie Greiling, Catherine Buerkle (2011) “Internet Marketing Start to Finish: Drive measurable” ISBN 978-0-7897-4789-1 [33] Co to jest SERP, https://www.artefakt.pl/blog/slownik-seo/co-jest-serp-wyniki- wyszukiwania, data ostatniego dostępu: 02.03.2018 [35] Broder, A. (2002). A taxonomy of Web search. SIGIR Forum, 36(2), 3–10. [36] https://en.wikipedia.org/wiki/Web_search_query, data ostatniego dostępu 02.03.2018 [37] https://pl.wikipedia.org/wiki/Wyniki_organiczne#/media/File:Wyniki_wyszukiwania _(organiczne_i_p%C5%82atne).jpg, data ostatniego dostępu: 02.03.2018 [38] https://ahrefs.com/serp-checker, data ostatniego dostępu 02.03.2018 [39] https://webpozycja.pl/, data ostatniego dostępu 02.03.2018 [40] https://www.seopilot.pl/news_id172.html, data ostatniego dostępu 02.03.2018 [41] https://www.silesiasem.pl/senuto-pod-lupa-czyli-wszystko-o-analizie-widocznosci-w- google, data ostatniego dostępu 02.03.2018 [42] https://www.senuto.com/analiza-widocznosci-2/, data ostatniego dostępu 02.03.2018 [43] https://www.google.com/webmasters/tools/search-analytics, data ostatniego dostępu 21.04.2018 [44] Google Search Console, https://pl.wikipedia.org/wiki/Google_Search_Console, data ostatniego dostępu 02.03.2018 [45] Wyszukiwarka Google nadal bezkonkurencyjna, 2008 https://www.artefakt.pl/blog/seo/wyszukiwarka-google-nadal-bezkonkurencyjna, data ostatniego dostępu 02.03.2018 [46] Ranking światowych wyszukiwarek, http://k2search.pl/ranking-swiatowych- wyszukiwarek-google-bing-yahoo-baidu-yandex-seznam/, data ostatniego dostępu 02.03.2018 [47] https://events.yandex.ru/lib/talks/2344#search, data ostatniego dostępu 14.03.2018 [48] Ocena efektywności wyszukiwania informacji w Internecie, https://www.slideshare.net/Szorstki/ocena-efektywnoci-wyszukiwania-informacji-w- internecie, data ostatniego dostępu 09.04.2018 [49] Introduction to Informal Retrieval, https://web.stanford.edu/class/cs276/handouts/EvaluationNew-handout-6-per.pdf, data ostatniego dostępu 09.04.2018 [50] Wyszukiwanie informacji, https://ru.wikipedia.org/wiki/Информационный_поиск, data ostatniego dostępu 09.04.2018 [51] https://en.wikipedia.org/wiki/Precision_and_recall, data ostatniego dostępu 09.04.2018 [52] https://en.wikipedia.org/wiki/Discounted_cumulative_gain, data ostatniego dostępu 09.04.2018

75 [53] Search Engines, Chapter 8 – Evaluating Search Engines, Felix Naumann, 2009 https://hpi.de/fileadmin/user_upload/fachgebiete/naumann/folien/SS09/SE_VL/SearchEngine s_08_Evaluation.pdf, data ostatniego dostępu 09.04.2018 [54] Discounted cumulative gain, https://en.wikipedia.org/wiki/Discounted_cumulative_gain#Normalized_DCG, data ostatniego dostępu 09.04.2018 [55] Relevance Ranking and Evaluation of Search Results through Web Content Mining, G. Poonkuzhali, R. Kishore Kumar, P. Sudhakar, G.V.Uma, K.Sarukesi, 2012, https://pdfs.semanticscholar.org/ade6/ccf5c06572d07c3d517be5bc3d34146013fc.pdf, data ostatniego dostępu 09.04.2018 [56] Google Quality Raters General Guidelines, https://static.googleusercontent.com/media/www.google.com/ru//insidesearch/howsearchwork s/assets/searchqualityevaluatorguidelines.pdf, data ostatniego dostępu 09.04.2018 [57] https://en.wikipedia.org/wiki/Google_Search, data ostatniego dostępu 09.04.2018 [58] https://ru.wikipedia.org/wiki/ Google_(поисковая_система), data ostatniego dostępu 09.04.2018 [59] http://9186748.ru/top-10-poiskovyh-sistem-mira-na-2017g/, data ostatniego dostępu 09.04.2018 [60] https://en.wikipedia.org/wiki/Bing_(search engine), data ostatniego dostępu 09.04.2018 [61] https://ru.wikipedia.org/wiki/Bing, data ostatniego dostępu 09.04.2018 [62] https://ru.wikipedia.org/wiki/Яндекс_(поисковая_система), data ostatniego dostępu 09.04.2018 [63] Zasady działania Yandex, http://www.seodiplom.ru/3-poiskovie-sistemi/princip-raboti- yandex/, data ostatniego dostępu 09.04.2018 [64] Position No. 1 in Google Gets 33% of Search Traffic, Jessica Lee, 2013, https://searchenginewatch.com/sew/study/2276184/no-1-position-in-google-gets-33-of- search-traffic-study, data ostatniego dostępu 09.04.2018 [65] Chitika Insights The Value of Google Result Positioning, 2013, http://info.chitika.com/uploads/4/9/2/1/49215843/chitikainsights- valueofgoogleresultspositioning.pdf, data ostatniego dostępu 09.04.2018 [66] https://searchenginewatch.com/sew/study/2276184/no-1-position-in-google-gets-33-of- search-traffic-study#top10, data ostatniego dostępu 09.04.2018 [67] https://digitalsynopsis.com/tools/google-serp-design/, data ostatniego dostępu 09.04.2018 [68] Rodzaje zapytań, 2017, https://kabaev-kb.ru/teoriya/tipy-poiskovyh-zaprosov/#, data ostatniego dostępu 09.04.2018 [69] https://chrome.google.com/webstore/detail/link-klipper-extract- all/fahollcgofmpnehocdgofnhkkchiekoo, data ostatniego dostępu 09.04.2018 [70] https://searchengineland.com/the-google-quality-raters-handbook-13575, data ostatniego dostępu 09.04.2018 [71] Google Quality Raters General Guidelines - Page Quality Rating Guideline, https://static.googleusercontent.com/media/www.google.com/ru//insidesearch/howsearchwork s/assets/searchqualityevaluatorguidelines.pdf#page-quality-rating-guideline, data ostatniego dostępu 09.04.2018 [72] Przewodnik Yandex, https://promoexpert.pro/wp-content/uploads/2014/07/asessor- 2013.pdf?x95516, data ostatniego dostępu 09.04.2018 [73] Ocena wyszukiwarek w 2017 r. (Statystyki krajów WNP i świata), Anton Judin, 2017 https://marketer.ua/rejting-poiskovyh-sistem-v-2017-statistika-stran-sng-i-mira/, data ostatniego dostępu 09.04.2018 [74] Kutovenko Alexey Alekseevich (2011) “Профессиональный поиск в Интернете”, ISBN: 9785459003345

76 [75] https://en.wikipedia.org/wiki/Cyril_Cleverdon, data ostatniego dostępu 29.03.18 [76] http://yippy.com/, data ostatniego dostępu 20.04.2018 [77] https://www.izito.com/, data ostatniego dostępu 20.04.2018 [78] http://www.webcrawler.com/, data ostatniego dostępu 20.04.2018 [79] https://duckduckgo.com/, data ostatniego dostępu 20.04.2018 [80] http://www.serp.watch/, data ostatniego dostępu 21.04.2018 [81] Wilcoxon, F. (1945). Individual comparisons by ranking methods. Biometrics, 1, 80-83. [82] Wilcoxon Signed-Rank Test, http://vassarstats.net/wilcoxon.html, data ostatniego dostępu 24.01.2018

77