Praca Dyplomowa - Magisterska
Total Page:16
File Type:pdf, Size:1020Kb
Wydział Informatyki i Zarządzania kierunek studiów: Informatyka specjalność: Systemy informacyjne Praca dyplomowa - magisterska Agregator wyników zapytań w wyszukiwarkach internetowych Agregator of results gathered from Internet search engines Maksim Buben słowa kluczowe: search engines quality raters agregator Krótkie streszczenie: Ta praca ma na celu zbadanie dziedziny zastosowania agregatorów wyników wyszukiwania, w których jakość uzyskanych wyników będzie wyższa niż jakość poszczególnych wyszukiwarek, wyniki wyszukiwania, których zostaną wykorzystane w tworzeniu zagregowanych wyników. opiekun pracy Dr inż. Marek Kopel ....................... ....................... dyplomowej Tytuł/stopień naukowy/imię i nazwisko ocena podpis Do celów archiwalnych pracę dyplomową zakwalifikowano do:* a) kategorii A (akta wieczyste) b) kategorii BE 50 (po 50 latach podlegające ekspertyzie) * niepotrzebne skreślić pieczątka wydziałowa Wrocław 2018 Streszczenie Tematem niniejszej pracy magisterskiej jest agregator wyników zapytań w wyszukiwarkach internetowych. Opisano zarówno istniejące systemy meta-wyszukiwania, jak i meta-wyszukiwarki, które przestały i obecnie nie są wykorzystywane przez użytkowników Internetu. Przeanalizowano przyczyny tego zjawiska oraz zaproponowano sposoby rozwoju systemów informacyjnych typu metasearch search engine. W pierwszej części niniejszej pracy przybliżono podstawowe pojęcia niezbędne do zrozumienia zasad funkcjonowania takiego rodzaju systemów: SERP (Search engine results page), Snippet, Search query (Zapytanie), Rodzaje zapytań, Organic results (Wyniki organiczne). Zaprezentowano również pojęcia konieczne do oceny jakości zagregowanych wyników wyszukiwań: Relewantność, Pertynentność, Assesor (Ассесор), Quality Rater, Discounted Cumulated Gain – DCG, Normalized Discounted Cumulated Gain - nDCG. Podano przykłady wykorzystania agregacji wyników wyszukiwania. W drugiej części niniejszej pracy opisano i zaimplementowano agregator wyników wyszukiwania na podstawie pozycji w wynikach wyszukiwania, których wyniki zostały wykorzystane w utworzeniu wyników agregacji. W trzeciej części pracy zbadano jakość wyników wyszukiwania agregatora na podstawie preferencji użytkownika. Przygotowano dokumentację do oceny jakości, korzystając z dwóch przewodników oceny jakości wyszukiwania: Google Przewodnik oceny jakości wyszukiwania (Search Quality Evaluator Guidelines), Yandex Przewodnik dla Asesora (Руководство для Ассесора). Zespół badawczy składał się z 15 osób: specjalistów SEO, specjalistów PPC, programistów oraz specjalistów ds. marketingu internetowego. Oceny przyznawane przez użytkowników składały się na analizę jakości zarówno poszczególnych wyszukiwarek (Google, Bing, Yandex), jak i agregatora, wykorzystującego dane z wyszukiwarek w tworzeniu własnych wyników. Zapytania do wyszukiwarek wysyłano w trzech językach. Miały one charakter zapytań o stan faktyczny. W podsumowaniu przedstawiono wnioski na temat uzyskanych wyników. Na ich podstawie można stwierdzić, że korzystanie z agregatorа wyników zapytań dla zapytań o aktualnym stanie jest uzasadnione i może poprawić jakość wyników wyszukiwania, zwiększając zadowolenie użytkownika. 1 Abstract The subject of my master's thesis is: “The aggregator of results gathered from Internet search engines. In my master's thesis, I have described existing meta-search systems and also meta- search engines, have stopped working in the recent past. The reasons for this phenomenon are analyzed. The methods of development of this type of information systems have been proposed. The first part of my work describes the basic concepts necessary to understand the principles of functioning of such systems, such as: SERP (Search engine results page), Snippet, Search query, Types of queries, Organic results. The concepts necessary to evaluate the quality of aggregated search results have also been described: Relevance, Pertinence, Assessor, Quality Rater, Discounted Cumulated Gain – DCG, Normalized Discounted Cumulated Gain - nDCG. Examples are provided of the use of aggregation of search results. In the second part of my work, a search results aggregator was described and implemented based on positions in search results, the results of which were used to create aggregation results. In the third part of my, the quality of the aggregator search results was tested based on the user's preferences. Prepared documentation for this evaluation based on two search quality evaluator guides from Google and Yandex: Search Quality Evaluator Guidelines, Guide for Assessor from Yandex. As a research team, there were 15 people involved: SEO specialists, PPC specialists, programmers and internet marketing specialists. On the basis of user ratings, a quality evaluation was made, like individual search engines (Google, Bing, Yandex), as well as an aggregator that used data from search engines to create its own results. Inquiries for search engines were in three languages and had the character of inquiries about the actual state. In summary, I presented conclusions on the obtained results. Based on these results, it can be concluded that using an aggregator of query results for queries about the current state is justified and can improve the quality of search results, which in turn increases user satisfaction. 2 Spis treści Wstęp ............................................................................................................................... 5 Przegląd stanu wiedzy w dziedzinie agregacji wyników zapytań ................................................ 9 Meta-wyszukiwanie standardowe ................................................................................................ 11 Meta-wyszukiwanie zaawansowane ............................................................................................ 13 Meta-wyszukiwarka Nigma .......................................................................................................... 15 Duckduckgo.com .......................................................................................................................... 16 Podsumowanie ............................................................................................................................. 17 Obszary wykorzystania agregacji wyników zapytań ................................................................ 19 Wyniki wyszukiwania (SERP)......................................................................................................... 20 Snippet .......................................................................................................................................... 20 Search query (Zapytanie) .............................................................................................................. 21 Organic results (Wyniki organiczne) ............................................................................................. 21 Rodzaje zapytań ............................................................................................................................ 22 Przykłady narzędzi wykorzystujących agregację wyników wyszukiwania ................................. 23 Ahrefs ............................................................................................................................................ 23 Webpozycja .................................................................................................................................. 25 Serp.watch .................................................................................................................................... 25 Senuto ........................................................................................................................................... 26 Google Search Console ................................................................................................................. 26 Podsumowanie ............................................................................................................................. 27 Faza konceptualna .......................................................................................................... 31 Zdefiniowanie podstawowych pojęć do oceny jakości systemu wyszukiwania informacji .......... 31 Dokładność (precision) ................................................................................................................. 33 Kompletność (recall) ..................................................................................................................... 33 Fall-out .......................................................................................................................................... 34 F-miara (F-measure, miara Van Riesbergena) .............................................................................. 34 Discounted Cumulative Gain ........................................................................................................ 37 Normalized Discounted Cumulative Gain ..................................................................................... 37 Cel pracy ................................................................................................................................ 39 Koncepcja realizacji agregacji ................................................................................................. 40 Opis algorytmu agregacji .............................................................................................................. 40 Algorytm rankingowania .............................................................................................................