Honcharenko Bakalavr.Pdf
Total Page:16
File Type:pdf, Size:1020Kb
НАЦІОНАЛЬНИЙ ТЕХНІЧНИЙ УНІВЕРСИТЕТ УКРАЇНИ «КИЇВСЬКИЙ ПОЛІТЕХНІЧНИЙ ІНСТИТУТ імені ІГОРЯ СІКОРСЬКОГО» Інститут прикладного системного аналізу Кафедра математичних методів системного аналізу «До захисту допущено» В. о. завідувача кафедри __________ О.Л. Тимощук «___»_____________20__ р. Дипломна робота на здобуття ступеня бакалавра з напряму підготовки 6.040303 «Системний аналіз» на тему: «Тематичне моделювання за допомогою підходу BigArtm на прикладі згадувань про SpaceX» Виконала: студентка IV курсу, групи КА-51 Гончаренко Юля Анатоліївна __________ Керівник: доцент, к.ф-м.н. Каніовська І. Ю. __________ Консультант з економічного розділу: доцент, к.е.н. Шевчук О.А. __________ Консультант з нормоконтролю: доцент, к.т.н. Коваленко А. Є. __________ Рецензент: доцент, к. ф.-м. н. Ільєнко М.К. __________ Засвідчую, що у цій дипломній роботі немає запозичень з праць інших авторів без відповідних посилань. Студент _____________ Київ – 2019 року Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» Інститут прикладного системного аналізу Кафедра математичних методів системного аналізу Рівень вищої освіти – перший (бакалаврський) Напрям підготовки (програма професійного спрямування) – 6.040303 «Системний аналіз» ЗАТВЕРДЖУЮ В.о. завідувача кафедри __________ О.Л. Тимощук «___»_____________20__ р. ЗАВДАННЯ на дипломну роботу студенту Гончаренко Юлі Анатоліївни 1. Тема роботи «Тематичне моделювання за допомогою підходу BigArtm на прикладі згадувань про SpaceX», керівник роботи Каніовська Ірина Юріївна, доцент, к.ф-м.н., затверджені наказом по університету від «25»травня 2019 р. №1353с. 2. Термін подання студентом роботи _______________________________ 3. Вихідні дані до роботи _______________________________________ ____________________________________________________________ 4. Зміст роботи _______________________________________________ ____________________________________________________________ ____________________________________________________________ 5. Перелік ілюстративного матеріалу (із зазначенням плакатів, презентацій тощо) _____________________________________________ ____________________________________________________________ ____________________________________________________________ 6. Консультанти розділів роботи Підпис, дата Прізвище, ініціали та посада Розділ завдання завдання консультанта видав прийняв Економічний Шевчук О.А., доцент 7. Дата видачі завдання Календарний план № Назва етапів виконання Термін виконання Примітка з/п дипломної роботи етапів роботи Студент ____________ ____________________ (підпис) (ініціали, прізвище) Керівник роботи ____________ ____________________ (підпис) (ініціали, прізвище) РЕФЕРАТ Дипломна робота: 66 с., 9 рис., 5 табл., 3 дод., 15 джерел. ТРЕНДИ, НОВИННІ ПОТОКИ, ТЕМАТИЧНЕ МОДЕЛЮВАННЯ, ЕМ- АЛГОРИТМ, BIGARTM, NLP Актуальність теми: задача відслідковування трендів в новинних потоках є провідною для піару, маркетингу, соціальних досліджень. Ймовірнісне тематичне моделювання є провідною стратегією для аннотації новинних потоків, підхід BigArtm завдяки раціональному ЕМ-алгоритму та паралелизації дає можливість відслідковувати тренди у режимі онлайн. Метою даної роботи є побудувати ПЗ, яке б дозволяло отримувати найпопулярніші тренди серед згадувань про SpaceX та легко інтерпретувати їх. Об’єктом дослідження є пости з соцмереж. Методи дослідження: стандартні методи тематичного моделювання, ймовірнісне тематичне моделювання. Програмна реалізація виконана за допомогою мови програмування Python. Отримані результати: модель для виявлення трендів в новинних потоках. ABSTRACT Topic: ‘Topic modeling via BigArtm approach on SpaceX mentions example’ Thesis: 66 p., 9 fig., 5 tabl., 3 append., 15 sources. TRENDS, NEWS STREAMS, TOPIC MODELING, ЕМ-ALGORITHM, BIGARTM, NLP Actuality: The task of tracking trends in news streams is leading for PR, marketing, social research. Probabilistic topic modeling is a leading strategy for annotation of news streams, the BigArtm approach thanks to the rational EM- algorithm and parallelization makes it possible to detect trends online. The object of the study is a posts from social networks. Research methods: standard methods of topic modeling, probabilistic topic modeling. The software was implemented using the Python programming language. Obtained results: a model for detecting trends in news streams. 6 Зміст ВСТУП ..................................................................................................................... 9 ПОСТАНОВКА ЗАДАЧІ ..................................................................................... 10 РОЗДІЛ 1 ЙМОВІРНІСНЕ ТЕМАТИЧНЕ МОДЕЛЮВАННЯ........................ 11 1.1 ОСНОВНІ ПОНЯТТЯ, ЙМОВІРНІСНИЙ ЛАТЕНТНИЙ СЕМАНТИЧНИЙ АНАЛІЗ ..... 11 1.2 АДИТИВНА РЕГУЛЯРИЗАЦІЯ ........................................................................... 17 1.3 ЛАТЕНТНЕ РОЗМІЩЕННЯ ДІРІХЛЕ .................................................................. 19 1.4 МУЛЬТИМОДАЛЬНІ ТЕМАТИЧНІ МОДЕЛІ ........................................................ 21 1.5 ВИСНОВКИ ДО РОЗДІЛУ .................................................................................. 25 РОЗДІЛ 2 ПІДХІД BIGARTM ............................................................................. 26 2.1 ОНЛАЙНОВИЙ ЕМ-АЛГОРИТМ ....................................................................... 26 2.2 БІБЛІОТЕКА РЕГУЛЯРИЗАТОРІВ....................................................................... 27 2.3 СТРАТЕГІЇ РЕГУЛЯРИЗАЦІЇ .............................................................................. 32 2.4 ВИСНОВКИ ДО РОЗДІЛУ .................................................................................. 33 РОЗДІЛ 3 РОЗРОБКА ПРОГРАМНОГО ПРОДУКТУ ..................................... 34 3.1 ВИБІР ПЛАТФОРМИ ТА МОВИ ПРОГРАМУВАННЯ ............................................ 34 3.2 ДАНІ ДЛЯ ПОБУДОВИ ТЕМАТИЧНОЇ МОДЕЛІ ................................................... 34 3.3 ЗАГАЛЬНА АРХІТЕКТУРА ПРОГРАМНОГО ПРОДУКТУ ...................................... 34 3.4 ВИСНОВКИ ДО РОЗДІЛУ. ................................................................................. 42 РОЗДІЛ 4 ФУНКЦІОНАЛЬНО-ВАРТІСНИЙ АНАЛІЗ ПРОГРАМНОГО ПРОДУКТУ ........................................................................................................... 43 4.1 ПОСТАНОВКА ЗАДАЧІ ТЕХНІКО-ЕКОНОМІЧНОГО АНАЛІЗУ ............................. 44 4.1.1 Обґрунтування функцій програмного продукту ................................ 44 4.1.2 Варіанти реалізації основних функцій ............................................... 45 4.2 ОБҐРУНТУВАННЯ СИСТЕМИ ПАРАМЕТРІВ ПП ................................................ 48 4.1.1 Опис параметрів .................................................................................. 48 4.1.2 Кількісна оцінка параметрів ............................................................... 48 4.1.3 Аналіз експертного оцінювання параметрів ..................................... 51 4.3 АНАЛІЗ РІВНЯ ЯКОСТІ ВАРІАНТІВ РЕАЛІЗАЦІЇ ФУНКЦІЙ ................................. 56 4.4 ЕКОНОМІЧНИЙ АНАЛІЗ ВАРІАНТІВ РОЗРОБКИ ПП .......................................... 58 4.5 ВИБІР КРАЩОГО ВАРІАНТА ПП ТЕХНІКО-ЕКОНОМІЧНОГО РІВНЯ ................... 63 4.6 ВИСНОВКИ ДО РОЗДІЛУ .................................................................................. 63 ВИСНОВКИ .......................................................................................................... 64 ПЕРЕЛІК ДЖЕРЕЛ ПОСИЛАННЯ .................................................................... 65 ДОДАТОК А ......................................................................................................... 67 7 ДОДАТОК Б .......................................................................................................... 77 ДОДАТОК В ......................................................................................................... 87 8 ПЕРЕЛІК УМОВНИХ СКОРОЧЕНЬ NLP – обробка природної мови LDA – латентне розміщення Діріхле PLSA – ймовірнісний латентний сематничний аналіз АРТМ – адитивна регуляризація тематичних моделей CI-LDA – умовно незалежне латентне розміщення діріхле TF-IDF – частота терміну-обернена частота документу 9 ВСТУП Ми живемо в цифрову епоху. Якщо раніше про все дізнавались з газет та телевізора, то зараз найсвіжіші тренди народжуються в соцмережах. Якщо людина бажає бути в курсі всіх новинок - треба бути активним їх користувачем.. Це, звісно, не займає надто багато часу, якщо ваша мета - просто не загубитись у всьому цьому і відслідковувати лише найголовніше, але уявіть, що ваша задача - слідкувати за репутацією відомого бренду/організації/тощо - невже вам доведеться сидіти в соцмережах весь день? Візьмемо для прикладу компанію SpaceX (на прикладі згадувань про неї побудована вся дана робота) — американське приватне підприємство, яке працює в галузі будівництва космічного транспорту, виробник ракет-носіїв сімейства Falcon та космічних кораблів Dragon, яка створена інженером і винахідником Ілоном Маском. Про неї в середньому 7000 згадувань на день в твіттері - лише прямих, тобто твіт містить назву компанії. Для того, щоб читати та аналізувати їх всі напевно знадобився б цілий відділ. Крім того, серед цих повідомлень майже напевно будуть сотні схожих за сенсом. Тут і допоможе тематичне моделювання. Тематичне моделювання - це спосіб побудови моделі колекції текстових документів, яка визначає, до яких тем належить кожен із документів. Саме перехід з простору документів в простір знайдених тематик допомагає ефективніше вирішувати задачу