Специальность 05.13.11 — «Математическое И Программное Обеспечение Вычислительных Машин, Комплексов И Компьютерных Сетей»
Total Page:16
File Type:pdf, Size:1020Kb
МЕЖГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКО-АРМЯНСКИЙ УНИВЕРСИТЕТ На правах рукописи Гукасян Цолак Гукасович МЕТОДЫ И ПРОГРАММНЫЕ СРЕДСТВА ДЛЯ ВЫЯВЛЕНИЯ ЗАИМСТВОВАНИЙ В ТЕКСТАХ НА АРМЯНСКОМ ЯЗЫКЕ Специальность 05.13.11 — «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей» Диссертация на соискание учёной степени кандидата технических наук Научный руководитель: к.ф.-м.н. Турдаков Денис Юрьевич Москва — 2021 2 Оглавление Введение ...................................... 6 Глава 1. Определение и типология заимствований ............. 14 Глава 2. Внутренние методы обнаружения заимствований ......... 18 2.1 Стилометрический подход . 19 2.1.1 Обзор литературы . 20 2.1.1.1 Обнаружение изменения стиля . 20 2.1.1.2 Обнаружение границ нарушений стиля . 22 2.1.1.3 Кластеризация по авторству . 23 2.1.2 Адаптация методов к армянскому языку . 25 2.1.2.1 Признаки . 26 2.1.2.2 Эксперименты . 27 2.1.3 Заключение . 33 2.2 Выявление технических трюков . 34 2.2.1 Скрытый текст и вставка изображений . 35 2.2.1.1 Алгоритм Майерса . 37 2.2.1.2 Алгоритмы терпения и гистограммы . 38 2.2.1.3 Сравнение разностных алгоритмов . 39 2.2.2 Замена омоглифов . 40 2.3 Выводы . 43 Глава 3. Внешние методы обнаружения заимствований .......... 45 3.1 Глобальные методы анализа сходства . 45 3.1.1 Метод отпечатков . 46 3.1.2 Метод шинглов . 47 3.1.3 Веб-поиск . 48 3.1.3.1 Сегментация текста . 48 3.1.3.2 Извлечение ключевых словосочетаний . 49 3.1.3.3 Формулировка запроса . 50 3.1.3.4 Управление поиском . 50 3 3.1.3.5 Фильтрация результатов . 51 3.1.3.6 Обсуждение . 52 3.1.4 Метрики оценки качества . 54 3.1.5 Локальные методы анализа сходства . 56 3.1.5.1 Коэффициент Жаккара . 57 3.1.5.2 Коэффициент Шимкевича-Симпсона . 58 3.1.5.3 Метод отпечатков . 58 3.1.5.4 Обнаружение парафраза . 59 3.1.5.5 Результаты и обсуждение . 68 3.2 Выводы . 70 Глава 4. Вспомогательные методы обработки текстов. ........... 72 4.1 Векторные представления слов для армянского языка . 72 4.1.1 Введение . 73 4.1.2 Предобученные модели . 75 4.1.3 Внутренная оценка . 76 4.1.4 Внешняя оценка . 79 4.1.4.1 Морфологический анализ . 80 4.1.4.2 Классификация текстов . 81 4.2 Лемматизация . 83 4.2.1 Введение . 84 4.2.2 Обзор моделей лемматизации . 85 4.2.2.1 Поиск по словарю . 86 4.2.2.2 Лемматизация на основе правил . 87 4.2.2.3 Машинное обучение . 87 4.2.3 Нейронная сеть COMBO . 90 4.2.3.1 Архитектура нейронной сети . 90 4.2.3.2 Архитектура лемматизатора . 91 4.2.3.3 Архитектура частеречного и морфологического анализатора . 92 4.2.3.4 Архитектура анализатора синтаксических зависимостей . 92 4.2.4 Эксперименты . 93 4.2.4.1 Обучающие данные . 93 4.2.4.2 Параметры обучения нейронной сети . 94 4 4.2.4.3 Базовые методы . 95 4.2.5 Совместное обучение . 96 4.2.5.1 Векторные представления . 98 4.2.5.2 Обучение с частичным привлечением учителя . 105 4.2.6 Обсуждение . 107 4.3 Исправление ошибок автоматического распознавания текстов . 108 4.3.1 Введение . 109 4.3.2 Методы обнаружения и исправления ошибок . 111 4.3.2.1 Обнаружение ошибок OCR . 111 4.3.2.2 Исправление ошибок OCR . 112 4.3.3 Эксперименты . 113 4.3.3.1 Наборы данных для обучения и тестирования . 113 4.3.3.2 Результаты и обсуждение . 115 4.4 Извлечение именованных сущностей . 118 4.4.1 Введение . 120 4.4.2 Наборы данных . 121 4.4.2.1 Автоматическая генерация обучающих данных . 121 4.4.3 Модели и эксперименты . 127 4.4.3.1 Векторные представления слов . 127 4.4.3.2 Модели распознавания и классификации сущностей . 128 4.4.3.3 Обсуждение результатов оценки качества . 129 4.5 Выводы . 131 Глава 5. Система обнаружения заимствований ............... 134 5.1 Обзор . 134 5.2 Архитектура . 137 5.3 Полнотекстовый поиск . 139 5.3.1 Обзор методов . 140 5.3.1.1 Требования к аппаратным средствам . 141 5.3.1.2 Индексация на основе блочной сортировки . 142 5.3.1.3 Однопроходная индексация в памяти . 144 5.3.1.4 Динамическая индексация . 145 5.3.2 Выбор технологий . 146 5.3.3 Настройка Apache Solr . 148 5 5.4 Поиск в интернете . 149 5.4.1 Выбор технологий . 151 5.5 Извлечение текста из документов . 152 5.6 Асинхронное исполнение задач . 153 Заключение .................................... 155 Список литературы ............................... 156 Благодарности .................................. 174 Список рисунков ................................. 175 Список таблиц .................................. 178 Приложение А. Список использованных признаков для стилометрического анализа армянских текстов. .... 181 Приложение Б. Результаты экспериментов по определению качества методов обнаружения границ нарушений стиля для случайного базового метода, Karas et al. и иерархической кластеризации (AC). ............ 184 Приложение В. Гиперпараметры нейронный сетей для нахождения и исправления ошибок автоматического распознавания армянских текстов. ............ 186 6 Введение Определение степени уникальности работ является одной из самых серьез- ных проблем в научных исследованиях. Неуникальные, заимствованные работы (заимствованием считается как правильно процитированный текст, так и текст без указания оригинального автора), которые остаются нераскрытыми, могут иметь серьезные негативные последствия по нескольким причинам. Заимствованные исследовательские работы препятствует научному процес- су, например, искажая механизмы отслеживания и исправления результатов [1]. Если исследователи расширят или пересмотрят более ранние результаты в после- дующих исследованиях, то статьи, содержащие заимствования из исходной ста- тьи, останутся неизменными. Неправильные результаты могут распространиться и повлиять на последующие исследования или практическое применение [2]. Ис- следования показывают, что некоторые частично или полностью заимствованные работы цитируются по крайней мере так же часто, как и оригинал. Это пробле- матично, поскольку число цитирований является широко используемым показа- телем эффективности исследований, например, для принятия решений о финан- сировании или найме. Отсутствие надежных механизмов выявления и предот- вращения случаев карьерного продвижения путем сплагиаченного труда может привести к кризисным ситуациям в различных отраслях общественной жизни (в образовательной 1 2 и судебной3 системах, например). С образовательной точки зрения заимствования наносят ущерб приобретению и оценке компетенций. Бы- ло выявлено, что учащиеся армянских вузов в целом осведомлены, какие имен- но действия считаются плагиатом, но продолжают их совершать из-за отсутствия мер пресечения [3]. Кроме того, заимствованные работы тратят ресурсы. В Герма- нии в рамках краудсорсингового проекта VroniPlag 4 было расследовано более 200 случаев предполагаемого академического плагиата (по состоянию на июль 2019 года). Опыт VroniPlag, а также других [4], показывает, что расследования уни- кальности работа часто требуют сотен рабочих часов от затронутых учреждений, 1https://ru.armeniasputnik.am/society/20190821/20137912/Epopeya-s-AGEU-zakonchilas-molodoy-io-rektora-Ruben- Ayrapetyan-pokinet-svoy-post-.html 2https://ru.armeniasputnik.am/society/20200525/23163731/Esli-moy-zam-pokryvaet-plagiat-dissertatsii-on-dolzhen- otvetit—-Araik-Arutyunyan-.html 3https://news.am/rus/news/514896.html 4http://www.vroniplag.de/ 7 и поэтому очень важно наличие автоматической системы обнаружения заимство- ваний, с помощью которой можно будет сократить затраты. Быстрое развитие информационных технологий, особенно Интернета, сде- лало заимствование работ легче, чем когда-либо. В 2015 году было проведено исследование образовательной политики Армении в направлении усиления ака- демической добросовестности, которое подтвердило, что незаконные заимство- вания в курсовых, бакалаврских и магистерских работах являются одним из са- мых распространенных нарушений [5]. Заимствованием, кроме дословного копи- рования, считается сокрытие заимствований путем перефразирования и перевода. Уникальность работы искусственно увеличивают также с помощью технических приемов, которые используют слабые места методов извлечения текста системы обнаружения заимствований и меняют исходный документ таким образом, чтобы его текст визуально не менялся, но доля обнаруженных заимствований получа- лась маленькой. Исследование и разработка методов выявления заимствований сейчас явля- ется довольно популярной, если судить по количеству опубликованных статей в последние годы [1]. Тем не менее, для многих языков не существует специализи- рованной системы обнаружения заимствований. В таких случаях приходится при- бегать к использованию инструментов, не адаптированных к определенному язы- ку, однако эти решения как правило не учитывают особенности языка и не пока- зывают достаточный уровень качества обработки. Обнаружению заимствований для армянского языка посвящена работа Томеян и др.[6]. Система, предложенная в работе Томеян и др., позволяет пользователю находить случаи замены омогли- фов, а также заимствования путем прямого копирования в коллекции, загружен- ной пользователем. Система также предоставляет опцию поиска заимствований с заменой синонимов, однако для ее работы пользователь должен сам заполнять список синонимов в системе перед проверкой. В работе делается попытка исполь- зования машинного перевода для обнаружения заимствований из других языков, но описанный механизм работы не до конца автоматизирован и требует ручное добавление переведенных текстов. Из-за отсутствия экспериментов невозможно делать выводы о качестве и производительности данной системы. Помимо Томе- ян и др., собственную систему обнаружения заимствований имеет ВАК РА. Обе системы не предусматривают поиск