Äèõîòîìèß Субъективность Vs. Объективность È Тональная Релевантность  Çàäà×Àõ Àíàëèçà Òîíàëüíîñòè

Total Page:16

File Type:pdf, Size:1020Kb

Äèõîòîìèß Субъективность Vs. Объективность È Тональная Релевантность  Çàäà×Àõ Àíàëèçà Òîíàëüíîñòè

ISSN 2072-8379 Вестник Московского государственного областного университета. Серия: Лингвистика 2018 / № 1

УДК 81-114.2 DOI: 10.18384/2310-712X-2018-1-38-45 ÄÈÕÎÒÎÌÈß СУБЪЕКТИВНОСТЬ VS. ОБЪЕКТИВНОСТЬ È ТОНАЛЬНАЯ РЕЛЕВАНТНОСТЬ Â ÇÀÄÀ×ÀÕ ÀÍÀËÈÇÀ ÒÎÍÀËÜÍÎÑÒÈ

Семина Т.А. Московский государственный областной университет 105005, г. Москва, ул. Радио, д. 10А, Российская Федерация

Аннотация. Статья раскрывает содержание понятий «субъективность», «объективность» и «тональная релевантность» и сферу их применения в системах извлечения мнений. Автор прослеживает становление термина тональная релевантность и полисемическое исполь- зование этого термина в рамках данной научной проблемы. Автором проанализирован корпус рецензий на фильмы, в котором предложения размечены как релевантные или не- релевантные, и корпус новостных статей с размеченными отношениями между сущностя- ми. Кроме того, был проведён эксперимент по автоматическому извлечению релевантных пар сущностей и полярности их оценки. Проведённый анализ показал целесообразность произошедшего перехода к тональной релевантности от дихотомии субъективность vs. объективность. Ключевые слова: анализ тональности, объективность, политический текст, субъектив- ность, тональная релевантность.1

SUBJECTIVITY VS. OBJECTIVITY DICHOTOMY AND SENTIMENT RELEVANCE IN SENTIMENT ANALYSIS TASKS

T. Semina Moscow Region State University 10A Radio ulitsa, Moscow 105005, Russian Federation

Abstract. The paper describes the meaning of terms “subjectivity”, “objectivity” and “sentiment relevance” and the scope of their application in opinion mining systems. The author traces the formation of the term “sentiment relevance” and the polysemantic usage within the given scien- tific framework. The author analyzed a movie review corpora with sentences marked as relevant or non-relevant and news articles corpora with marked relations between entities. Moreover, an experiment on automatic extraction of relevant pairs of entities and the polarity of the relations was conducted. The analysis supported change from subjectivity vs. objectivity dichotomy to sentiment relevance. Key words: sentiment analysis, objectivity, political text, subjectivity, sentiment relevance.

© Семина Т.А., 2018.

38 ISSN 2072-8379 Вестник Московского государственного областного университета. Серия: Лингвистика 2018 / № 1

Анализ тональности, известный как именно нравится или не нравится ав- сентимент-анализ или система извле- тору. чения мнений – это область изучения Развитие сети Интернет привело к мнений, оценок, отношения и эмоций тому, что тексты, которые там находят- людей по отношению к таким объектам, ся, стали самым распространённым как продукты, организации, личности, материалом для анализа. Это связано события, проблемы, и их атрибутам. с количеством текстов, их многообра- Сентимент (от англ. sentiment – чув- зием и тем, что они находятся в сво- ство, мнение, настроение) – эмоцио- бодном доступе. С исследовательской нальная оценка, выраженная в тексте, точки зрения тексты из Интернета также называемая тональностью тек- можно разделить на две группы: пер- ста [4]. сонализованные и неперсонализован- При выявлении мнений мы гово- ные тексты. рим о субъекте тональности (далее – Персонализованные тексты – блоги, субъект), объекте тональности (далее – микроблоги, рецензии и отзывы. Тек- объект) и тональности высказывания. сты такого рода часто носят субъек- Субъект – сущность, которой при- тивный характер и имеют эксплицит- надлежит мнение. но выраженное мнение, потому долгое Объект – сущность, по отношению время в задачах анализа тональности к которой высказывается мнение. рассматривали только эти данные. Тональность – положительная, от- Субъектом в большинстве случаев рицательная или нейтральная (воз- является автор, что облегчает задачу можно исключение нейтрального поиска сущностей; при анализе тек- класса или добавление градации по- стов Twitter или рецензий, при анализе лярности мнения) оценка объекта всего документа возможно присвоение субъектом. статуса объекта по хештегу или назва- Анализ тональности проводится на нию (если мы говорим о рецензии или трёх уровнях: отзыве). В таком случае задача уста-  Уровень документа. новления тональности состоит в поис- В данном случае мы исходим из ке тональных высказываний – единиц, допущения, что документ отражает которые непосредственно выражают мнение относительно одного объекта, мнение [7]. Отметим, что ими не всег- и считаем общую тональность всего да будут лексические единицы. Это мо- текста. гут быть эмотиконы, пунктуация, дли-  Уровень предложения. на предложений или всего документа. На этом уровне анализа классифи- При работе с короткими текстами хо- цируется не текст целиком, а отдель- рошо себя показывают методы машин- ные предложения. Данный уровень ного обучения, что позволяет исполь- анализа связан с задачей определения зовать статистическую информацию субъективности. о вероятности отнесения документа к  Аспектуальный уровень. одному из классов (положительный, Задача анализа – понять не общую отрицательный или нейтральный) на тональность текста или предложения основе указанных нами выше призна- или отношение автора к объекту, а что ков. Возможно и применение иерар-

39 ISSN 2072-8379 Вестник Московского государственного областного университета. Серия: Лингвистика 2018 / № 1

хии признаков для более качественной (2) Фильм был номинирован на Оскар. классификации. Предложение (1) является субъек- Важнейшим понятием, связанным тивным, поскольку оценки, подобные с сентиментом, является субъектив- страшному преступлению, субъектив- ность. Классификация по субъектив- ны для зрителя. Предложение (2) явля- ности выявляет объективные и субъ- ется объективным, так как возможно ективные предложения. проверить истинность утверждения. Объективное предложение содер- Однако, несмотря на то, что предложе- жит фактическую информацию, в то ние (1) имеет отрицательное субъек- время как субъективное выражает тивное содержание, оно не имеет отно- личные чувства, точку зрения и убеж- шения к тональности текста, поскольку дения. Важно понять, что субъектив- оно связано с сюжетом фильма и по- ность не тождественна сентименту, является в положительных обзорах. И так как и в объективных предложени- наоборот, предложение (2) указывает ях может содержаться мнение, напри- на положительное мнение, выражен- мер, «В прошлом месяце мы купили ное автором. Подобное деление язы- автомобиль, и дворники на лобовом ковых единиц можно представить при стекле уже не работают», и субъектив- анализе рецензий на книги. В случае с ные предложения не всегда содержат Твиттером кажется не очевидным, что тональность, например, «Мне кажется, принимать за релевантную единицу, а сейчас пойдёт дождь». что – нет, либо стоит применять по- Долгое время в сфере анализа то- нятие релевантности при фильтрации нальности широко применялось спама, который появляется в выбор- деление языковых единиц на субъ- ке при автоматической загрузке, либо ективные и объективные. С 2013 г. вы- стоит релевантным признавать твит, сказано и экспериментально доказано содержащий интересующий исследо- предположение, что данные категории вателя объект. не эффективны при анализе тональ- Как было сказано нами выше, субъ- ности, вследствие чего возник термин ективность и тональная релевантность «тональная релевантность». – это две различные концепции, кото- Тональная релевантность (Senti- рые не подразумевают друг друга: в це- ment Relevance) – понятие, позволя- лом нейтральные и объективные пред- ющее отличать информативное содер- ложения могут быть релевантными, в жание для определения тональности то время как субъективный контент документа от неинформативного. Оно – нерелевантным. Scheible С. и Schu- контрастирует с обычным различием tze H. [9] проводили классификацию между субъективным и объективным релевантности настроений в сфере содержанием [9]. Хотя между приве- кино. Для создания аннотированного дёнными двумя понятиями существу- корпуса, или SR-корпуса, они случай- ет связь, они не эквивалентны. ным образом отобрали 125 текстов из Рассмотрим примеры: базы обзоров фильмов [8]. Всего в кор- (1) Обвинённый в страшном престу- пусе SR содержится 275 релевантных и плении, Джон Коффи оказывается в бло- 728 нерелевантных предложений, кор- ке смертников тюрьмы «Холодная гора». пус находится в свободном доступе.

40 ISSN 2072-8379 Вестник Московского государственного областного университета. Серия: Лингвистика 2018 / № 1

Рассмотрим фрагмент размеченно- метчики применяли и третью кате- го корпуса [9]: горию – – в тех случаях, “ One of the last entries in the когда невозможно было однозначно long-running series , Carry on приписать метку или . Behind is very similar to Carry on Camp- “ Films adapted from ing in that it involves a group of holiday- comic books have had plenty of success , makers descending on a ‘caravan’ site. whether they ‘re about superheroes ( Bat- Professors Anna Vrooshka ( Elke man , Superman , Spawn ) , or geared Sommer ) and Roland Crump ( Kenneth toward kids ( Casper ) or the arthouse Williams ) and a group of archaeology crowd ( Ghost World ) , but there’s never students stay in the caravan site owned really been a comic book like From Hell by Major Leep ( Kenneth Connor ) so before. that they can explore the nearby Roman For starters , it was creat- settlement remains. Anna has a ed by Alan Moore ( and Eddie Campbell ) , little trouble understanding English and who brought the medium to a whole new sometimes people get the wrong end of level in the mid ‘80s with a 12-part series the stick: – for instance, when Anna is ask- called Th e Watchmen”. ing for ‘scrubbers for dirty caravan’ , she Несомненно, при анализе текстов means that she wants a scrubbing brush рецензий встречаются ошибки, со- to clean the caravan ! Arthur Up- вершённые при разметке, но, так как more ( Bernard Bresslaw ) and his wife первоначальная цель корпуса – быть Linda ( ) take her mother материалом для задач обучения на Daphne Barnes ( ) and her mi- прецедентах, это не критично, так как nah bird on holiday with them. большой объём коллекции не позво- Fred Ramsden ( Windsor Davies ) and лит неточностям испортить результа- Ernie Bragg ( ) leave their ты выдачи. wives ( Liz Fraser and Patricia Franklin ) У термина «тональная релевант- behind for a fi shing holiday. Th e ность» есть ещё одно значение. Тональ- story involves the disruption caused by но релевантными могут признаваться the archaeological professors of the day- языковые единицы (синтагмы), кроме to-day running of the camp , the search того, рассматривается релевантность for the minah bid and greyhound , the Ma- объектов по отношению к тональным jor , Fred and Ernie ‘s desperate need of a высказываниям. woman , a misunderstanding leading to a В последнее время исследователь- striptease at the caravan park ‘s pub , and a ский интерес перешёл от персонали- shock in store for Daphne. Th e part- зованных текстов (твиты, рецензии, nership between Sommer and Williams is отзывы) к неперсонализованным (но- very eff ective and amusing. Th is is востные статьи, аналитические ста- what binds the movie together”. тьи). Следствием этого стало принятие Как мы видим, к категории тональ- во внимание не только оценочных вы- но нерелевантных единиц () сказываний (opinion в словаре тональ- были отнесены все предложения, опи- ных высказываний РуСентиЛекс), но сывающие сюжет фильма, к тонально и фактуальной информации, т. е. той, релевантным () – остальные. Раз- которая при ранней дихотомии «субъ-

41 ISSN 2072-8379 Вестник Московского государственного областного университета. Серия: Лингвистика 2018 / № 1

ективность vs. объективность», скорее, ной лексике, а по фактуальной, метки считалась бы объективной. opinion и fact в словаре оценочной лек- Существует корпус размеченных сики РуСентиЛекс [2]. коротких новостных сообщений для Аналитические статьи являются английского языка [6], подобная же более сложным материалом для ис- разметка сделана для корейского кор- следования, так как содержат большее пуса [10]. При анализе подобных тек- количество сущностей (т. е. потенци- стов, в отличие от персонализованных, альных субъектов и объектов тональ- ищут не отношение автора к объекту ности). или объектам, а отношения между В неперсонализованных текстах сущностями. Рассмотрим пример (3), установление тональной релевантно- который мы взяли из корпуса MPQA: сти сводится к тому, что подобранный (3) Russia’s Defence Ministry has denied лингвистом алгоритм должен находить Taleban assertions that Russian offi cers тональные высказывания и подбирать are serving in the Northern Alliance. к ним сущность-субъект и сущность- “Formations of the anti-Taleban coalition объект. Возможно и обратное направ- do not include offi cers of the Russian ление анализа: поиск пар сущностей, armed forces,” a high-ranking military потенциально являющихся элемента- offi cial told Interfax on Friday. “Russia has ми мнения (субъектом или объектом) provided only military-technical assistance и дальнейшая оценка тональности их to the Northern Alliance and continues to отношения. Тональные высказывания do so. Russian offi cers were not dispatched могут находиться как при помощи ме- to Afghanistan either as unit leaders or as тодов машинного обучения, так и при instructors,” the offi cial added. помощи специальных словарей оце- Извлечение мнений из таких тек- ночной (тональной) лексики. стов важно для многих прикладных В качестве примера рассмотрим задач. Благодаря этому можно проще текст статьи с сайта inosmi.ru. Этот создавать краткие новостные сводки, сайт размещает переводы статей из за- создавать системы мониторинга по- рубежных изданий на русский язык. литической среды. Новостные тексты Конечно, нельзя считать перевод аб- отличаются малым объёмом и сравни- солютно эквивалентным с прагмати- тельно небольшим количеством упо- ческой точки зрения [3], но качество мянутых сущностей, что в некоторой тестирования и работы подобной си- степени упрощает анализ. стемы анализа от этого не ухудшится. При автоматическом анализе та- Именованные сущности извлека- кого текста мы хотим выявить отно- лись автоматически при помощи про- шения между сущностями, которые граммы [1]. встретились в одном тексте. Мнение (4) По словам Пескова, выступив- автора опускается, так как стилисти- шего перед репортёрами в Москве в ка новостных сообщений не подраз- пятницу, 27 октября, президент Рос- умевает субъективности журналиста сии Владимир Путин, который на про- по отношению к теме статьи. При- шлой неделе обвинил США в том, что мечательно то, что отношения между «они возвращают нас в 1950-е годы», сущностями находятся не по оценоч- пристально следит за новостями о

42 ISSN 2072-8379 Вестник Московского государственного областного университета. Серия: Лингвистика 2018 / № 1

санкциях. Путин не захотел высту- к более узкой сфере – релевантности пить с критикой в адрес лично Трампа, сущности для конкретного высказы- а Песков, сославшись на слова президен- вания [5]. Иногда в работах употребле- та, отметил, что Москва продолжит ние термина в этом значении называют стремиться к налаживанию двусто- тональной релевантностью сущностей ронних отношений настолько, «на- (entities sentiment relevance), что кажет- сколько к этому готовы и этого жела- ся нам удачным термином. Термино- ют наши американские коллеги». логическое различение релевантности Мы видим ряд именованных сущ- фрагментов текста и сущностей важ- ностей и ряд тональных высказываний но, так как, по сути, это разные подза- (т. е. языковых единиц, эксплицитно вы- дачи анализа тональности, каждая из ражающих тональность). В ходе нашего которых требует применения особых эксперимента мы ставили перед собой алгоритмов анализа и создания обуча- задачу установления отношений между ющей или тестовой коллекции. такими сущностями, иными словами, Переход от дихотомии субъектив- подбирали релевантные сущности для ность vs. объективность к тональной каждого тонального высказывания. За- релевантности был вынужденным ша- дача усложнилась тем, что в рамках од- гом, так как старые термины не могли ного абзаца могут быть как положитель- более «обслуживать» новые потреб- ные, так и отрицательные отношения ности исследователей, особенно по- между сущностями, в том числе и между сле расширения интереса к автомати- одной парой сущностей. Если предста- ческому анализу семантики и анализу вить текст статьи в виде списка мнений, тональности в частности, что связано который в общем виде будет выглядеть с рядом факторов. Во-первых, это за- [<Сущность А>, <Сущность В>, тональ- интересованность коммерческих ком- ность], где А – субъект тональности, В – паний в подобных исследованиях, объект тональности, тональность – по- во-вторых, повышающийся интерес к лярность оценки (положительная или развитию систем искусственного ин- отрицательная), мы получим: теллекта, что невозможно без решения [Путин, США, neg], т. к. «обвинил задачи понимания текста. В-третьих, США в том, что “они возвращают нас конечно, развитие систем векторного в 1950-е гг.”»; представления слов (word embeddings), [Путин, Трамп, pos], «Путин не за- таких как пакет Word2Vec, которые по- хотел выступить с критикой в адрес высили качество классификации до- лично Трампа»; кументов при применении методов [Москва, США, pos], «Москва про- машинного обучения. должит стремиться к налаживанию Даже в ранних монографиях, посвя- двусторонних отношений». щённых анализу тональности, обсуж- Понятие релевантности, как было дался вопрос применения терминов показано выше, в современном ана- субъективность и объективность, лизе тональности изменило своё зна- переход исследовательского интере- чение, от релевантности предложений са на другой материал способствовал как критерия отбора для обучения и изменению терминологии и отказу от тестирования исследователи перешли старой дихотомии.

43 ISSN 2072-8379 Вестник Московского государственного областного университета. Серия: Лингвистика 2018 / № 1

ЛИТЕРАТУРА 1. Алексеев А.А., Лукашевич Н.В. Автоматическое извлечение сущностей на основе структуры новостного кластера // Искусственный интеллект и принятие решений. 2011. № 4. С. 95–103. 2. Лукашевич Н.В., Левчик А.В. Создание лексикона оценочных слов русского языка РуСентиЛекс // Открытые семантические технологии проектирования интеллекту- альных систем (OSTIS−2016): материалы VI Международной научно-технической конференции / отв. ред. В.В. Голенков. Минск: Белорусский государственный универ- ситет информатики и радиоэлектроники, 2016. С. 377–382. 3. Марчук Ю.Н. Автоматизация перевода и типология текстов // Вестник Московского государственного областного университета. Серия: Лингвистика. 2016. № 2. С. 164– 171. 4. Пазельская А.Г., Соловьев А.Н. Метод определения эмоций в текстах на русском язы- ке // Компьютерная лингвистика и интеллектуальные технологии: «Диалог-2011». М., 2011. С. 510–522. 5. Deng L., Wiebe J. Joint Prediction for Entity/Event-Level Sentiment Analysis using Proba- bilistic Soft Logic Models // Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, 2015. P. 179–189. 6. Deng L., Wiebe J. MPQA 3.0: An Entity/Event-Level Sentiment Corpus // Human Language Technologies: Th e 2015 Annual Conference of the North American Chapter of the ACL. Denver, 2015. P. 1323–1328. 7. Greene S., Resnik P. More than Words: Syntactic Packaging and Implicit Sentiment // Hu- man Language Technologies: Th e 2009 Annual Conference of the North American Chapter of the ACL. Boulder, 2009. P. 503–511. 8. Pang B., Lee L. Opinion Mining and Sentiment Analysis // Foundations and Trends in Infor- mation Retrieval. 2008. № 2. P. 1–135. 9. Scheible С., Schutze H. Sentiment Relevance // Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofi a, 2013. P. 954–963. 10. Shin H., Kim M., Jo Y. и др. Annotation Scheme for Constructing Sentiment Corpus in Ko- rean // 26th Pacifi c Asia Conference on Language, Information and Computation pages. Bali, 2012. P. 181−190.

REFERENCES 1. Alekseev A.A., Lukashevich N.V. [Automatic extraction of entities based on the structure of news cluster] In: Iskusstvennyi intellekt i prinyatie reshenii [Artifi cial Intelligence and Deci- sion Making], 2011, no. 4, pp. 95−103. 2. Lukashevich N.V., Levchik A.V. [Creating a lexicon of appraisal words Russian language RuSentiLeks]. In: Golenkov V.V., ed. Otkrytye semanticheskie tekhnologii proektirovaniya intellektual’nykh sistem (OSTIS−2016): materialy VI mezhdunarodnoi nauchno-tekhnicheskoi konferentsii [Open Semantic Technologies for Intelligent Systems (OSTIS−2016): materials of the VI International Scientifi c and Technical Conference]. Minsk, Belorussian State Uni- versity of Informatics and Radioelectronics Publ., 2016, pp. 377−382. 3. Marchuk Yu.N. [Automation of the translation and typology of texts]. In: Vestnik Moskovs- kogo gosudarstvennogo oblastnogo universiteta. Seriya: Lingvistika [Bulletin of Moscow Re- gion State University. Series: Linguistics], 2016, no. 2, pp. 164−171. 4. Pazel’skaya A.G., Solov’ev A.N. [Th e method of defi nition of emotions in Russian texts]. In: Komp’yuternaya lingvistika i intellektual’nye tekhnologii: «Dialog-2011» [Computational lin- guistics and intelligent technology: the “Dialogue-2011»]. Moscow, 2011, pp. 510−522.

44 ISSN 2072-8379 Вестник Московского государственного областного университета. Серия: Лингвистика 2018 / № 1

5. Deng L., Wiebe J. Joint Prediction for the Entity/Event-Level Sentiment Analysis using Probabilistic Soft Logic Models. In: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, 2015, pp. 179−189. 6. Deng L., Wiebe J. MPQA 3.0: An Entity/Event-Level Sentiment Corpus. In: Human Lan- guage Technologies: Th e 2015 Annual Conference of the North American Chapter of the ACL. Denver, 2015, pp. 1323−1328. 7. Greene S., Resnik P. More than Words: Syntactic Packaging and Implicit Sentiment. In: Hu- man Language Technologies: Th e 2009 Annual Conference of the North American Chapter of the ACL. 2009, pp. 503−511. 8. Pang B., Lee L. Opinion Mining and Sentiment Analysis. In: Foundations and Trends in In- formation Retrieval, 2008, no. 2, pp. 1−135. 9. Scheible S., Schutze H. [Sentiment Relevance]. In: Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofi a, 2013, pp. 954−963. 10. Shin H., Kim M., Jo Y., Jang H., Cattle A. [Annotation Scheme for Constructing Sentiment Corpus in Korean]. In: 26th Pacifi c Asia Conference on Language, Information and Computa- tion pages. 2012, pp. 181−190.

ИНФОРМАЦИЯ ОБ АВТОРЕ Семина Татьяна Алексеевна – магистр лингвистики, аспирант кафедры теоретической и прикладной лингвистики Московского государственного областного университета; e-mail: [email protected]

INFORMATION ABOUT THE AUTHOR Tatiana Semina – master of Philological sciences, postgraduate student at the Department of Th eoretic and Applied Linguistics, Moscow Region State University; e-mail: [email protected]

ПРАВИЛЬНАЯ ССЫЛКА НА СТАТЬЮ Семина Т.А. Дихотомия субъективность vs. объективность и тональная релевант- ность в задачах анализа тональности // Вестник Московского государственного област- ного университета. Серия: Лингвистика. 2018. № 1. С. 38–45. DOI: 10.18384/2310-712X-2018-1-38-45

FOR CITATION Semina T.A. Subjectivity vs. Objectivity Dichotomy and Sentiment Relevance in Sentiment Analysis Tasks. In: Bulletin of Moscow Region State University. Series: Linguistics, 2018, no. 1, pp. 38–45. DOI: 10.18384/2310-712X-2018-1-38-45

45

Recommended publications