Computational Linguistics and Intellectual Technologies
Total Page:16
File Type:pdf, Size:1020Kb
Компьютерная лингвистика и интеллектуальные технологии По материалам ежегодной Международной конференции «Диалог» (2011) Выпуск 10 Computational Linguistics and Intellectual Technologies Papers from the Annual International Conference “Dialogue” (2011) Issue 10 УДК 80/81; 004 ББК 81.1 К63 Программный комитет конференции выражает искреннюю благодарность Российскому фонду фундаментальных исследований за финансовую поддержку, грант № 11-06-06056-г Редакционная А. Е. Кибрик (главный редактор), коллегия сборника: В. И. Беликов, И. М. Богуславский, Б. В. Добров, Д. О. Добровольский, Л. М. Захаров, Л. Л. Иомдин, И. М. Кобозева, Е. Б. Козеренко, М. А. Кронгауз, Н. И. Лауфер, Н. В. Лукашевич, Й. Нивре, Г. С. Осипов, И. В. Сегалович, В. П. Селегей, С. А. Шаров К63 Компьютерная лингвистика и интеллектуальные технологии: По ма- териалам ежегодной Международной конференции «Диалог» (Бекасово, 25–29 мая 2011 г.). Вып. 10 (17). — М.: Изд-во РГГУ, 2011. Сборник включает 73 доклада международной конференции по ком- пьютерной лингвистике и интеллектуальным технологиям «Диалог 2011», представляющих широкий спектр теоретических и прикладных исследо- ваний в области описания естественного языка, моделирования языковых процессов, создания практически применимых компьютерных лингви- стических технологий. Для специалистов в области теоретической и прикладной лингвистики и интеллектуальных технологий. УДК 80/81; 004 ББК 81.1 © Российский государственный гуманитарный университет, 2011 © Редколлегия сборника «Компьютерная лингвистика и интеллектуальные технологии» (составитель), 2011 Предисловие 10-ый выпуск ежегодника «Компьютерная лингвистика и интеллекту- альные технологии» содержит материалы 17-й Международной конференции «Диалог». Для сборника было отобрано 73 доклада, охватывающих наиболее актуальные направления теоретической и прикладной лингвистики, связан- ные с компьютерным анализом естественного языка. В настоящем сборнике представлены: • Лингвистическая семантика и семантический анализ • Формальные модели языка и их применение • Теоретическая и компьютерная лексикография • Создание и применение универсальных компьютерных лексических ресурсов • Методы оценки (evaluation) систем и методов анализа текстов • Корпусная лингвистика; создание, применение, оценка корпусов • Интернет как лингвистический ресурс; лингвистические технологии в Интернете • Извлечение знаний из текстов • Компьютерный анализ документов: реферирование, классификация, поиск • Машинный перевод • Модели общения; коммуникация, диалог и речевой акт • Анализ и синтез речи. «Диалог» является наиболее крупной российской конференцией по ком- пьютерной лингвистике. Принципиальной особенностью конференции является особое внимание к лингвистически ориентированным подходам к решению задач автоматиче- ского анализа языка. Именно этим объясняется и состав участников, и про- грамма конференции, в которой соседствуют доклады теоретического и при- кладного характера. Традиционно важное место в программе «Диалога» занимают исследова- ния звучащей речи, коммуникативных стратегий, невербальных компонентов процесса общения. Каждый год Программный комитет выбирает отдельные темы или направ- ления в качестве доминант очередной конференции. Им посвящаются специ- альные заседания, круглые столы, обзорные выступления приглашенных до- кладчиков. В этом году в центре обсуждений проблемы корпусометрии. Можно сказать, что тема анализа текстовых корпусов не была выбрана Программным Комитетом, а оказалась в центре внимания естественным образом. Практи- чески всякое лингвистическое исследование ведется сегодня с привлечением корпусных данных. При этом далеко не всегда четко формулируется, какими III свойствами должен обладать корпус и методы работы с ним, чтобы полученные результаты заслуживали доверие. Начиная с этого года сборник становится принципиально двуязычным. Это отражает одинаковую важность для «Диалога» двух взаимосвязанных задач: • Создание ресурсов, моделей и технологий для поддержки анализа рус- ского языка. Это становится особенно важным в связи с тем, что сегодня русский язык де-факто не входит в список языков, которым уделяется существенное внимание в мировой компьютерной лингвистике; • Преодоление того методического и технологического отставания, кото- рое, к сожалению, характерно для российской компьютерной лингви- стики, несмотря на ее достижения. Для успешного решения второй задачи Программный комитет «Диалога» пытается внедрить международные стандарты оценки присылаемых работ, этой же цели служит и выбор английского языка в качестве рабочего для тех направлений «Диалога», которые относятся к мировому технологическому мейнстриму. Это дает, в частности, важную возможность привлекать к отбору докладов и иностранных экспертов. Тематика «Диалога» существенно шире, чем может продемонстрировать данный выпуск. Более цельную картину можно получить на сайте конферен- ции www.dialog-21.ru , где представлены обширные электронные архивы про- шлых лет и форумы по основным направлениям «Диалога». Программный комитет конференции «Диалог» Редколлегия ежегодника «Компьютерная лингвистика и интеллектуальные технологии» IV Организаторы Ежегодная конференция «Диалог» проводится под патронажем Россий- ского Фонда Фундаментальных Исследований при организационной под- держке компании ABBYY. Основными учредителями конференции являются: • Институт лингвистики РГГУ • Институт проблем информатики РАН • Институт проблем передачи информации РАН • Компания ABBYY • Компания Яndeх • Филологический факультет МГУ Конференция проводится при поддержке Российской ассоциации искус- ственного интеллекта. Международный программный комитет Буате Кристиан Гренобльский университет Богуславский Игорь Михайлович Политехнический университет Мадрида Гельбух Александр Феликсович Национальный политехнический институт, Мехико Иомдин Леонид Лейбович Институт проблем передачи информации РАН Кибрик Александр Евгеньевич Филологический факультет МГУ Кобозева Ирина Михайловна Филологический факультет МГУ Козеренко Елена Борисовна Институт проблем информатики РАН Кронгауз Максим Анисимович Институт лингвистики РГГУ Лукашевич Наталья Валентиновна НИВЦ МГУ Мельчук Игорь Александрович Монреальский университет Нивре Йоaким Уппсальский университет Ниренбург Сергей Университет Нью-Мексико Осипов Геннадий Семёнович Институт программных систем РАН Попов Эдуард Викторович РосНИИ информационной техники и САПР Сегалович Илья Валентинович Компания Яndех Селегей Владимир Павлович Компания ABBYY Флюр-Семёнова Вера Компания SCIPER Шаров Сергей University of Leeds, UK Ыйм Халдур Тартуский университет V Организационный комитет и Редсовет Селегей Владимир Павлович, Компания ABBYY председатель Азарова Ирина Владимировна Санкт-Петербургский государственный университет Беликов Владимир Иванович Институт русского языка им. В. В. Виноградова РАН Добров Борис Викторович НИВЦ МГУ Иомдин Леонид Лейбович Институт проблем передачи информации РАН Лауфер Наталия Исаевна ООО «проФан Продакшн» Ляшевская Ольга Николаевна Universitetet i Tromsø, Norway Соколова Елена Григорьевна РосНИИ искусственного интеллекта Толдова Светлана Юрьевна Филологический факультет МГУ Секретариат Талис Валентина Львовна, Компания ABBYY секретарь оргкомитета, редактор сайта Мытникова Татьяна Александровна, координатор Компания ABBYY Рецензенты Крейдлин Григорий Ефимович Кронгауз Максим Анисимович Августинова Таня Левонтина Ирина Борисовна Азарова Ирина Владимировна Лобанов Борис Мефодьевич Апресян Валентина Юрьевна Лукашевич Наталья Валентиновна Баранов Анатолий Николаевич Ляшевская Ольга Николаевна Беликов Владимир Иванович Пазельская Анна Германовна Богданов Алексей Владимирович Подлесская Вера Исааковна Богданова Наталья Викторовна Ронжин Андрей Леонидович Богуславский Игорь Михайлович Савельев Василий Евгеньевич Борщев Владимир Борисович Сегалович Илья Валентинович Браславский Павел Исаакович Селегей Владимир Павлович Губин Максим Вадимович Сокирко Алексей Викторович Добров Борис Викторович Соколова Елена Григорьевна Добровольский Дмитрий Олегович Старостин Анатолий Сергеевич Зарецкая Елена Наумовна Тестелец Яков Георгиевич Захаров Леонид Михайлович Тихомиров Илья Александрович Зуев Константин Алексеевич Толдова Светлана Юрьевна Иомдин Борис Леонидович Урысон Елена Владимировна Иомдин Леонид Лейбович Филиппова Екатерина Александровна Кибрик Андрей Александрович Циммерлинг Антон Владимирович Кобозева Ирина Михайловна Шаров Сергей Александрович Козеренко Елена Борисовна Янко Татьяна Евгеньевна VI Содержание* Раздел I. Приглашенные доклады Greville G. Corbett Lexical splits and morphological complexity ..................................................... 1 Eduard Hovy A New Semantics: Merging Propositional and Distributional Information .... 3 Кибрик А. Е. База естественного человеческого языка и ее основные параметры ....... 4 Diana McCarthy Exploiting distributional similarity for lexical acquisition ............................. 19 Раздел II. Основная программа конференции Alexeev A. A., Loukachevitch N. V. Automatic detection of near-synonyms in news clusters ................................ 32 Avgustinova T. Parallel Construction of Slavic Grammatical Resources ................................. 41 Баранов А. Н., Добровольский Д. О. Семантические отношения во фразеологии ............................................... 51 Беликов В. И. Чего не хватает в «оцифрованном мире» лексикографу и социолингвисту? .......................................................................................... 60 Бениньи В., Котта Рамузино П. Итальянские конструкции с глаголом поддержки fare в сопоставлении