지능정보기술 동향 조사 Survey on the Trends of Intelligence-Information Technology

연구보고서 2016-006 지능정보기술 동향 조사 Survey on the trends of Intelligence-information technology - 자연어 처리를 중심으로 Focused on Natural language processing 안성원/김태호/송지환/추형석 외 2017.04. 연구기관 및 참여연구원 : 소프트웨어정책연구소 안성원 김태호 송지환 추형석 창원대학교 차정원 박은실 박태호 박다솔 신창욱 박성재 신영태 이 보고서는 2016년도 미래창조과학부 정보통신진흥기금을 지원받아 수행한 연구결과로 보고서 내용은 연구자의 견해이며, 미래창조과학부의 공식입장과 다를 수 있습니다. 목 차 제1장 서 론 ························································································································ 1 제2장 자연어처리 기술 ···································································································· 3 제1절 자연어처리 개요 ································································································ 3 제2절 형태소 분석 및 형태소 품사 부착 ································································ 3 제3절 함의(Entailment) ································································································ 5 제4절 질의 응답(Question Answering System) ······················································· 7 제5절 정보 추출(Information Extraction) ································································· 8 제6절 구문 분석 ············································································································ 9 제7절 상호 참조 ·········································································································· 10 제8절 개체명 ················································································································ 11 제9절 의미역 ················································································································ 12 제10절 감성 분석 ······································································································ 14 제3장 기술 동향 ·············································································································· 15 제1절 학술 대회 ·········································································································· 15 1. ICON ·················································································································· 15 2. ACL ··················································································································· 16 3. 한글 및 한국어 정보처리 학술대회 ··························································· 19 - i - 제2절 경진 대회 ·········································································································· 24 1. NLP tools contest ··························································································· 24 2. EVALITA ··········································································································· 26 3. TAC ··················································································································· 40 4. 국어 정보 처리 시스템 경진대회 ······························································· 43 제4장 언어지능 기술이 적용된 실제 사례 조사 ······················································ 45 제1절 Virtual Assistance ···························································································· 45 제2절 Social Network analytics tools ······································································ 46 1. Keyhole ············································································································· 47 2. Signal Media ···································································································· 49 3. Brandwatch ······································································································ 50 제5장 언어처리 기술 수준 ···························································································· 52 제1절 공개된 SW의 종류와 성능 ············································································ 52 1. CoreNLP ··········································································································· 52 2. Natural Language Toolkit ············································································· 53 3. KoNLPy ············································································································· 57 4. Google SyntaxNet ··························································································· 58 5. Apache OpenNLP ··························································································· 59 6. Apache Lucene ······························································································· 61 - ii - 7. UIMA ················································································································· 61 8. MALLET ··········································································································· 62 9. ESPRESSO ········································································································ 63 10. 꼬꼬마 ············································································································· 64 11. 코모란 ············································································································· 65 12. 동아대학교 띄어쓰기 모델 ········································································· 65 제2절 연구소, 대학, 기업의 연구 수준 ·································································· 66 1. Stanford ············································································································ 66 2. Berkeley group ······························································································· 67 3. MIT ···················································································································· 68 4. Sheffield ··········································································································· 69 5. Univ. of Washington ······················································································ 69 6. MS Human language technologies ······························································ 70 7. IBM NLP group ······························································································· 71 8. 다이퀘스트 ······································································································· 72 9. ETRI(한국전자통신연구원) ············································································ 73 제6장 지식데이터베이스 현황 조사 ············································································ 74 제1절 한국어 지식 데이터베이스 ············································································ 74 1. 서울대학교 ······································································································· 74 2. 언어정보연구원 ······························································································· 75 3. 국어 국립원 ····································································································· 76 4. ETRI ·················································································································· 77 5. 한국과학기술정보연구원과 충남대학교 ····················································· 78 6. 울산대학교 ······································································································· 79 7. 고려대학교 ······································································································· 79 8. 펜실베니아 대학교 ························································································· 80 9. LDC ··················································································································· 80 10. kAIST ··············································································································· 81 11. 언어자원은행 ································································································· 81 제2절 해외 지식 데이터 베이스 ·············································································· 83 1. 영국 코퍼스 ····································································································· 83 2. 미국 코퍼스 ····································································································· 84 3. 체코 코퍼스 ····································································································· 84 4. 헝가리 코퍼스 ································································································· 85 5. 러시아 코퍼스 ································································································· 85 6. 이탈리아 코퍼스 ····························································································· 86 7. 그리스 코퍼스 ································································································· 86 8. 독일 코퍼스 ····································································································· 87 9. 중국 코퍼스 ····································································································· 87 제3절 모니터 코퍼스 ·································································································· 88 1. The Bank of English(BoE) 코퍼스 ······························································ 88 - iv - 2. Global English Monitor 코퍼스 ···································································· 88 제4절 Brown 계열 코퍼스 ························································································· 88 제5절 공시적 코퍼스 ·································································································· 89 1. The International Corpus of English(ICE) ················································· 90 2. The Longman/Lancaster Corpus ································································· 90

지능정보기술 동향 조사 Survey on the Trends of Intelligence-Information Technology

Lexical Ambiguity • Syntactic Ambiguity • Semantic Ambiguity • Pragmatic Ambiguity

Conference Abstracts

Corpus Linguistics: a Practical Introduction

A New Venture in Corpus-Based Lexicography: Towards a Dictionary of Academic English

Compilación De Un Corpus De Habla Espontánea De Chino Putonghua Para Su Aplicación En La Enseñanza Como Lengua Segunda a Hispanohablantes

Concreteness 25 3.1 Introduction

8Th International Conference on Language Resources and Evaluation 2012

Papers Index

The Prime Machine: a User-Friendly Corpus Tool for English Language Teaching and Self-Tutoring Based on the Lexical Priming Theory of Language

Unit 3: Available Corpora and Software

Lexical Selection and the Evolution of Language Units

The Spoken British National Corpus 2014