TTS(Text-To-Speech) Survey 프로젝트 명 : 시각 장애인용 웨어러블 텍스트 인식 시스템 작품 명 : 노텍, Noʊ Tek (Know Text)
Total Page:16
File Type:pdf, Size:1020Kb
캡스턴디자인 조사 보고서 TTS(Text-To-Speech) Survey 프로젝트 명 : 시각 장애인용 웨어러블 텍스트 인식 시스템 작품 명 : 노텍, noʊ tek (Know Text) 인천대학교 정보기술대학 임베디드시스템공학과 팀명 : Kim’s Club 지도교수 황광일 교수님 멘토 박수민 (UI. 2009년 졸업, 現 아로마소프트 근무) 임베디드시스템공학과 2401251 김 대 유 임베디드시스템공학과 2401307 김 호 성 임베디드시스템공학과 2501268 김 지 상 임베디드시스템공학과 2501214 김 수 철 목 차 1 서론 .......................................................................................................................................................... 1 1.1 조사 동기 및 의의 ........................................................................................................................................... 1 1.2 조사 개요 .......................................................................................................................................................... 1 1.2 일러 두기 .......................................................................................................................................................... 2 2 여러가지 TTS 소개 ............................................................................................................................... 4 2.1 ERRICSON LABS ........................................................................................................................................... 4 2.2 Free TTS Open Source Project ....................................................................................................................... 5 2.3 eSpeak Open Source Project .......................................................................................................................... 6 2.4 The MBROLA Project .................................................................................................................................... 7 2.5 Microsoft Speech API(SAPI) .......................................................................................................................... 8 2.6 AT&T Labs Natural Voices® TTS ............................................................................................................. 12 2.7 Neo Speech™ VoiceText™ TTS Engine ..................................................................................................... 12 2.8 iSpeech ............................................................................................................................................................ 14 2.9 Power TTS ...................................................................................................................................................... 16 2.10 Edu tool JSK ................................................................................................................................................... 17 2.11 그 밖의 주요 상용 제품 ................................................................................................................................ 18 3 결론 ........................................................................................................................................................ 20 3.1 총평 및 대안 .................................................................................................................................................. 20 3.2 참고 문헌 및 출처 ......................................................................................................................................... 20 2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 1. 서론 1.1 조사 동기 및 의의 이번 캡스턴디자인 작품, ‘시각장애인용 웨어러블 텍스트 인식 시스템’을 구현하기 위해서 글자를 음성으로 출력하는 작업의 선행자료로 TTS Survey를 진행한다. 이 조사를 통해 현재 존재하는 여러 가지 TTS 관련 기술 동향 및 특징을 파악하고 더 나아가 우리 프로젝트에 적합한 TTS 엔진 또는 라이브러리 찾는데 의의를 갖는다. 1.2 조사 개요 조사 방식으로, 인터넷을 주로 참고 하였고 포탈 검색 사이트로 NAVER™, Google™를 이용했다. 조사 기간 : 3월 25일 ~ 4월 14일 중심 주제 : 임베디드 환경에서의 TTS API, 라이브러리 그리고 엔진. 검색 키워드 : text to speech, 무료 tts, tts 라이브러리, tts 소스, tts 이용, tts, tts api, tts source, tts library, tts free, tts sdk, tts android, tts linux TTS를 이용한 기술 동향과 사례 분석으로는 디비피아(http://www.dbpia.co.kr/)를 이용해 논문을 참조했다. 단어 정의와 의미를 파악하는데 역시 인터넷 사전, 텀즈(http://terms.co.kr/) 또는 위키백과(http://www.wikipedia.org/)를 참고했다. 아쉬운 점으로, 우리 학교 도서관을 포함한 TTS 관련 서적 자료는 없었고, 그나마 있는 논문 자료 역시 우리 프로젝트와 관련 없는 연구이기에 생략하였다. 2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 1 1.3 일러 두기 조사를 진행하면서, 검색 키워드간에도 의미의 혼란으로 조사 목적에 맞는 명확한 근거를 마련하기 위해 중심 키워드 정리를 통해 다시 조사를 진행했다. ① TTS (Text To Speech) ? TTS는 도움말 파일이나 웹페이지와 같은 컴퓨터 문서의 내용을 사람이 읽어주는 소 리로 만들어주는 음성합성 프로그램의 한 종류이다. TTS는 시각 장애가 있는 사람들 을 위해 컴퓨터 화면에 나타난 정보를 대신 읽어주는 것도 가능하다. 현재 나와 있는 TTS 프로그램들로는, 음성으로 내용을 읽어주는 이메일과, 자동 응 답 시스템의 음성안내 기능 등이 있다. TTS는 종종 음성인식 프로그램과 함께 사용되 기도 한다. 시판되는 TTS 제품에는 Read Please 2000, Proverbe Speech Unit, 그리고 TextAloud 등 많은 종류가 있다. 루슨트나 AT&T 등에서도 "Text-to-Speech"라고 불리는 자체 제품들을 보유하고 있다. ② API ? API(Application Programming Interface, 응용 프로그램 프로그래밍 인터페이스)는 응용 프로그램에서 사용할 수 있도록 운영 체제나 프로그래밍 언어가 제공하는 기능 을 제어할 수 있도록 만든 인터페이스를 뜻한다. 주로 파일 제어, 윈도우 제어, 화상 처리, 문자 제어 등을 위한 인터페이스를 제공 한다. 한마디로 함수 집합체. 예를 들면, 윈도 API, 마이크로소프트 윈도의 다이렉트엑스(Direct X) : 주로 게임용 그래픽 지원 역할, 단일 유닉스 규격, 자바 API, 스칼라 API, OpenGL, OpenAL, OpenCL 여러가지 등등.. 2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 2 ③ Library ? 라이브러리는 다른 프로그램들과 링크되기 위하여 존재하는, 하나 이상의 서브루틴 이나 함수들이 저장된 파일들의 모음을 말하는데, 함께 링크될 수 있도록 보통 컴파 일된 형태인 목적코드 형태로 존재한다. 라이브러리는 코드 재사용을 위해 조직화된 초창기 방법 중의 하나이며, 많은 다른 프로그램들에서 사용할 수 있도록, 운영체계나 소프트웨어 개발 환경제공자들에 의해 제공되는 경우가 많다. 라이브러리 내에 있는 루틴들은 두루 쓸 수 있는 범용일 수도 있지만, 3차원 애니 메이션 그래픽 등과 같이 특별한 용도의 함수로 설계될 수도 있다. 라이브러리들은 사용자의 프로그램과 링크되어, 실행이 가능한 완전한 프로그램을 이룬다. 이러한 링크는 대개 정적 연결되지만, 시스템에 따라 동적으로 연결(DLL)될 수도 있다. 리눅스인 경우, 정적인 경우.O, 동적인 경우에는 .SO 확장자로 되어있다. ④ 엔진, Engine ? In computer science, a software engine refers to the core of a computer program. Software engines drive the functionality of the program, and are distinct from peripheral aspects of the program, such as look and feel. (위키백과) 이와 같이, TTS 엔진은 결국 프로그램을 의미하며, 우리가 찾으려는 목적인 라이브 러리 또는 API 형태와는 다른 차원의 자료임을 유념할 필요가 있다. 여러 가지 TTS를 소개하기 전에, 문서는 한글과 영문으로 혼용하여 작성하였음을 미리 말한다. 2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 3 2. 여러 가지 TTS 소개 2.1 ERICSSON LABS. ① URL : https://labs.ericsson.com/apis/text-to-speech/ ② Provider : ERICSSON LABS of ERICSSON Co. ③ Screenshot : 그림 1) ERISSON LABS 의 TEXT TO SPEECH 홈페이지 화면 ④ Overview : The text-to-speech enabler provides you with the opportunity to develop speech enabled applications. The API consists of a simple web interface as well as an Android SDK. The Android SDK wraps the REST API for translating text to audio data in the requested format. The REST protocol and the server of Text-To-Speech enabler are independent of the platform used on the client side. The Android SDK is for easing your development on Android platform with our text-to-speech enabler. Your application will be able to convert text to audio data through our text-to-speech enabler using the API. ⑤ Pros. : 무료이고, Android 환경을 지원 하며 The REST Protocol 경우 API KEY를 받으면 웹 환경에서도 사용할 수 있다. 추후 우리 시스템이 클라이언 트 환경에서 구축될 경우를 대비해 검토될 수 있는 자원으로 유용하다. ⑥ Cons. : 사용자 층은 그리 많지 않으며, 따라서 검증이 되었다고 보기가 힘들 다. 2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 4 최신 업데이트가 1999년 11월인 걸로 보아 요즘 TTS 성능보다는 떨어질 것 으로 예상한다. 또한 주기적인 업데이트가 이루어지지도 않은 점이 마이너스 다. 한글판 지원이 안되는 것도 큰 단점. ⑦ Requirements. : The REST protocol – Interet 환경(Ethernet, Wi-fi), apach, PHP, API Key(사 이트에서 받음) Andriod SDK – Android Programming(JAVA), Andriod SDK. 2.2 Free TTS 1.2 Open Source Project ① URL : http://freetts.sourceforge.net/ ② Provider : Open Source Community. 원래는 Sun Microsystems Laboratories Speech Team, Based on CMU's Flite engine. & 부분적으로 JSAPI 1.0 포함 ③ Screenshot : 그림 2) Free TTS Open Source Project 사이트 화면 ④ Overview : FreeTTS is a speech synthesis system written entirely in the JavaTM programming language. 2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 5 It is based upon Flite : a small run-time speech synthesis engine developed at Carnegie Mellon University. ⑤ Pros. : 무료 API. 문서화가 잘 되어있음. Cons. : 영문판만 지원. 전부 JAVA 언어로만 구성. 2.3 eSpeak text to speech Open Source Project ① URL : http://espeak.sourceforge.net/ ② Provider : Open Source Community. ③ Screenshot : 그림 3) eSpeak Open Source Project 사이트 화면 ④ Overview : A command line program (Linux and Windows) to speak text from a file or from stdin. A shared library version for use by other programs. (On Windows this is a DLL). 2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 6 A SAPI51 version for Windows, so it can be used with screen-readers and other programs that support the Windows SAPI5 interface. eSpeak has been ported to other platforms, including Solaris and Mac OSX. ⑤ Pros. : 위 Free TTS 그룹 보다는 많은 추천 유저(83명)를 보유. ⑥ Cons. : 유저 인터페이스로 Command line. ⑦ Requirements. : O/S : 32-bit MS Windows (NT/2000/XP), All POSIX (Linux/BSD/UNIX- like OSes) 2.4 The MBROLA Project ① URL : http://tcts.fpms.ac.be/synthesis/ ② Provider : TCTS Lab of the Faculté Polytechnique de Mons (Belgium), ③ Screenshot : 그림 4) The MBROLA Project 홈페이지 화면 ④ Overview : The aim of the MBROLA project, initiated by the TCTS Lab of the Faculté Polytechnique de Mons (Belgium), is to obtain a set of speech synthesizers for as many languages as possible, and provide them free for non-commercial applications. The ultimate goal is to boost academic research on speech synthesis, and particularly on prosody generation, known as one of 1 SAPI : Speech Application Programming Interface, an API produced by Microsoft for Speech Recognition and Speech Synthesis. 2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 7 the biggest challenges taken up by Text-To-Speech synthesizers for the years to come. Central to the MBROLA project is MBROLA, a speech synthesizer