캡스턴디자인 조사 보고서

TTS(Text-To-Speech) Survey 프로젝트 명 : 시각 장애인용 웨어러블 텍스트 인식 시스템 작품 명 : 노텍, noʊ tek (Know Text)

인천대학교 정보기술대학 임베디드시스템공학과 팀명 : Kim’s Club 지도교수 황광일 교수님 멘토 박수민 (UI. 2009년 졸업, 現 아로마소프트 근무)

임베디드시스템공학과 2401251 김 대 유 임베디드시스템공학과 2401307 김 호 성 임베디드시스템공학과 2501268 김 지 상 임베디드시스템공학과 2501214 김 수 철 목 차

1 서론 ...... 1 1.1 조사 동기 및 의의 ...... 1 1.2 조사 개요 ...... 1 1.2 일러 두기 ...... 2 2 여러가지 TTS 소개 ...... 4 2.1 ERRICSON LABS ...... 4 2.2 Free TTS Open Source Project ...... 5 2.3 eSpeak Open Source Project ...... 6 2.4 The MBROLA Project ...... 7 2.5 Microsoft Speech API(SAPI) ...... 8 2.6 AT&T Labs Natural Voices® TTS ...... 12 2.7 Neo Speech™ VoiceText™ TTS Engine ...... 12 2.8 iSpeech ...... 14 2.9 Power TTS ...... 16 2.10 Edu tool JSK ...... 17 2.11 그 밖의 주요 상용 제품 ...... 18 3 결론 ...... 20 3.1 총평 및 대안 ...... 20 3.2 참고 문헌 및 출처 ...... 20

2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 1. 서론 1.1 조사 동기 및 의의

이번 캡스턴디자인 작품, ‘시각장애인용 웨어러블 텍스트 인식 시스템’을 구현하기 위해서 글자를 음성으로 출력하는 작업의 선행자료로 TTS Survey를 진행한다.

이 조사를 통해 현재 존재하는 여러 가지 TTS 관련 기술 동향 및 특징을 파악하고 더 나아가 우리 프로젝트에 적합한 TTS 엔진 또는 라이브러리 찾는데 의의를 갖는다.

1.2 조사 개요

조사 방식으로, 인터넷을 주로 참고 하였고 포탈 검색 사이트로 NAVER™, Google™를 이용했다.

 조사 기간 : 3월 25일 ~ 4월 14일  중심 주제 : 임베디드 환경에서의 TTS API, 라이브러리 그리고 엔진.  검색 키워드 : text to speech, 무료 tts, tts 라이브러리, tts 소스, tts 이용, tts, tts api, tts source, tts library, tts free, tts sdk, tts android, tts linux

TTS를 이용한 기술 동향과 사례 분석으로는 디비피아(http://www.dbpia.co.kr/)를 이용해 논문을 참조했다.

단어 정의와 의미를 파악하는데 역시 인터넷 사전, 텀즈(http://terms.co.kr/) 또는 위키백과(http://www.wikipedia.org/)를 참고했다.

아쉬운 점으로, 우리 학교 도서관을 포함한 TTS 관련 서적 자료는 없었고, 그나마 있는 논문 자료 역시 우리 프로젝트와 관련 없는 연구이기에 생략하였다.

2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 1 1.3 일러 두기

조사를 진행하면서, 검색 키워드간에도 의미의 혼란으로 조사 목적에 맞는 명확한 근거를 마련하기 위해 중심 키워드 정리를 통해 다시 조사를 진행했다.

① TTS (Text To Speech) ? TTS는 도움말 파일이나 웹페이지와 같은 컴퓨터 문서의 내용을 사람이 읽어주는 소 리로 만들어주는 음성합성 프로그램의 한 종류이다. TTS는 시각 장애가 있는 사람들 을 위해 컴퓨터 화면에 나타난 정보를 대신 읽어주는 것도 가능하다.

현재 나와 있는 TTS 프로그램들로는, 음성으로 내용을 읽어주는 이메일과, 자동 응 답 시스템의 음성안내 기능 등이 있다. TTS는 종종 음성인식 프로그램과 함께 사용되 기도 한다. 시판되는 TTS 제품에는 Read Please 2000, Proverbe Speech Unit, 그리고 TextAloud 등 많은 종류가 있다. 루슨트나 AT&T 등에서도 "Text-to-Speech"라고 불리는 자체 제품들을 보유하고 있다.

② API ? API(Application Programming Interface, 응용 프로그램 프로그래밍 인터페이스)는 응용 프로그램에서 사용할 수 있도록 운영 체제나 프로그래밍 언어가 제공하는 기능 을 제어할 수 있도록 만든 인터페이스를 뜻한다. 주로 파일 제어, 윈도우 제어, 화상 처리, 문자 제어 등을 위한 인터페이스를 제공 한다. 한마디로 함수 집합체. 예를 들면, 윈도 API, 마이크로소프트 윈도의 다이렉트엑스(Direct X) : 주로 게임용 그래픽 지원 역할, 단일 유닉스 규격, 자바 API, 스칼라 API, OpenGL, OpenAL, OpenCL 여러가지 등등..

2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 2 ③ Library ? 라이브러리는 다른 프로그램들과 링크되기 위하여 존재하는, 하나 이상의 서브루틴 이나 함수들이 저장된 파일들의 모음을 말하는데, 함께 링크될 수 있도록 보통 컴파 일된 형태인 목적코드 형태로 존재한다.

라이브러리는 코드 재사용을 위해 조직화된 초창기 방법 중의 하나이며, 많은 다른 프로그램들에서 사용할 수 있도록, 운영체계나 소프트웨어 개발 환경제공자들에 의해 제공되는 경우가 많다.

라이브러리 내에 있는 루틴들은 두루 쓸 수 있는 범용일 수도 있지만, 3차원 애니 메이션 그래픽 등과 같이 특별한 용도의 함수로 설계될 수도 있다. 라이브러리들은 사용자의 프로그램과 링크되어, 실행이 가능한 완전한 프로그램을 이룬다.

이러한 링크는 대개 정적 연결되지만, 시스템에 따라 동적으로 연결(DLL)될 수도 있다. 리눅스인 경우, 정적인 경우.O, 동적인 경우에는 .SO 확장자로 되어있다.

④ 엔진, Engine ? In computer science, a software engine refers to the core of a computer program. Software engines drive the functionality of the program, and are distinct from peripheral aspects of the program, such as look and feel. (위키백과)

이와 같이, TTS 엔진은 결국 프로그램을 의미하며, 우리가 찾으려는 목적인 라이브 러리 또는 API 형태와는 다른 차원의 자료임을 유념할 필요가 있다.

여러 가지 TTS를 소개하기 전에, 문서는 한글과 영문으로 혼용하여 작성하였음을 미리 말한다.

2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 3 2. 여러 가지 TTS 소개 2.1 ERICSSON LABS.

① URL : https://labs.ericsson.com/apis/text-to-speech/ ② Provider : ERICSSON LABS of ERICSSON Co. ③ Screenshot :

그림 1) ERISSON LABS 의 TEXT TO SPEECH 홈페이지 화면 ④ Overview : The text-to-speech enabler provides you with the opportunity to develop speech enabled applications. The API consists of a simple web interface as well as an Android SDK. The Android SDK wraps the REST API for translating text to audio data in the requested format. The REST protocol and the server of Text-To-Speech enabler are independent of the platform used on the client side. The Android SDK is for easing your development on Android platform with our text-to-speech enabler. Your application will be able to convert text to audio data through our text-to-speech enabler using the API. ⑤ Pros. : 무료이고, Android 환경을 지원 하며 The REST Protocol 경우 API KEY를 받으면 웹 환경에서도 사용할 수 있다. 추후 우리 시스템이 클라이언 트 환경에서 구축될 경우를 대비해 검토될 수 있는 자원으로 유용하다. ⑥ Cons. : 사용자 층은 그리 많지 않으며, 따라서 검증이 되었다고 보기가 힘들 다.

2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 4 최신 업데이트가 1999년 11월인 걸로 보아 요즘 TTS 성능보다는 떨어질 것 으로 예상한다. 또한 주기적인 업데이트가 이루어지지도 않은 점이 마이너스 다. 한글판 지원이 안되는 것도 큰 단점. ⑦ Requirements. : The REST protocol – Interet 환경(Ethernet, Wi-fi), apach, PHP, API Key(사 이트에서 받음) Andriod SDK – Android Programming(JAVA), Andriod SDK.

2.2 Free TTS 1.2 Open Source Project

① URL : http://freetts.sourceforge.net/ ② Provider : Open Source Community. 원래는 Sun Microsystems Laboratories Speech Team, Based on CMU's Flite engine. & 부분적으로 JSAPI 1.0 포함 ③ Screenshot :

그림 2) Free TTS Open Source Project 사이트 화면 ④ Overview : FreeTTS is a system written entirely in the JavaTM programming language.

2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 5 It is based upon Flite : a small run-time speech synthesis engine developed at Carnegie Mellon University. ⑤ Pros. : 무료 API. 문서화가 잘 되어있음. Cons. : 영문판만 지원. 전부 JAVA 언어로만 구성.

2.3 eSpeak text to speech Open Source Project

① URL : http://espeak.sourceforge.net/ ② Provider : Open Source Community. ③ Screenshot :

그림 3) eSpeak Open Source Project 사이트 화면 ④ Overview : A command line program (Linux and Windows) to speak text from a file or from stdin. A shared library version for use by other programs. (On Windows this is a DLL).

2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 6 A SAPI51 version for Windows, so it can be used with screen-readers and other programs that support the Windows SAPI5 interface. eSpeak has been ported to other platforms, including Solaris and Mac OSX. ⑤ Pros. : 위 Free TTS 그룹 보다는 많은 추천 유저(83명)를 보유. ⑥ Cons. : 유저 인터페이스로 Command line. ⑦ Requirements. : O/S : 32-bit MS Windows (NT/2000/XP), All POSIX (Linux/BSD/UNIX- like OSes)

2.4 The MBROLA Project

① URL : http://tcts.fpms.ac.be/synthesis/ ② Provider : TCTS Lab of the Faculté Polytechnique de Mons (Belgium), ③ Screenshot :

그림 4) The MBROLA Project 홈페이지 화면 ④ Overview : The aim of the MBROLA project, initiated by the TCTS Lab of the Faculté Polytechnique de Mons (Belgium), is to obtain a set of speech synthesizers for as many languages as possible, and provide them free for non-commercial applications. The ultimate goal is to boost academic research on speech synthesis, and particularly on prosody generation, known as one of

1 SAPI : Speech Application Programming Interface, an API produced by Microsoft for Speech Recognition and Speech Synthesis.

2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 7 the biggest challenges taken up by Text-To-Speech synthesizers for the years to come.

Central to the MBROLA project is MBROLA, a speech synthesizer based on the concatenation of diphones. It takes a list of phonemes as input, together with prosodic information (duration of phonemes and a piecewise linear description of pitch), and produces speech samples on 16 bits (linear), at the sampling frequency of the diphone database used (it is therefore NOT a Text- To-Speech (TTS)synthesizer, since it does not accept raw text as input). This synthesizer is provided for free, for non commercial, non military applications only.

After some official agreement between the author of MBROLA and the owner of a diphone database, the database is processed by the author and adapted to the Mbrola format, for free. The resulting Mbrola diphone database is made available for non-commercial, non-military use as part of the MBROLA project. Commercial rights on the Mbrola database remain with the database provider for exclusive use with the Mbrola software. ⑤ Pros. : 유럽권에서 사용층이 넓어 유럽국가 TTS 에 적합.(1996년 유럽 IT 수 상), 무료 제공. ⑥ Cons. : 2006년 끝으로 현재는 운영하지 않고 있다. 한글판 지원은 사이트가 패쇄 되어 찾기가 힘들다. 서비스를 이용하기 위해서 별도의 복잡한 절차(라이선스 동의, mail 연락)가 필요하다

2.5 Microsoft Speech API(SAPI) cf. Embedded 용으로는, SAPI Lite for Windows Mobile ① URL : http://msdn.microsoft.com/en-us/library/ee721044.aspx/ ② Provider : Microsoft Co. ③ Screenshot :

2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 8

그림 5) MS 의 Speech SDK 홈페이지 화면

그림 6) MS 의 SAPI 홈페이지 화면 ④ Overview : The Speech Application Programming Interface or SAPI is an API developed by Microsoft to allow the use of speech recognition and speech synthesis within Windows applications. To date, a number of versions of the

2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 9 API have been released, which have shipped either as part of a Speech SDK2, or as part of the Windows OS itself. Applications that use SAPI include Microsoft Office, and Microsoft Speech Server.

In general all versions of the API have been designed such that a software developer can write an application to perform speech recognition and synthesis by using a standard set of interfaces, accessible from a variety of programming languages. In addition, it is possible for a 3rd-party company to produce their own Speech Recognition and Text-To-Speech engines or adapt existing engines to work with SAPI. In principle, as long as these engines conform to the defined interfaces they can be used instead of the Microsoft- supplied engines.

In general the Speech API is a freely-redistributable component which can be shipped with any Windows application that wishes to use speech technology. Many versions (although not all) of the speech recognition and synthesis engines are also freely redistributable.

There have been two main 'families' of the Microsoft Speech API. SAPI versions 1 through 4 are all similar to each other, with extra features in each newer version. SAPI 5 however was a completely new interface, released in 2000. Since then several sub-versions of this API have been released.

현재는 Desktop 기준 SAPI 5.4 까지 나와있다. ⑤ Pros. : 그나마 TTS 오픈 API 중 에서는 가장 검증된 회사(Microsoft)에서 제 공. SAPI Lite for Windows Mobile 유일한 형태로 임베디드 용으로 별도 제품이 존재함. 이 밖에도 Server, UCMA3 그리고 .net framework4 환경하에서 여러 종류 플

2 The Microsoft Speech SDK : You can now use the Win32 Speech API (SAPI) to develop speech applications with Visual Basic ®, ECMAScript and other Automation languages. The SDK also includes freely distributable text-to-speech (TTS) engines (in U.S. English and Simplified Chinese) and speech recognition (SR) engines (in U.S. English, Simplified Chinese, and Japanese). URL : http://www.microsoft.com/downloads/en/details.aspx?FamilyID=5e86ec97-40a7-453f-b0ee- 6583171b4530#Overview/ 3 UCMA : A Unified Communications Managed API (UCMA) application is an application designed

2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 10 랫폼에서 사용 가능. ⑥ Cons. : 최신버전에는 한글판이 지원되지 않음. The SAPI Lite API is available only to OEMs and is not included in the public software development kit (SDK). ⑦ Requirements. : 가) Windows •Supported Operating Systems : Windows XP •Windows XP Professional or Home Edition •Microsoft Windows NT 4.0 Workstation or Server, Service Pack 6a, English, Japanese, or Simplified Chinese versions •Microsoft Internet Explorer ® 5.0 or later. Users of Windows NT 4.0 require Microsoft Internet Explorer 5.5 or later. •Microsoft Visual C++ ® 6.0 (Service Pack 3 or later version is needed to run the SAPI 5 SDK samples) •Microsoft Visual Studio.NET is required to compile the C# examples ✽ 다운로드시 중요할 점.(SDK 각 파일의 설명) •If you want to download sample code, documentation, SAPI, and the U.S. English Speech engines for development purposes, download the Speech SDK 5.1 file (SpeechSDK51.exe). •If you want to use the Japanese and Simplified Chinese engines for development purposes, download the Speech SDK 5.1 Language Pack file (SpeechSDK51LangPack.exe) in addition to the Speech SDK 5.1 file. •If you want to redistribute the Speech API and/or the Speech engines to integrate and ship as a part of your product, download the Speech 5.1 SDK Redistributables file (SpeechSDK51MSM.exe). •If you want to get only the Mike and Mary voices redistributable for Windows XP, download Mike and Mary redistributables (Sp5TTIntXP.exe). •If you only want the documentation, download the Documentation file (sapi.chm).

to run in an Office Communications Server (OCS) environment. A UCMA application can access various OCS features, such as collaboration, speech, or the communications workflow. 4 닷넷 프레임워크(.NET Framework) : 마이크로소프트에서 개발한 윈도 프로그램 개발 및 실행 환 경이다. 네트워크 작업, 인터페이스 등의 많은 작업을 캡슐화하였고, 공통 언어 런타임(Common Language Runtime)(CLR)이라는 이름의 가상 머신 위에서 작동한다. 여기서 CLR 이라는 것은, 공통 언어 기반(Common Language Infrastructure)이라는 곳에서 주 목 적은 애플리케이션의 개발과 실행 시 언어에 종속적이지 않은 플랫폼을 제공하기 위해서 예외 처 리, 가비지 콜렉션, 보안, 호환 등을 위한 소프트웨어 콤포넌트를 포함한다. 마이크로소프트가 구 현한 CLI를 일컬어, 공통 언어 런타임(Common Language Runtime, CLR)이라고 한다.

2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 11 2.6 AT&T Labs Natural Voices® TTS ① URL : http://www2.research.att.com/~ttsweb/tts/demo.php ② Provider : AT&T Labs, Inc. ③ Screenshot :

그림 7) AT&T Labs Natural Voices 홈페이지 화면 ④ Overview : AT&T Lab's charter is to increase the naturalness of speech synthesis significantly while maintaining good intelligibility. Next-Generation TTS was introduced in 1998 and marked a dramatic leap in naturalness. In some cases, such as telephone response, a TTS voice may supply the only feedback a user gets, and the quality of an entire service may be judged by that voice. TTS is closest to the customer's ear.(R) TTS program 중 가장 성능이 낫다는 평가다. ⑤ Pros. : 현재 존재 하는 TTS 프로그램 중에서 가장 자연스런 목소리를 제공. 웹에서 Demo 제공. ⑥ Cons. : 무료 버전은 없고 전부 상용 제품 ; 영어 TTS 기준 $ 35 라이브러리 또는 API 형태로는 제공이 아닌, 어플리케이션으로만 활용해야 됨. 한글 버전은 없음.

2.7 Neo Speech™ VoiceText™ TTS Engine ① URL : http://www.neospeech.com/tts-engine.aspx ② Provider : Neo Speech Co. ③ Screenshot :

2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 12

그림 8) Neo Speech社의 홈페이지 화면 ④ Overview :  Variable Footprints With variable footprints ranging from 16 to over 600 megabytes, VoiceText™ is configurable for use in a wide range of desktop applications.

 Multiple Languages, Multiple Voices VoiceText™ is available as US English TTS, Latin American Spanish TTS, Korean TTS, Japanese TTS and Mandarin Chinese TTS. A collection of eleven native voices is available across these languages.  Large Extensible Dictionary Hundreds of thousands of pronunciations are included in the default dictionary of each of the supported languages. VoiceText™ also supports customization of the dictionary so that developers can adjust pronunciations of symbols, abbreviations, and new terms.

 Expressive Control Pitch, speed, volume, and pauses can be customized, both dynamically and by global setting. VoiceText Markup Language (VTML) is provided for inline customization.  Pre-Processing of Input Text VoiceText™ automatically handles special input such as dates, times, abbreviations found in addresses, and sentences with mixed languages.

2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 13  Flexible Data Output Formats VoiceText™ Text-To-Speech Engine currently supports the following formats in 8KHz, 11KHz, and 16KHz sampling rates:

 Support of APIs VoiceText™ supports SAPI 5.1 and C-based Application Programming Interfaces (APIs).

그림 9) VoiceText Engine 블록도

⑤ Pros. : 한글 지원. API 뿐만 아니라 Application으로 엔진도 제공, single 로도 판매가 가능. 현재, 우리팀이 프로그램 보유함. ⑥ Cons. : 상용제품, 가) Windows : Windows CE 3.0 or higher. 나) Linux : custom 다) CPU : ARM 170 MHz, X-Scale, SH3, SH4, x86, MIPS (custom) 라) RAM : 6-16 MB 마) Database space : 16-128 MB

2.8 iSpeech ① URL : http://www.ispeech.org/ ② Provider : iSpeech ③ Screenshot :

2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 14

그림 10) iSpeech 홈페이지 화면 ④ Overview : iSpeech is a leading provider of cloud-based speech technology and mobile apps. Founded in 2007, the company began as a vision to help college students learn by enabling them to listen to text-based study materials. iSpeech® is a privately held company headquartered in Newark, NJ with offices in San Francisco and New York. The iSpeech API allows developers to implement Text-To-Speech (TTS) and Automated Voice Recognition (ASR) in any Internet enabled application. The API's are platform agnostic which means any device that can record or play audio and is connected to the Internet can use the iSpeech API. ⑤ Pros. : 한글 지원. API 뿐만 아니라 Application으로 엔진도 제공, single 로도 판매가 가능. ⑥ Cons. : 상용제품, ⑦ Requirements. : 가) Windows : Windows CE 3.0 or higher. 나) Linux : custom 다) CPU : ARM 170 MHz, X-Scale, SH3, SH4, x86, MIPS (custom)

2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 15 라) RAM : 6-16 MB 마) Database space : 16-128 MB

2.9 Power TTS ① URL : http://www.hcilab.co.kr/ ② Provider : HCILAB, 삼성종합기술원 계열사 ③ Screenshot :

그림 11) HCILAB 홈페이지 화면 ④ Overview : ㈜HCI Lab, 삼성의 중앙연구소인 삼성종합기술원에서 지난 10여 년간 축적된 기술을 바탕으로 설립된 회사. 1994년 국내 최초로 시각장애인용 컴퓨터를 개발한 이래, 휴대폰용 음성 다이얼링 시스템, PC용 음성명령 시스 템, 고품위 음성합성기, 얼굴/음성 동시 인식 출입관리 시스템 등 개발.

자연성과 명료성에서 한국어 최고 수준('98 국산신기술 인증)을 자랑하며, 정보의 내용이 계속 변화하는 증권, 기상, 뉴스, e-mail reader 등의 음성 정보 제공 서비스에 최적의 솔루션.

PC, PDA, Mobile phone, 등의 다양한 플렛폼에서 사용될 수 있는데, 우선 통신 분야에서 보면 전자우편, 문자 메시지 등을 읽어주는 UMS(Unified

2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 16 Messaging System)에서 응용되고 있고, 정보검색 분야에서는 웹문서, DB 검색 결과, 시스템 메시지 등을 음성으로 출력하는 음성 브라우징과 교육분야에서 는 음성 인식과 결합된 외국어 교육 시스템과 음성대화를 통해 진행하는 대화 형 교육시스템 등에 사용.

제품구성으로는 서버용 합성 엔진으로 구분되는 PowerTTS-Server, 개인용 PC를 위한 PowerTTS-PC, PDA와 같은 mobile device를 위한 PowerTTS- Embedded 가 구비 ⑤ Pros. : Mobile device용 응용 프로그램 개발을 위한 SDK. 한글 지원. Demo 시현은 성능 좋은 편. ⑥ Cons. : 기업용 상용 제품(B2B), Engine 단독 구입시 고가 비용 부담. ⑦ Requirements : 가) Windows : Win CE 나) Linux : Embedded Linux 다) CPU : 200MHz 라) RAM : 3MB 마) DB : 10M

2.10 Edu tool JSK ① URL : http://www.tts114.kr/ ② Provider : HCILAB, 삼성종합기술원 계열사 ③ Screenshot :

그림 12) Edu tool JSK 홈페이지 화면

2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 17 ④ Overview : 교육기관 서비스 중심 한국어, 영어, 중국어, 일본어 솔루션으로 어학교육용 온라인 TTS 제공 서 비스 제공.

서비스로는, 텍스트를 음원으로 만들어 주는 On Clean TTS Wave 와 PDF 또는 이미지 파일을 이용하여 음성 슬라이드 쇼를 구현하는 TTS Voice Point 2가지 프로그램이 있음.

기준 요금으로, 영어 경우 2원/바이트 이고 한국어는 4원/2바이트. ⑤ Pros. : 한글 지원이 되고 비교적 성능 좋음. 클라이언트 환경으로 프로젝트를 구현 시에 적합한 솔루션. 동작 방식은 웹에 접속하여 프로그램을 다운 받아 사용으로 간단. ⑥ Cons. : 반드시 네트워크 환경이 필요. 상용제품. 약정 금액에 따른 포인트 당 바이트 요금 계산. 사용방법 또는 환경에 관한 자세한 문서가 없음.

2.11 그 밖의 주요 상용제품들(PC기반)  ReadPlease 2003 ① URL : http://www.readplease.com/ ② Provider : ReadPlease Co. ③ Screenshot :

그림 13) ReadPlease 社의 ReadPlease 2003 제품 소개 화면

2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 18 ④ Overview : AT&T Natural Voice 를 호환한 제품으로, 임베디드 환경보다는 PC 환경에서 사용하는 무료 TTS 버전. 사용 환경도, windows xp 또는 windows vista 라서 제약이 있음.

 TextAloud ① URL : http://www.nextup.com/download.html ② Provider : NextUp Technology. ③ Screenshot :

그림 14) NextUp 홈페이지의 제품 다운로드 화면 ④ Overview : 이 역시 임베디드 환경 보다는 PC를 기반하는 TTS 상용 제품. 시험판(30일)으로도 제공하며, AT&T Natural Voices™, Nuance RealSpeak Voices, Acapela Voices, Cepstral™ Voices 그리고 Older Free Voices 으로 다 양한 회사의 목소리 자원을 추가적으로 선택하여 사용할 수 있다.

2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 19 3. 결론 3.1 총평 및 대안

조사 목적에 맞는 10개의 TTS와 임베디드 환경은 지원되지는 않지만 현 TTS 시장 에서 주요 제품 중 2개까지 총 12개의 TTS 자료를 조사했다.

조사 과정에서 생각보다 한글 보다는 영문, 무료 보다는 상용 특성의 제품이 다수 라서 조사 과정에서 여러 난관이 있었지만 데모 시현과 TTS 운영상태, 사용자들의 반응을 참고하면 월등히 무료 버전 보다는 상용 제품이 성능면으로나 유지보수 측면 에서 점수가 높게 평가할 수 있었다.

또한, TTS 시스템을 라이브러리나 API를 이용하여 제작하는 방향의 방식과 상용제 품을 포함한 기존의 엔진을 이용하는 방식 사이에서도 많은 고민이 있었다.

결국 팀원들과 토의와 시스템 아키텍쳐에 대한 새로운 고민을 한 끝에, 제작은 시 간적으로나 효율성면에서 불리하다는 판단을 했다.

따라서, 기존 엔진을 이용하여 H/W 임베디드 보드 단계에서 시스템적으로 연동을 할 수 있는 방향으로 결정과 함께 가급적 상용 제품을 구입하여 성능면에서도 향상된 작품이 나올 수 있도록 계획했다.

앞으로, TTS 엔진을 새로운 시스템에 연동시키고 원할 하게 사용할 수 있는 방식 을 연구해야 하며 관련 연구 분야 주제로 리눅스 커널, 시스템 함수, 부트로더, 엔진 이식 등으로 정했다. 물론 교수님과 지속적으로 긴밀하게 면담을 통해 해결해야 할 문제이다.

3.2 참고 문헌 및 출처

TTS 용어 개념, http://terms.co.kr/TTS.htm TTS 동향 게시판, http://www.borlandforum.com/impboard/impboard.dll?action=read&db=free&no= 15542 TTS 활용 블로그, http://www.waterhill.net/cate_tts/

2011 Capstone Design. 시각 장애인용 웨어러블 텍스트 인식 시스템, Kim’s Club TTS Survey 20