Aplicació De Tècniques De Generació Automàtica De La Parla En Producció Audiovisual
Total Page:16
File Type:pdf, Size:1020Kb
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Maig 2011 Investigador responsable: Francesc Alías Pujol Equip: Ignasi Iriondo Sanz Joan Claudi Socoró Carrié Lluís Formiga Fanals Alexandre Trilla Castelló VII convocatòria d‘ajuts a projectes de recerca sobre comunicació audiovisual (segons acord 96/2010 del Ple del Consell de l‘Audiovisual de Catalunya) La Salle – Universitat Ramon Llull Departament de Tecnologies Mèdia Quatre Camins, 30 08022 BARCELONA Consell de l‘Audiovisual de Catalunya (CAC) Sancho d‘Àvila, 125-129 08018 BARCELONA Agraïments Aquest estudi de recerca ha estat possible gràcies a l‘ajut concedit pel Consell de l‘Audiovisual de Catalunya en la VII convocatòria d‘Ajuts a projectes de recerca sobre comunicació audiovisual (segons acord 96/2010 del Ple del Consell de l‘Audiovisual de Catalunya). Volem agrair al Dr. Antonio Bonafonte de la Universitat Politècnica de Catalunya (UPC) per la cessió dels textos corresponents a les veus Ona i Pau del projecte FestCat, utilitzades en aquest treball. També volem agrair a les persones que han participat de forma desinteressada en l‘enquesta realitzada dins del marc del treball de camp realitzat, tant del món de l‘audiovisual com les persones amb discapacitat visual que han tingut l‘amabilitat d‘atendre les nostres qüestions. En especial, volem agrair la col·laboració de l‘Anna Torrens que, dins del marc del seu Treball Final de Carrera d‘Enginyeria Tècnica en Sistemes de Telecomunicació (La Salle, Universitat Ramon Llull) ha estat l‘encarregada de realitzar l‘estudi de camp anteriorment esmentat. ÍNDEX 1 Estat de la qüestió sobre la síntesi de veu ............................................................ 7 1.1 Introducció a la síntesi de veu ....................................................................... 7 1.2 Els components d‘un sintetitzador de veu ...................................................... 7 1.3 Síntesi per formants ...................................................................................... 9 1.4 Síntesi articulatòria ...................................................................................... 11 1.5 Síntesi concatenativa .................................................................................. 13 1.6 Síntesi estadística ....................................................................................... 17 1.7 Síntesi basada en models sinusoïdals ......................................................... 19 1.8 Síntesi híbrida ............................................................................................. 22 1.9 Síntesi expressiva ....................................................................................... 23 2 Implantació de la síntesi de veu en el món audiovisual a Catalunya ................... 25 2.1 Sistemes i usuaris ....................................................................................... 25 2.2 Sistemes de síntesi de veu en català .......................................................... 25 2.2.1 Universitats i centres de recerca .............................................................. 25 2.2.2 Empreses ................................................................................................ 27 2.2.3 Altres productes ....................................................................................... 29 2.3 Síntesi de veu per persones amb discapacitat visual................................... 29 2.3.1 Introducció ............................................................................................... 29 2.3.2 Deficiències en els òrgans de visió .......................................................... 30 2.3.3 Sistemes de síntesi per a persones amb discapacitat visual.................... 30 2.4 Treball de camp ........................................................................................... 33 2.4.1 Emissores de ràdio .................................................................................. 34 2.4.2 Televisions i productores ......................................................................... 39 2.4.3 Estudis de so, doblatge i postproducció ................................................... 42 2.4.4 Impressions del personal no tècnic .......................................................... 52 2.4.5 Usuaris amb discapacitat visual ............................................................... 55 2.4.6 Conclusions del treball de camp .............................................................. 96 3 Adaptació del sistema de síntesi de La Salle al català ...................................... 102 4 Experiments i resultats ...................................................................................... 103 4.1 Anuncis publicitaris .................................................................................... 105 4.2 Vídeos de notícies ..................................................................................... 107 5 Conclusions i línies d‘investigació futures ......................................................... 112 6 Bibliografia ........................................................................................................ 114 ÍNDEX D’ACRÒNIMS ACR – Del terme en anglès Absolute Category Rating API – Del terme en anglès Application Programming Interface, en català Interfície de Programació d'Aplicacions CCR – Del terme en anglès Comparison Category Rating CIDAT – Centro de Investigación, Desarrollo y Aplicación Tiflotécnica CMOS – Del terme en anglès Comparison Mean Opinion Score DCR – Del terme en anglès Degradation Category Rating DVD – Del terme en anglès Digital Versatile Disc ESCAC – Escola Superior de Cinema i Audiovisuals de Catalunya GNU – Del terme en anglès General Public License GPS – Del terme en anglès Global Positioning System, en català Sistema de Posicionament Global GTM – Grup de Recerca en Tecnologies Mèdia del centre La Salle - Universitat Ramon Llull JAWS – Acrònim de l‘aplicació Job Access With Speech HMM – Del terme en anglès Hidden Markov Models, en català Models Ocults de Markov HMM-TTS – Del terme en anglès Hidden Markov Model based Text-to-Speech, en català Conversió Text-Parla basada en Models Ocults de Markov HNM / HSM – Dels termes en anglès Harmonic plus Noise Model / Harmonic plus Stochastic Model (Model Harmònic amb Soroll o Model Harmònic Estocàstic, en català) IMEI – De l‘anglès International Mobile Equipment Identity, en català Identitat Internacional d‘Equip Mòbil MFCC – Del terme en anglès Mel Frequency Cepstral Coefficients, en català Coeficients Cepstrals en les Freqüències de Mel MOS – Del terme en anglès Mean Opinion Score NVDA – Acrònim de l‘aplicació NonVisual Desktop Access ONCE – Organización Nacional de Ciegos Españoles OCR – Del terme en anglès Optical character recognition, en català Recoeixement Òptic de Caràcters PDS – Processament Digital del Senyal PLN – Processament del Llenguatge Natural PSOLA – Del terme en anglès Pitch Synchronous Overlap and Add RENFE – Red Nacional de Ferrocarriles Españoles SMS – Del terme en anglès Short Message Service, o Servei de Missatges Curts en català TALP – Grup de Tecnologies i Aplicacions del Llenguatge i la Parla de la Universitat Politècnica de Catalunya TDT – Televisió Digital Terrestre TRUE – De l‘aplicació Testing platfoRm for mUltimedia Evaluation TTS – De Text-to-Speech en anglès, terme associat als Conversors Text-Parla UAB – Universitat Autònoma de Barcelona UCM – Universidad Complutense de Madrid UIT – Unió Internacional de Telecomunicacions UPC – Universitat Politècnica de Catalunya URL – Universitat Ramon Llull VoQ – De Voice Quality en anglès, en català Qualitat de la Veu XML – Del terme en anglès eXtensible Markup Language, o Llenguatge de Marques Extensible en català Anàlisi de la situació actual 1 Estat de la qüestió sobre la síntesi de veu 1.1 Introducció a la síntesi de veu La síntesi de veu o de la parla és la tècnica que permet generar automàticament una locució amb característiques similars a les d‘una veu humana a partir d‘un text d‘entrada. Sovint, els sistemes de síntesi de veu, es poden arribar a confondre amb els sistemes que fan un ús de veu gravada per la reproducció de missatges de veu, però cal tenir clar que, en general, la síntesi de veu es refereix a les tècniques que permeten generar qualsevol missatge oral. El text d'entrada pot provenir d'un correu electrònic, d'una web o bé pot ser escrit directament des d'un teclat. Algunes de les aplicacions típiques d'aquest tipus de sistemes són l'ajuda a discapacitats, suport per a l‘aprenentatge de llengües, aplicacions telefòniques, aplicacions multimèdia i interfícies persona-màquina en general. En aquest apartat es realitzarà una revisió de les diferents tècniques de síntesi de veu, començant abans per tractar els components bàsics d‘un sintetitzador de veu. Seguidament es veuran amb detall les tècniques de síntesi següents: - Síntesi per formants - Síntesi articulatòria - Síntesi concatenativa - Síntesi estadística - Síntesi basada el models sinusoïdals - Síntesi híbrida - Síntesi expressiva 1.2 Els components d’un sintetitzador de veu Lluny de voler imitar el procés real amb el que els humans generem la parla, existeix un model funcional que permet abordar, amb els recursos disponibles avui en dia, la Aplicació de tècniques de generació automàtica de la parla en producció audiovisual 7 Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull construcció d‘un sistema que converteixi un text d‘entrada qualsevol en la seva veu sintètica corresponent. Aquest model