Aplicació de tècniques de generació automàtica de la parla en producció audiovisual

Maig 2011

Investigador responsable: Francesc Alías Pujol Equip: Ignasi Iriondo Sanz Joan Claudi Socoró Carrié Lluís Formiga Fanals Alexandre Trilla Castelló

VII convocatòria d‘ajuts a projectes de recerca sobre comunicació audiovisual (segons acord 96/2010 del Ple del Consell de l‘Audiovisual de Catalunya)

La Salle – Universitat Ramon Llull

Departament de Tecnologies Mèdia Quatre Camins, 30 08022 BARCELONA

Consell de l‘Audiovisual de Catalunya (CAC)

Sancho d‘Àvila, 125-129 08018 BARCELONA

Agraïments

Aquest estudi de recerca ha estat possible gràcies a l‘ajut concedit pel Consell de l‘Audiovisual de Catalunya en la VII convocatòria d‘Ajuts a projectes de recerca sobre comunicació audiovisual (segons acord 96/2010 del Ple del Consell de l‘Audiovisual de Catalunya).

Volem agrair al Dr. Antonio Bonafonte de la Universitat Politècnica de Catalunya (UPC) per la cessió dels textos corresponents a les veus Ona i Pau del projecte FestCat, utilitzades en aquest treball. També volem agrair a les persones que han participat de forma desinteressada en l‘enquesta realitzada dins del marc del treball de camp realitzat, tant del món de l‘audiovisual com les persones amb discapacitat visual que han tingut l‘amabilitat d‘atendre les nostres qüestions. En especial, volem agrair la col·laboració de l‘Anna Torrens que, dins del marc del seu Treball Final de Carrera d‘Enginyeria Tècnica en Sistemes de Telecomunicació (La Salle, Universitat Ramon Llull) ha estat l‘encarregada de realitzar l‘estudi de camp anteriorment esmentat.

ÍNDEX

1 Estat de la qüestió sobre la síntesi de veu ...... 7

1.1 Introducció a la síntesi de veu ...... 7

1.2 Els components d‘un sintetitzador de veu ...... 7

1.3 Síntesi per formants ...... 9

1.4 Síntesi articulatòria ...... 11

1.5 Síntesi concatenativa ...... 13

1.6 Síntesi estadística ...... 17

1.7 Síntesi basada en models sinusoïdals ...... 19

1.8 Síntesi híbrida ...... 22

1.9 Síntesi expressiva ...... 23

2 Implantació de la síntesi de veu en el món audiovisual a Catalunya ...... 25

2.1 Sistemes i usuaris ...... 25

2.2 Sistemes de síntesi de veu en català ...... 25

2.2.1 Universitats i centres de recerca ...... 25

2.2.2 Empreses ...... 27

2.2.3 Altres productes ...... 29

2.3 Síntesi de veu per persones amb discapacitat visual...... 29

2.3.1 Introducció ...... 29

2.3.2 Deficiències en els òrgans de visió ...... 30

2.3.3 Sistemes de síntesi per a persones amb discapacitat visual...... 30

2.4 Treball de camp ...... 33

2.4.1 Emissores de ràdio ...... 34

2.4.2 Televisions i productores ...... 39

2.4.3 Estudis de so, doblatge i postproducció ...... 42

2.4.4 Impressions del personal no tècnic ...... 52

2.4.5 Usuaris amb discapacitat visual ...... 55

2.4.6 Conclusions del treball de camp ...... 96

3 Adaptació del sistema de síntesi de La Salle al català ...... 102

4 Experiments i resultats ...... 103

4.1 Anuncis publicitaris ...... 105

4.2 Vídeos de notícies ...... 107

5 Conclusions i línies d‘investigació futures ...... 112

6 Bibliografia ...... 114

ÍNDEX D’ACRÒNIMS

ACR – Del terme en anglès Absolute Category Rating API – Del terme en anglès Application Programming Interface, en català Interfície de Programació d'Aplicacions CCR – Del terme en anglès Comparison Category Rating CIDAT – Centro de Investigación, Desarrollo y Aplicación Tiflotécnica CMOS – Del terme en anglès Comparison Mean Opinion Score DCR – Del terme en anglès Degradation Category Rating DVD – Del terme en anglès Digital Versatile Disc ESCAC – Escola Superior de Cinema i Audiovisuals de Catalunya GNU – Del terme en anglès General Public License GPS – Del terme en anglès Global Positioning System, en català Sistema de Posicionament Global GTM – Grup de Recerca en Tecnologies Mèdia del centre La Salle - Universitat Ramon Llull JAWS – Acrònim de l‘aplicació Job Access With Speech HMM – Del terme en anglès Hidden Markov Models, en català Models Ocults de Markov HMM-TTS – Del terme en anglès Hidden Markov Model based Text-to-Speech, en català Conversió Text-Parla basada en Models Ocults de Markov HNM / HSM – Dels termes en anglès Harmonic plus Noise Model / Harmonic plus Stochastic Model (Model Harmònic amb Soroll o Model Harmònic Estocàstic, en català) IMEI – De l‘anglès International Mobile Equipment Identity, en català Identitat Internacional d‘Equip Mòbil MFCC – Del terme en anglès Mel Frequency Cepstral Coefficients, en català Coeficients Cepstrals en les Freqüències de Mel MOS – Del terme en anglès Mean Opinion Score NVDA – Acrònim de l‘aplicació NonVisual Desktop Access ONCE – Organización Nacional de Ciegos Españoles OCR – Del terme en anglès Optical character recognition, en català Recoeixement Òptic de Caràcters PDS – Processament Digital del Senyal PLN – Processament del Llenguatge Natural

PSOLA – Del terme en anglès Pitch Synchronous Overlap and Add RENFE – Red Nacional de Ferrocarriles Españoles SMS – Del terme en anglès Short Message Service, o Servei de Missatges Curts en català TALP – Grup de Tecnologies i Aplicacions del Llenguatge i la Parla de la Universitat Politècnica de Catalunya TDT – Televisió Digital Terrestre TRUE – De l‘aplicació Testing platfoRm for mUltimedia Evaluation TTS – De Text-to-Speech en anglès, terme associat als Conversors Text-Parla UAB – Universitat Autònoma de Barcelona UCM – Universidad Complutense de Madrid UIT – Unió Internacional de Telecomunicacions UPC – Universitat Politècnica de Catalunya URL – Universitat Ramon Llull VoQ – De Voice Quality en anglès, en català Qualitat de la Veu XML – Del terme en anglès eXtensible Markup Language, o Llenguatge de Marques Extensible en català

Anàlisi de la situació actual

1 Estat de la qüestió sobre la síntesi de veu

1.1 Introducció a la síntesi de veu

La síntesi de veu o de la parla és la tècnica que permet generar automàticament una locució amb característiques similars a les d‘una veu humana a partir d‘un text d‘entrada. Sovint, els sistemes de síntesi de veu, es poden arribar a confondre amb els sistemes que fan un ús de veu gravada per la reproducció de missatges de veu, però cal tenir clar que, en general, la síntesi de veu es refereix a les tècniques que permeten generar qualsevol missatge oral.

El text d'entrada pot provenir d'un correu electrònic, d'una web o bé pot ser escrit directament des d'un teclat. Algunes de les aplicacions típiques d'aquest tipus de sistemes són l'ajuda a discapacitats, suport per a l‘aprenentatge de llengües, aplicacions telefòniques, aplicacions multimèdia i interfícies persona-màquina en general.

En aquest apartat es realitzarà una revisió de les diferents tècniques de síntesi de veu, començant abans per tractar els components bàsics d‘un sintetitzador de veu. Seguidament es veuran amb detall les tècniques de síntesi següents: - Síntesi per formants - Síntesi articulatòria - Síntesi concatenativa - Síntesi estadística - Síntesi basada el models sinusoïdals - Síntesi híbrida - Síntesi expressiva

1.2 Els components d’un sintetitzador de veu

Lluny de voler imitar el procés real amb el que els humans generem la parla, existeix un model funcional que permet abordar, amb els recursos disponibles avui en dia, la

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual 7 Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull

construcció d‘un sistema que converteixi un text d‘entrada qualsevol en la seva veu sintètica corresponent. Aquest model funcional, estès i àmpliament acceptat per la comunitat dedicada a les tecnologies de la parla, és el que es descriu en el següent diagrama de blocs:

Fonemes i

Text PLN (Processament del prosòdia PDS (Processament Parla sintètica Llenguatge Natural) Digital del Senyal)

Fig.1.1. Model funcional d‘un sistema de conversió de text en parla.

Com es pot observar de la figura 1.1, en primer lloc tenim el bloc de Processament del Llenguatge Natural de la parla (PLN), que és l‘encarregat de trobar, a partir del text d‘entrada que es vol ―llegir‖, quina és la transcripció fonètica del text (és a dir, quins son els sons que s‘han de produir al llarg de la locució de sortida) i també quina ha de ser la prosòdia associada (com han de sonar cadascun d‘aquests sons, específicament sobre la seves característiques tant d‘entonació com de ritme). En segon lloc, apareix el bloc de Processament Digital del Senyal (PDS), que s‘encarrega de generar, a partir dels requeriments donats pel mòdul anterior, el senyal de parla sintètica de sortida.

El primer mòdul dins del PLN és el preprocessador, encarregat de normalitzar el text d'entrada de manera que els següents blocs interpretin correctament aquesta informació textual. En aquest preprocessament es realitzen tasques com la de passar de nombres a lletres o l‘expansió d'acrònims, és a dir, tractament en general del que es coneix com a Paraula no Estàndard (Non-Standard Word) (Sproat et al., 1999) de la llengua d'interès. A continuació el text es passa per l'analitzador morfosintàctic que s'encarrega de subdividir els textos en grups sintàctics, per, una vegada analitzats, aplicar-los el procés de conversió grafema-fonema. Finalment s'obté informació prosòdica (intensitat, durades i freqüència fonamental) de les unitats fonètiques que corresponen al text d'entrada. A part d'aquesta informació prosòdica, el mòdul de PLN pot complementar aquesta informació amb d‘altra que

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual 8 Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull

ajudi a millorar la naturalitat de la veu sintètica, com per exemple, incorporant atributs associats al que es coneix com la qualitat de la veu o VoQ (de Voice Quality, en anglès), que ajudarien a modular aspectes de la veu associats a la emoció (Monzo, 2010).

Si bé el bloc de PLN té característiques força similars entre diferents sistemes de síntesi de la parla, sovint és el mòdul de PDS el que marca les principals diferències entre sistemes. Les diferents estratègies per a generar veu sintètica es poden classificar segons la següent taxonomia: síntesi per formants, síntesi articulatòria, síntesi concatenativa, síntesi estadística o basada en Models Ocults de Markov, síntesi basada en models sinusoïdals i síntesi híbrida. També darrerament, la comunitat científica està fent esforços per mirar d‘assolir graus de naturalitat majors per mitjà del que es pot denominar síntesi expressiva, i que més enllà de representar una nova tècnica de síntesi en si, representa tot un conjunt de millores o metodologies en disseny dels sistemes ja existents per a permetre dotar de més expressivitat a les veus sintètiques generades.

1.3 Síntesi per formants

La síntesi per formants va ser la primera tècnica de síntesi que es va desenvolupar i va ser la dominant fins a principis dels anys 80. La síntesi per formants, també coneguda com a síntesi per regles (en anglès, synthesis-by-rule), és una tècnica en la que el procés per generar la parla sintètica no fa servir formes d‘ona prèviament enregistrades. Al contrari, aquest procés es basa en la generació del senyal a partir d‘un control paramètric d‘un model de tipus filtre més excitació. Aquest model és un dels més estesos a l‘hora d‘imitar el comportament de la parla humana, tant des de la perspectiva de la síntesi de veu com de la codificació de la veu. Els paràmetres involucrats permeten especificar les característiques tant del senyal d‘excitació (freqüència fonamental, tipus de sonoritat dels fonemes, etc.) com del filtre que emula el comportament del tracte vocal. El nom de la tècnica prové justament del control de les ressonàncies típiques del tracte vocal, també anomenades formants.

La síntesi per formants adopta l'enfocament al problema de la síntesi de forma modular, basant-se en un model acústic i fonètic. Generalment es fa ús d'un model acústic de tub d'una manera particular, ja que els elements de control del tub es poden

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual 9 Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull

relacionar fàcilment amb propietats acústiques i fonètiques. El senyal d‘excitació és un senyal de tipus periòdic per als sons sonors i és de tipus sorollós (soroll blanc) quan es volen generar sons sords. El filtre està format per tres subsistemes, que són la part que modela la cavitat nasal, la que modela la cavitat oral i finalment l‘efecte de radiació dels llavis. El senyal d‘excitació s'introdueix en el model de tracte vocal, diferenciant el modelat de les cavitats oral i nasal, de manera que el senyal pugui passar per aquesta última només en el cas que el so requerís de ser nasalitzat. Finalment, la sortida d'aquestes components es combina i es passa a través d'una component de radiació que simula les característiques de radiació dels llavis i del nas.

Els formants es modelen individualment, permetent així un control més acurat de les característiques ressonants del tracte vocal. Aquest control independent permet establir configuracions apropiades a partir d‘anàlisis de senyals de veu reals, mitjançant l‘ús d‘espectrogrames de veu. Les components de la cavitat oral solen estar formades per entre 3 a 6 ressonadors de formant individual i en sèrie, essent cada ressonador un filtre de segon ordre.

Pel que fa a implementacions de síntesi per formants, els primers sistemes de síntesi varen ser el Parametric Artificial Talker (PAT) desenvolupat al 1953 per Walter Lawrence, i el sistema OVE II per Gunnar Fant i el seu equip. El sintetitzador Klatt (Klatt, 1980) és un dels sintetitzadors per formants més sofisticats, incloent tant un ressonador en paral·lel com en cascada. Va ser configurat per treballar a 10 KHz utilitzant 6 formants principals. És interessant apreciar el fet que en la majoria de la bibliografia relacionada amb la síntesi per formants s'usa una freqüència de mostreig de 8 KHz o 10 KHz, degut principalment a requeriments d'espai, velocitat i sortida que impedien l‘ús d‘altes velocitats. Per tant, en el cas que es necessitin freqüències de mostreig elevades, aquest nombre pot ser fàcilment modificat. Amb tot això, generalment els tres primers formants són els més utilitzats pels oients per discriminar sons, mentre que els formants de freqüències més elevades es fan servir simplement per donar més naturalitat a la parla. El sintetitzador DECtalk ha estat un dels sistemes comercials de síntesi més usats al segle XX, el qual es pot trobar en el sistema que fa servir el reconegut científic Stephen Hawking.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual 10 Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull

L'avaluació general de la síntesi per formants és que és intel·ligible, o també es diu que "té un so net", encara que està lluny de ser natural. Això es deu principalment al fet que tant el model en que es basa així com les trajectòries dels paràmetres de control són sovint són massa simplistes, deixant de banda moltes de les subtileses que realment estan implicades en la dinàmica de la parla. Mentre les formes de les trajectòries dels formants es poden mesurar amb un simple espectrograma, el procés subjacent és un procés força complex en el que intervenen el control motor i el moviment muscular dels òrgans articuladors. Tot i que cada articulador pot moure's d'una manera bastant simple, quan es combinen dins del sistema global aquest és altament complex, complicant més l'efecte del tracte vocal sobre el pas de la forma d'ona font. Finalment, les assumpcions fetes sobre la naturalesa del model de tracte vocal, amb la consegüent falta de precisió, es van sumant i acaben per afectar el model global. Malgrat els efectes adversos per les simplificacions realitzades, aquests poden ser evitats per mitjà de la manipulació dels valors fora de la seva interpretació natural. És a dir, mentre que una manipulació apropiada del sintetitzador per formants pot produir parla molt natural, això provoca haver d'usar els paràmetres de forma poc habitual, complicant la seva interpretació. Per tant, tal i com es pot observar, hi ha un conflicte real entre tenir un model fàcilment controlable i un altre que produeixi una parla sintètica d'alta qualitat.

La síntesi per formants va ser relegada a un segon pla a partir del 1985 quan la tècnica de síntesi concatenativa emergia amb força com una tècnica més viable per assolir el disseny de sintetitzadors de veu de major qualitat, que reflectissin millor tota la complexitat de la parla humana. No obstant, treballs recents han mirat de fusionar aquestes dues tècniques de síntesi, la síntesi per formants amb la síntesi concatenativa (Carlson, 2002; Ohlin i Carlson, 2004).

1.4 Síntesi articulatòria

Possiblement la forma més òbvia de sintetitzar parla és la d'intentar simular directament la producció de la parla humana. És a aquest enfocament al que s'ha anomenat síntesi articulatòria, sent el més antic dels plantejaments, ja que la coneguda "Màquina parlant" de von Kempelen (1791), descrita per Dudley i Tarnoczy (1950), pot ser vista com un sintetitzador articulatori (Taylor, 2009).

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual 11 Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull

En l'actualitat, la síntesi articulatòria s'aborda des d'una perspectiva diferent com és lògic, ja que no té sentit que sigui necessari que algú estigui controlant un dispositiu mecànic. Molts sintetitzadors moderns són extensions dels models acústics de tubs, i es poden construir models generals complexos a partir del coneixement de les propietats de propagació del so.

Existeixen principalment dues dificultats en la síntesi articulatòria. En primer lloc, la decisió de com generar el control de paràmetres des de les especificacions (és a dir, com governar el control dinàmic dels articuladors del model a partir del text a sintetitzar), i en segon lloc trobar el punt mig entre un model altament precís que s'ajusti fidelment a la fisiologia humana i un model més pragmàtic, més senzill de dissenyar i de controlar. El primer problema és similar al que ocorre en la síntesi per formants. Però en aquella, en molts casos encara que no en tots, és senzill trobar els valors dels formants de la parla real, ja que simplement s'ha de gravar la parla, calcular l'espectrograma i determinar el valor dels formants a partir de mesures empíriques. El problema en síntesi articulatòria és considerablement més complex, ja que no es poden esbrinar els paràmetres articulatoris a partir d'enregistraments, sinó que s'han d'utilitzar mesures més invasives com ara la fotografia de raigs X, Imatge per Ressonància Magnètica (en anglès, Magnetic Resonance Imaging o MRI) o Articulografia Electromagnètica (en anglès, Electromagnetic Articulagraphy o EMA), amb el consegüent problema de recopilació d‘informació associat pel fet que moltes de les tècniques d‘adquisició de dades són molt recents, i per tant, no existien en els inicis de la síntesi articulatòria, sent particularment complicada la seva adquisició en aquells temps. El segon dels problemes es refereix a com de precís hauria de ser el nostre model d'articulació. En el model de tubs sempre hi ha un compromís entre l‗eficiència del model (si els resultats que proporciona són fidels a la realitat) i el grau de simplicitat alhora de controlar-lo. Els models més actuals inclouen modelatge de pèrdues del tracte vocal, interaccions entre la font i el filtre, la radiació dels llavis i característiques glòtiques (Manzara, 2005). A més, molts dels models han pretès ser tant models de tracte vocal com de control, i disposen de models tant per al moviment dels músculs com de control motor.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual 12 Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull

Ambdós problemes presentats comporten una considerable dificultat, ja que la millor síntesi articulatòria encara és pobra si la comparem amb la millor síntesi usant altres tècniques. A causa d'això s'ha anat abandonant com a tècnica de generació de parla d'alta qualitat en l'àmbit de l'enginyeria, amb finalitats més pràctiques. No obstant això, encara que l‘enfocament articulatori podria no ser una bona solució d'enginyeria en termes de conversió de text a parla, segueix despertant interès en altres disciplines relacionades. Primer de tot, hi ha un considerable interès en el camp de la producció de parla, on es discuteix si el domini articulatori és el domini natural, i més correcte, per a la producció de la parla, i per tant, ajuda a explicar la organització sistemàtica dels nivells més elevats d'aquesta. Per exemple, la fonologia articulatòria (Browm i Goldstein, 1986) està basada en la idea de "gestos articulatoris" com primitives fonològiques més que característiques basades en segment (Taylor, 2009). El treball de Boersma (1998) es distingeix també per desenvolupar un teoria de fonologia juntament amb un sintetitzador articulatori. Un segon camp d'interès relacionat és la "fisiologia articulatòria" on la meta és crear models complets del moviment articulador. En aquest cas, l'èmfasi ve donat per intentar modelar articuladors específics o efectes amb precisió, més que per construir un model aproximat, o enllaçar aquest amb un model lingüístic o fonètic (Wilhelms-Tricarico, 1995; Vatikiotis-Bateson i Yehia, 1997). Finalment, la síntesi articulatòria està implícitament connectada amb el camp de la síntesi audiovisual o síntesi de caps parlants (talking heads, en anglès), on la idea principal és la de construir un model visual complet del cap mentre es parla. Aquests caps parlants poden ser construïts directament mitjançant el modelatge dels articuladors o bé utilitzant dades reals a partir de fotografies o vídeos i tècniques de morphing per crear l'animació (Kröger i Birkholz, 2009).

1.5 Síntesi concatenativa

La síntesi concatenativa es basa en la generació de la parla sintètica usant, en temps de síntesi, petites porcions de senyals de veu gravades. Durant anys, la síntesi concatenativa, i especialment la basada en concatenació de difonemes i trifonemes, ha estat la més utilitzada en el desenvolupament de sistemes de conversió text a parla, gràcies a la gran naturalitat que permeten reproduir en el senyal de parla generat (Taylor, 2009). El fet que s‘usin senyals de veu gravats per a realitzar el procés de síntesi permet aproximar-se d‘una forma més eficaç a la naturalitat pròpia de la parla humana. No obstant, la síntesi concatenativa té el gran repte de generar

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual 13 Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull

concatenacions d‘aquests senyals bàsics que no provoquin artefactes que facin degradar massa la qualitat final. Si bé les primeres tècniques de síntesi concatenativa es basaven en usar petites bases de dades de veu enregistrada, fet que provocava que aquests artefactes fossin força audibles alhora que la parla generada era lluny de semblar humana, en els darrers temps els sistemes concatenatius utilitzen grans bases de dades, i aquesta gran diversitat de mostres de veu real permet no només minimitzar la presència d‘aquests artefactes sinó també assolir una qualitat i naturalitat molt propera a la de la parla humana.

Rex Dixon i David Maxey van fer al 1968 la primera aproximació a la síntesi concatenativa amb difonemes parametritzats amb els seus formants característics. Però no va ser fins al 1985, amb el desenvolupament de la tècnica Pitch Synchronous Overlap and Add (PSOLA) per Charpentier i Moulines, que permetia realitzar modificacions prosòdiques sobre un senyal de veu convenientment etiquetat, que la síntesi concatenativa va començar a prendre un paper clau en els sistemes de síntesi de veu. Encara avui en dia és una de les tècniques dominants en els sistemes de síntesi de veu.

Fonemes i Text PLN (Processament del prosòdia PDS (Processament Parla sintètica Llenguatge Natural) Digital del Senyal)

Base de Dades

Fig.1.2. Diagrama de blocs d‘un sistema de síntesi concatenativa.

El problema fonamental que presentaven els primers sistemes de síntesi concatenativa va ser que els corpus de veu (o base de dades de senyals de veu que conforma el conjunt d‘unitats que el sistema por seleccionar en temps de síntesi per a generar el senyal de sortida) només es disposava d‘una realització per unitat, és a dir

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual 14 Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull

que cada unitat es va gravar només una vegada i amb una freqüència fonamental concreta (vegeu el diagrama de blocs d‘un sistema de síntesi concatenativa a la figura 1.2). Normalment la gravació del corpus es realitza utilitzant frases portadores de les quals se selecciona la unitat d'interès o mitjançant paraules buides (Black i Lenzo, 2001). Els problemes fonamentals que presenta aquesta tecnologia són:

- Modificació prosòdica. Quan la prosòdia indicada pel bloc PLN difereix en excés de la prosòdia emmagatzemada en el corpus. En aquest cas, els canvis prosòdics que han de patir les unitats provoquen un descens de la naturalitat de la senyal sintètica resultant, i per tant de la qualitat de síntesi percebuda. Per a minimitzar aquest problema és necessari disposar d'una gran varietat de les mateixes unitats gravades, variant els diferents contextos on aquestes es trobin (tant des del punt de vista prosòdic, lingüístic com fonètic). - Concatenació d'unitats. Durant el procés de síntesi dut a terme pel bloc de PDS s'han d'unir les unitats que han estat modificades prosòdicament (durada i entonació). Si només es disposa d'una realització per unitat i, en canvi, hi ha diferents contextos on es poden trobar (fonemes que tinguin davant i darrere o context esquerre i dret), les possibles unions entre unitats, sense tenir en compte les restriccions del llenguatge, seran tantes com el nombre d'unitats a sintetitzar menys una. Per tant hi haurà un elevat nombre de concatenacions que quan es produeixin no arribaran a ser tan naturals com el procés fisiològic que les generaria en la parla natural, tot i la bondat de l'algorisme de concatenació utilitzat. En definitiva, la falta de contextos en el corpus així com la impossibilitat de generar coarticulacions més reals provocarà discontinuïtats espectrals. Utilitzant més realitzacions per a cadascuna de les unitats fonètiques, és probable que es trobin contextos més semblants al desitjat de manera que la qualitat de les concatenacions es vegi incrementada.

Per tant, el senyal sintètic d'un sistema de conversió text a parla basat en difonemes presenta una naturalitat baixa deguda a l'elevat nombre de punts de concatenació possibles (Möbius, 2000). Per aquest motiu, quan la tecnologia va permetre la creació i gestió de bases de dades (corpus) més grans, es va canviar d'estratègia passant a treballar amb corpus que consideraven unitats de durada variable. Els primers treballs en síntesi basada en unitats de longitud variable van ser desenvolupats pel grup

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual 15 Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull

Advanced Telecommunications Research Institute International (ATR) (Sagisaka, 1988; Takeda et al., 1990; Sagisaka et al., 1992), mentre que en paral·lel, en la mateixa institució, es va desenvolupar el treball que donaria nom a la nova estratègia de síntesi: la selecció d'unitats (Black i Campbell, 1995; Hunt i Black, 1996).

Arribats a aquest punt, passem a veure les característiques generals de la síntesi basada en selecció d'unitats: 1. Es disposa d'un corpus de veu amb un elevat nombre de repeticions, per a cada una de les unitats considerades (p. ex. difonemes i trifonemes), obtenint així gran diversitat acústica. 2. Se selecciona la seqüència d'unitats del corpus amb la millor concatenació possible i que millor s'ajusti a les característiques prosòdiques de la seqüència d'unitats a sintetitzar, informació obtinguda pel bloc de PLN en temps d'execució. Altres alternatives a la selecció de les unitats basada en trobar la seqüència més llarga o que conté menor nombre de concatenacions no naturals pot ser una ponderació de pesos de manera que la que generi una millor síntesi sigui la triada. 3. Es minimitza el nombre de punts de concatenació i la necessitat de modificació prosòdica del senyal, augmentant d'aquesta manera la naturalitat de la senyal generada.

Fonemes i Text PLN (Processament del prosòdia PDS (Processament Parla sintètica Llenguatge Natural) Digital del Senyal)

Selecció d‘Unitats

Base de Dades

Fig.1.3. Diagrama de blocs d‘un sistema de síntesi concatenativa per selecció d‘unitats.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual 16 Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull

Resumint, i com es pot veure al diagrama de la figura 1.3, en l'arquitectura d‘un sistema de conversió text a parla basat en selecció d'unitats, d'una banda s'incorpora una base de dades (corpus) més gran que la d‘un sistema basat en difonemes, i d'altra banda s'incorpora un mòdul encarregat de seleccionar la cadena òptima d'unitats en temps d'execució (mòdul de selecció d‘unitats).

1.6 Síntesi estadística

A partir de mitjans de la dècada dels 90 sorgí una nova tècnica de síntesi que s‘aprofitava dels avenços realitzats en l‘àmbit de l‘aprenentatge artificial, especialment de les tècniques d‘aprenentatge a partir de grans bases de dades. La síntesi estadística és un tipus de síntesi de veu basada en els coneguts models ocults de Markov (en anglès, Hidden Markov Models o HMM), més usats fins al moment en l‘àmbit del reconeixement de la parla, i que permeten modelar processos seqüencials de forma probabilística a partir del seu entrenament amb grans bases de dades de veu. Aquest tipus de síntesi s‘inicia a partir del treball pioner de Tokuda (Tokuda et al., 1995), i sorgeix com una alternativa per tal de superar algunes de les limitacions que tenen els sistemes de síntesi concatenativa. Entre elles cal destacar especialment el fet de donar una qualitat de síntesi més estable o la possibilitat de simplificar la generació de noves i diverses veus (Yoshimura et al., 2000). El model generatiu, a diferència del sistema basat en la concatenació, es basa en l‘ús d‘un mòdul usat per a la descodificació de veu (vocoder, en anglès) el qual és controlat o guiat per mitjà del model estadístic, que s‘encarrega de generar unes seqüències de paràmetres que permeten sintetitzar el senyal de parla.

Els principals interessos que hi ha respecte als sistemes de conversió de text a parla són: per un banda, augmentar la qualitat sintètica i, lligat amb això, aconseguir una gran naturalitat del senyal de veu en aplicacions de propòsit general (síntesi de qualsevol text d‘entrada). La síntesi concatenada, especialment en dissenys de domini restringit com el presentat per Alías et al. (2005), presenta inconvenients quan s'intenta utilitzar fora del domini per al qual va ser dissenyada. Aconseguir noves gravacions té un elevat cost, tant en temps com en diners, ja que es requereix el disseny de nous textos, la gravació i l'etiquetatge del corpus, entre d'altres.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual 17 Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull

Per contra, els sistemes de síntesi estadística basats en Models Ocults de Markov, o també conegut com a Hidden Markov Model based Text-to-Speech (HMM-TTS), tenen com a principal característica la capacitat de modelar veus per tal de sintetitzar diferents característiques del locutor, estils de locució i expressivitats o emocions (Yoshimura et al., 2000; Tamura et al., 1998). A més, en el cas d'aplicar transformació de veu a través de síntesi concatenada, encara implica grans corpus en comparació a la basada en HMM, la qual obté millors resultats amb corpus menors (Yoshimura et al., 1999). Per altra banda, l'ús de HMM per a síntesi de la parla pot ser usat en nous sistemes avançats que facin ús també del concepte de la selecció d'unitats, permetent d'aquesta manera que s'unifiquin ambdues estratègies i s'aprofitin els avantatges de les seves característiques particulars (Taylor, 2006), disposant així d'un sistema híbrid de síntesi (vegeu l‘apartat 1.8). Un dels primers sistemes híbrids que es va proposar és el sintetitzador d‘IBM (Donovan at al., 1995). Darrerament la comunitat científica està intensificant la recerca en solucions que combinin el realisme dels sistemes de síntesi concatenativa amb selecció d‘unitats i la flexibilitat i facilitat d‘adaptació dels sistemes basats en síntesi estadística (Gonzalvo, 2010).

Un sistema de síntesi basada en HMM acostuma a tenir tres estats per cada fonema, utilitza coeficients anomenats Mel Frequency Cepstral Coefficients (MFCC) juntament amb els delta i delta-delta (primera i segona derivada dels coeficients respectivament), i utilitza models basats en context amb estats enllaçats determinats per agrupació d'un arbre de decisió (Gonzalvo, 2010). La noció de context en HMM-TTS es modela mitjançant les característiques pròpies de cada fonema segons el context fonètic en el què es troba, i així es disposa d'un model per a cadascuna d‘aquestes descripcions. Aquest procés pot obtenir alguns milions de models potencials, dels quals només uns pocs milers hauran estat observats en les dades d‘entrenament.

La síntesi de la parla es porta a terme mitjançant la generació d'un HMM a nivell de frase usant els models HMM individuals dels fonemes contextuals que millor encaixen amb l'especificació (text d‘entrada). Si una combinació de característiques no hagués estat observada durant l'entrenament, però és requerida en el moment de realitzar la síntesi, es selecciona el millor model disponible fent ús d‘un arbre de decisió que agrupa els fonemes contextuals per similituds. A partir del HMM a nivell de frase es

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual 18 Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull

generen les seqüències d'observacions més probables dels paràmetres que formaran part tant de l‘excitació com del tracte vocal d‘un sistema vocoder. La clau en la síntesi basada en HMM és realitzar observacions que obeeixin a les dinàmiques d'estat. Aquestes dinàmiques són convenientment recollides dins dels models gràcies a la mesura de les velocitats i de les acceleracions dels coeficients espectrals que modelen el tracte vocal (o també anomenats coeficients delta i delta-delta). En primer lloc, això assegura que dins d'un model la trajectòria d'un coeficient concret està gairebé sempre evolucionant, de manera que no es veuen salts de coeficients en els límits dels estats. En segon lloc, aquestes mateixes restriccions dinàmiques s‘apliquen a l'estat de transició entre models de fonema, d'aquesta manera s'assegura la suavitat en les transicions fonema a fonema (Zen et al. 2009). Aquesta solució és particularment hàbil i evita la idea de cost d'unió en síntesi basada en HMM.

L‘ idioma és un altre aspecte important quan es dissenya un sistema de conversió de text a parla. L‘esquema d‘un sistema HMM-TTS basat en factors contextuals per agrupació (clustering) pot ser usat per a qualsevol llengua, com mostra Tokuda et al. (2002) per a l‘anglès, S. Maia et al. (2003) per al portuguès o Gonzalvo et al. (2007) per al castellà. Els fonemes, unitats bàsiques de síntesi, i els seus parells contextuals formats per l‘atribut i el seu valor, com per exemple el nombre de síl·labes en la paraula o la seva accentuació, són la principal informació que canvia d'una llengua a una altra. També, la síntesi de veu basada en HMM és força útil per a la construcció de sistemes de síntesi políglotes, és a dir, sistemes que siguin capaços de generar veu en diferents llengües a partir d‘un corpus de veu enregistrat en una única llengua (Latorre et al. 2006). Això és particularment útil gràcies a la facilitat que la síntesi paramètrica ofereix per adaptar les característiques de la veu original a una altra veu destí.

1.7 Síntesi basada en models sinusoïdals

Una altra tècnica de síntesi de veu, que té la particularitat d‘usar un model paramètric de les dues components bàsiques del senyal (la part sonora i la part sorda) és la que fa ús del model Model Harmònic amb Soroll (Harmonic plus Noise Model – HNM, o Harmonic plus Stochastic Model – HSM) (Laroche et al., 1993; Stylianou et al., 1995). El seu ús específic per al desenvolupament de sistemes de conversió de text a parla es va presentar en el treball de Stylianou (1998b). Com el propi nom suggereix, el

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual 19 Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull

model parteix de la idea que la parla està formada per una component determinista (harmònica, associada a la part sonora de la veu) i una altra estocàstica (soroll, associat a la part més sorda). El principal avantatge que ofereix aquest model és precisament la possibilitat de manipular el senyal, modificant característiques com són la seva durada, el pitch o freqüència fonamental (F0), i fins i tot el tracte vocal o l‘energia del senyal, de forma independent i sense degradar de forma significativa el senyal (Erro, 2008). Tot això situa a aquesta tècnica de representació com una eina que permet donar major flexibilitat alhora de modificar les característiques particulars de les unitats acústiques en un sistema de síntesi concatenativa que faci ús de la selecció d‘unitats (en l‘etapa de processament del senyal). Aquesta major flexibilitat permet que les unions siguin més suaus i provoquin menys artefactes audibles en el senyal de sortida, alhora que també permet adaptar millor la prosòdia desitjada (estimada pel mòdul de PLN). Un altre aspecte a destacar, és la possibilitat d‘aplicar mètodes de conversió de veu per tal d‘obtenir diverses veus a partir d‘un únic corpus de veu per a la síntesi, només amb el suport de petits corpus per a adaptar la veu original a les veus destí que es vulguin aconseguir, com per exemple es descriu en (Erro et al., 2010a; Stylianou et al., 1998a).

En les primeres etapes de l'anàlisi del model HNM es realitza la classificació de zones sonores i sordes, que estableixen els paràmetres de les components determinista i estocàstica, així com les aportacions de cada una de les components a cada trama del senyal analitzada. Primer s'estima el pitch i a partir d'aquí es porta a terme una anàlisi que pot ser pitch sincrònica o de cadència constant (pitch asíncrona). La localització dels períodes de pitch és necessària per a realitzar una anàlisi prou resolutiva en ambdós dominis (temps i freqüència) per tal de poder reconstruir tots els detalls del senyal (per exemple, per poder obtenir una resíntesi del senyal quasi bé indistingible de l‘original). El segueix el modelatge harmònic utilitzant una freqüència fonamental (F0) estimada a partir del marcatge de pitch per a cadascuna de les trames de veu obtingudes del procés d‘anàlisi. A partir d‘aquesta anàlisi es troba l'error entre la parla generada pel model i la forma d'ona real. Les trames amb una component harmònica elevada tindran un error menor, mentre que en les més sorolloses l'error serà més elevat. En aquelles zones considerades sonores es pot determinar la màxima freqüència harmònica, que delimitarà la regió freqüencial harmònica de la regió on és només present la component de soroll.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual 20 Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull

La component determinista es modela com una suma harmònica de sinusoides que queda representada per les seves amplituds, fases i freqüències. El procés d‘estimació de la part determinista es basa en una estimació per mínims quadrats en la que es minimitza l‘error entre una trama de durada dos períodes de pitch del senyal de veu i el model estacionari a curt termini de la component harmònica (Depalle et al., 1997; Erro, 2008). Un dels primers passos és l‘estimació de la màxima freqüència harmònica, que es pot definir com un paràmetre variable en el temps, tot i que en alguns treballs es demostra que treballar amb una màxima freqüència harmònica fixa permet assolir qualitats de resíntesi prou bones (Erro, 2008). La component de soroll es modela com un procés autoregressiu, és a dir, com la sortida d‘un filtre al qual se li entra soroll blanc Gaussià que es pondera amb una funció que controla l‘energia del senyal. L‘estimació de la component de soroll es realitza a partir del senyal d‘error generat com la resta del senyal de veu original i la síntesi de la part harmònica regenerada a partir de l‘estimació de les amplituds, freqüències i fases en cada trama d‘anàlisi. Una vegada calculada aquesta diferència, s‘estimen els coeficients del filtre tot pols (model autoregressiu) i el factor de ponderació energètic per cada trama de soroll (en aquest cas, les trames són de durada constant, de entre 5 i 10 ms) fent una anàlisi per predicció lineal.

El procés de resíntesi es basa en composar el senyal a partir de la generació de les trames de cada component, a la mateixa cadència que han estat originalment analitzades. Per la component harmònica es regenera el senyal seguint un procés similar a la tècnica TD-PSOLA (Moulines i Charpentier, 1990) fent ús de finestres triangulars amb un solapament del 50%. Per la component de soroll, el procés de generació es basa en modificar els coeficients del filtre invers al de predicció lineal en l‘anàlisi (ara, filtre tot pols) alhora que es modifiquen també els pesos de ponderació energètica de la sortida, realitzant un filtratge continu del soroll blanc Gaussià que hi ha a l‘entrada.

La flexibilitat del model HNM permet que es puguin realitzar modificacions tant de temps com de to de forma directa, modificant la posició de les marques de síntesi (on s‘ubiquen les trames de senyal generades amb els paràmetres obtinguts per cada finestra d‘anàlisi) pel primer cas, i modificant la freqüència fonamental de la sèrie

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual 21 Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull

harmònica pel segon. Aquests processos requereixen d‘uns ajustos de fase dels harmònics de la component sonora per tal d‘adaptar les continuïtats de fase entre trames adjacents i no introduir artefactes sonors. La modificació del tracte vocal, en el cas de voler usar alguna tècnica de conversió de veu, implica la manipulació de les amplituds i les fases de la component harmònica abans de procedir a la resíntesi usant el que s‘anomenen funcions de conversió (Erro, 2010a; Stylianou et al., 1998a).

1.8 Síntesi híbrida

La síntesi híbrida és aquella en què es combinen aspectes de la síntesi paramètrica i de la concatenativa, en general. Tot i que la síntesi per formants ha estat una de les tècniques paramètriques més usada, amb l'auge dels sistemes de síntesi basats en models sinusoïdals (HNM) o estadístics (HMM), la comunitat científica està intensificant la combinació de solucions paramètriques amb la síntesi concatenativa. Amb aquesta unió de metodologies es busca minimitzar els defectes acústics deguts a la concatenació de segments, alhora que busca obtenir sistemes de síntesi de veu més versàtils i flexibles. Un dels punts febles de la síntesi concatenativa és la necessitat de grans bases de dades per a permetre una síntesi sense artefactes audibles. Per poder generar la parla amb bona qualitat s'ha de disposar de les unitats apropiades, qüestió que fa especialment costosa les fases de producció i etiquetat del corpus . Per una banda, es necessitaran els difonemes i/o trifonemes, en funció de la llengua d'interès, per donar la màxima cobertura fonètica possible, i per altra, si cal donar una bona cobertura prosòdica (per disposar d‘un sistema de síntesi més expressiu), el nombre d'unitats necessàries pot disparar-se. Disposar no només de diverses realitzacions de cada unitat fonètica, sinó de les suficients com per a cobrir tots els contextos fonètics en que aquestes es produeixen per a un idioma determinat, és un dels factors que fa necessari disposar de grans bases de dades per a la síntesi concatenativa de bona qualitat. A més, si es vol disposar de diverses expressivitats en la síntesi, aquest requeriment es fa encara més exigent, ja que és necessari incorporar unitats en els nous contextos que donin la cobertura expressiva demanada (variant, per exemple, la forma d‘entonació per a cada tipus d‘expressivitat que es vulgui sintetitzar). És per aquesta raó que, si la base de dades no reflexa la diversitat fonètica i prosòdica necessària, la impossibilitat de poder recuperar en temps de síntesi el conjunt d‘unitats apropiades produirà l‘aparició d‘errors de concatenació que afectaran negativament la qualitat de la síntesi. Pel que fa a l'enfocament paramètric, els

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual 22 Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull

sistemes de síntesi híbrids ofereixen, d'una banda, una solució atractiva a aquest problema de necessitat de grans bases de dades. En primer lloc, com la veu es sintetitza amb paràmetres a partir d'un model, no hi ha errors de concatenació, i es minimitza la presència d‘artefactes. En segon lloc, pel fet que la veu deriva d'un model paramètric és possible usar tècniques d'adaptació de locutor per tal de construir noves veus a partir d‘una veu genèrica prèvia i un petit corpus que reflecteixi les característiques de la nova veu (Tamura et al., 1998). D'altra banda, els desavantatges d'aquest enfocament són que la generació de la parla a través d‘un model paramètric no reprodueix completament la naturalitat de la mateixa, i es pot detectar de vegades un brunzit a causa de la qualitat del vocoder empleat o per un excés en la manipulació dels paràmetres del model (Gonzalvo, X., 2010). A més, la representació estadística resumeix i permet alhora compactar aspectes que, tot i ser una bona aproximació a la realitat, no permeten reflectir els detalls específics de la veu en quant a les petites variacions en l‘entonació natural (microprosòdia) o en el seu espectre. Un enfocament híbrid procura utilitzar els avantatges d'ambdós sistemes (paramètric i concatenatiu) per maximitzar la qualitat i la naturalitat de la parla final. Per exemple, es pot extreure la màxima quantitat d'informació prosòdica utilitzant el mòdul de selecció d'unitats, mentre que es minimitza el problema de la manca de dades mitjançant el mòdul paramètric (Gonzalvo, 2010).

1.9 Síntesi expressiva

Darrerament hi ha un creixent interès, dins de la recerca en sistemes de síntesi de veu, en aquells aspectes que permetin millorar l‘expressivitat de la veu sintètica, en la capacitat per a produir veu més emotiva i, per tant, més propera a la forma de parlar humana (Bailly et al., 2003; Erickson, 2005). En molts treballs, es mira d‘introduir l‘expressivitat o l‘emoció en la síntesi produïda (Bulut et al., 2002; Eide et al., 2004; Erro et al., 2010b; Barra-Chicote et al., 2010), mentre que hi ha altres estudis que aborden el problema introduint aspectes propis de la parla conversacional autèntica, com ara, disfluències, repeticions, pausats, etc. (Campbell, 2007; Adell, 2009).

Les dues principals línies d‘estudi per millorar l‘expressivitat en la síntesi de veu es basen en: i) el control de la qualitat de veu (VoQ); i ii) la modificació prosòdica. La modificació de la prosòdia es basa en modular la tonalitat o pitch, la durada i l‘energia dels fonemes. En molts treballs es discuteix si considerar només aquests paràmetres

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual 23 Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull

és suficient per tal de transmetre emocions o bé si cal considerar també la VoQ. La VoQ se centra, en canvi, en atributs relacionats amb el contingut espectral dels sons, així com el que es coneix com la relació Harmònic-Soroll, l‘índex de Hammarberg o la caiguda de la densitat espectral per sobre de 1 KHz (Monzo, 2010). Mentre que en alguns estudis, la prosòdia es considera suficient per a la representació de l'emoció (Murray et al. 2000; Stallo, 2000), altres exposen que la VoQ pot millorar el reconeixement d‘emocions en l'usuari final (Heuft et al., 1996; Monzo et al., 2010). Aquesta contradicció ha estat parcialment explicada per Schröder (1999), que explica que les persones tenen les seves pròpies estratègies per a expressar emocions, de manera que mentre que algunes persones modulen més la velocitat de la veu, altres tenen la habilitat de modificar de forma més clara i evident la VoQ .

La recerca sobre síntesi de veu expressiva també pot ser classificada depenent de la tècnica de síntesi utilitzada. Per exemple, les tècniques basades en corpus es preocupen, principalment, de recuperar l'expressivitat pròpia del corpus per transmetre l'emoció desitjada en la parla sintètica (Bulut et al., 2002; Eide et al., 2004). Per altra banda, les tècniques basades en conversió de veu, que fan ús d‘una parametrització del senyal de veu, es basen en definir funcions de conversió apropiades per tal de mapar una expressivitat neutra en una altra de més emotiva (Erro et al. 2010b).

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual 24 Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull

2 Implantació de la síntesi de veu en el món audiovisual a Catalunya

Per tal d‘estudiar el grau d‘implantació real de les tecnologies de síntesi de veu a Catalunya en el món de l‘audiovisual, s‘ha realitzat un treball de camp extens per tal de recollir les opinions dels seus actors principals davant de la implantació actual i la possible introducció futura dels sistemes de síntesi de veu en els mitjans de comunicació audiovisual. A més, durant aquest procés s‘ha pogut constatar que hi ha una part de la població, les persones amb discapacitat visual, que són grans consumidors dels sistemes de síntesi de veu. És per això, que aquest grup d‘usuaris també s‘ha inclòs en l‘estudi realitzat per tal de conèixer la seva opinió respecte a l‘ús de les tecnologies de síntesi de la parla en el context de les produccions audiovisuals.

2.1 Sistemes i usuaris

En aquest apartat, primer es presenta un recull representatiu de les empreses, centres de recerca i productes més rellevants en el context de la generació de veu sintètica en català. En aquest context, es recullen tant empreses d‘àmbit català com internacional, així com productes que es troben a la xarxa. Seguidament, es descriu un dels grups d‘usuaris més interessats en la integració efectiva de les tecnologies de la síntesi de la parla: les persones amb discapacitat visual.

2.2 Sistemes de síntesi de veu en català

A continuació es presenta un recull dels centres de recerca, projectes i empreses que estan treballant o oferint tecnologia de síntesi de veu en català en l‘actualitat.

2.2.1 Universitats i centres de recerca

1) TALP (Tecnologies i Aplicacions del Llenguatge i la Parla) de la Universitat Politècnica de Catalunya

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 25

En quant a la síntesi de veu en català cal destacar, per una banda que el TALP disposa d‘un sistema propi de conversió de text a parla, anomenat OGMIOS (http://www.talp.cat/ttsdemo/index.php), i per una altra, que van treballar en la incorporació del català a la plataforma pel sistema operatiu Linux Festival (http://www.cstr.ed.ac.uk/projects/festival/), donant com a resultat FestCat, que es va incloure en la distribució Linkat de la Generalitat de Catalunya. Totes elles es poden descarregar gratuïtament des de la pàgina web de FestCat i es publiquen sota els termes de la llicència LGPL. Per més informació, consulteu el lloc web http://gps-tsc.upc.es/veu/festcat/.

Part d‘aquest treball es va desenvolupar en el marc del projecte ―Tecnoparla: Tecnologies de la parla en català‖, enfocat a estudiar la viabilitat de traducció de veu aplicada a la traducció de noticies audiovisuals. El projecte va estudiar les diferents tecnologies clau que intervenen en un sistema de traducció de veu (reconeixement, traducció i síntesi de veu), centrant-se en la incorporació del català, i va abordar el progrés en les tres tecnologies implicades i la seva integració. Concretament, pel que fa a la síntesi de veu es va utilitzar el sistema de programari obert Festival (Linux) adaptat al català (FestCat). Es pot trobar més informació al lloc web següent: http://www.talp.cat/tecnoparla/

2) GTM (Grup de Recerca en Tecnologies Mèdia), La Salle - Universitat Ramon Llull

Aquest grup té una àmplia experiència en el món de la generació de la parla sintètica. Des dels seus inicis (finals dels 80) ja es va centrar en la recerca en síntesi de la parla en català, mitjançant treballs com (Martí, 1985) i (Camps, 1992), posteriorment continuats per (Guaus i Iriondo, 2000) i (Iriondo et al., 2004), aquest darrer treball enfocat en la síntesi expressiva (emotiva) en català.

Per més informació, consulteu el lloc web http://www.salle.url.edu/portal/departaments/home-depts-DTM-projectes- PM?cf_seccio=PM&pag=1

3) Barcelona Media – Centre d‘Innovació de la Fundació Barcelona Media

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 26

La línia de veu i llenguatge investiga en el processament del llenguatge, tant escrit com oral, i desenvolupa aplicacions en correcció i traducció automàtiques, anàlisi i processament de la informació, generació automàtica de textos a partir de bases de dades, i síntesi de veu, a fi de disposar d'eines per al processament automatitzat de continguts lingüístics en entorns multilingües o en què el llenguatge humà es converteix en la modalitat d'interacció prioritària.

Dins de l‘àmbit de la síntesi de veu treballen amb l‘objectiu de crear una veu sintètica catalana, una castellana i una bilingüe (catalana i castellana), així com introduir naturalitat expressiva i entonativa (prosòdia) i facilitar la creació de locutors especialitzats. Es pot trobar més informació al lloc web següent: http://www.barcelonamedia.org/linies/7/ca

2.2.2 Empreses

1) Verbio Empresa dedicada a vendre productes relacionats amb les tecnologies de la parla ubicada a Barcelona. En quant a la síntesi de la parla, ofereixen conversió de text a parla en diferents idiomes. http://www.verbio.com/webverbio3/html/productes.php?id=1

Demostracions de les veus en català: Meritxell i Oriol http://www.verbio.com/webverbio3/html/demos_ttsonline.php

Demostracions de notícies: http://www.verbio.com/webverbio3/html/demos_news.php S‘enllaça a Vilaweb.cat, però s‘indica que no hi ha notícies disponibles.

2) Loquendo Empresa dedicada a vendre productes relacionats amb les tecnologies de la parla. En quant a la síntesi de la parla, ofereixen conversió de text a parla en

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 27

diferents idiomes. Es tracta d‘un sistema de síntesi de veu basat en selecció d‘unitats. http://www.loquendo.com/es/technology/tts.htm

Demostracions de les veus en català: Montserrat i Jordi. http://www.loquendo.com/es/demos/demo_tts.htm

3) CereProc L‘empresa CereProc amb col·laboració amb Barcelona Media han desenvolupat un sistema de síntesi de veu femenina bilingüe en català i castellà. a desenvolupat una veu femenina sintètica, bilingüe, en català i en espanyol, amb entonació natural, disponible per múltiples aplicacions. El projecte ha comptat amb suport de la Generalitat de Catalunya. http://www.cereproc.com/products/voices

4) Nuance Nuance Vocalizer (abans RealSpeak), disposa d‘una veu femenina en català (Núria). Tanmateix, no es pot trobar massa informació al lloc web de l‘empresa. http://www.nuance.es/realspeak/ http://www.nuance.com/for-business/by-solution/contact-center-customer- care/cccc-solutions-services/vocalizer/vocalizer-languages/index.htm

5) Telefónica I+D Disposa d‘un sistema de conversió de text en parla multilingüe (Armenta et al. 2003)(Rodríguez et al., 2008). No s‘ha trobat informació respecte a que es tracti d‘un producte independent que ofereixi l‘empresa (veure http://www.tid.es). Tanmateix, és una tecnologia que l‘empresa ha incorporat a algun dels seus productes, com el lector de missatges curts (http://saladeprensa.telefonica.es/documentos/24moviles.pdf), o per ajuda a persones amb discapacitat (http://saladeprensa.telefonica.es/documentos/22comunicador.pdf )

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 28

2.2.3 Altres productes

1) eSpeak eSpeak és un sistema de síntesi basat en formants que treballa sota les plataformes Linux i Windows, que pot ser emprat sota la llicència GNU General Public License (programari lliure). http://espeak.sourceforge.net/

2) JAWS (Job Access With Speech) Està dirigit a persones cegues o de baixa visió que llegeix el contingut de la pantalla mitjançant veu sintètica. http://www.freedomscientific.com/products/fs/jaws-product-page.asp

Incorpora la veu en català pel fet que incorpora sistemes de síntesi d‘altres empreses, com pot ser Nuance (Núria). http://www.freedomscientific.com/downloads/jaws/JAWS10-whats-new.asp

2.3 Síntesi de veu per persones amb discapacitat visual

2.3.1 Introducció

En la societat de finals de segle, anomenada societat de la informació pel paper predominant que aquesta ha pres com a bé de consum, l‘ús d‘ordinadors és cada vegada més generalitzat, convertint-se en un dels camps de treball fonamentals en aquesta àrea. En aquest sentit, dins de les tecnologies d‘ajuda, destaquen per la seva importància, les tecnologies d‘accés al medi físic on s‘inclou, entre altres, l‘accés a l‘ordinador. Aquest, en el seu format estàndard, presenta una sèrie d‘elements físics que poden arribar a suposar una barrera per a ser utilitzats per persones amb alguna discapacitat, ja sigui per alteracions relacionades amb el maneig dels dispositius d‘entrada mitjançant els quals li subministrem informació (teclat, ratolí); per problemes en les possibilitats d‘interpretar els resultats de les seves operacions degut a dificultats en la modalitat sensorial implicada en cada perifèric de sortida (monitor, impressora, altaveu), o per la incapacitat de fer funcionar determinades unitats d‘emmagatzematge d‘informació (unitat de discos flexibles, unitat de CD-ROM, etc.). Al marge d‘aquestes unitats bàsiques, ja és habitual que l‘ordinador disposi d‘altres medis auxiliars que

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 29

poden o no implicar components físics, ens referim a l‘escàner, mòdem, programes de reconeixement i síntesi de veu, etc.; que en ocasions poden suposar barreres d‘accés i, pel contrari, com passa amb el propi ordinador, poden arribar a constituir-se com a medis alternatius per l‘accés a la informació, essent tecnologies de gran ajuda per l‘accés al món de les tecnologies de la informació.

2.3.2 Deficiències en els òrgans de visió

Distingim dins d‘aquesta la ceguesa, que implica una pèrdua total o quasi total de percebre les formes; la visió parcial, que suposa una gran dependència de la informació procedent d‘altres sentits el que implica la capacitat d‘utilitzar determinats aspectes de la percepció visual; i la visió reduïda, que pot crear impediments a una persona en situacions que exigeixin un elevat nivell d‘ús de la visió.

La deficiència visual planteja importants repercussions en quant a l‘accés a les tecnologies. Tota la informació que aquesta manipuli de tipus gràfic, textual i imatges serà inaccessible per a la persona amb deficiència visual, limitant per tant la seva capacitat d‘actuació. En aquest sentit, l‘ordinador en la seva configuració estàndard resulta impossible d‘utilitzar, ja que tant la pantalla com la sortida impresa es basen exclusivament en informació visual. Però no tan sols l‘ordinador, altres instruments tecnològics inclouen dins la seva configuració algun element amb informació visual: els caixers automàtics d‘expedició de bitllets, els telèfons públics, que incorporen una petita pantalla on es proporciona informació respecte al crèdit, etc.

2.3.3 Sistemes de síntesi per a persones amb discapacitat visual

Les persones amb discapacitat visual, bé sigui per la reducció en diversos graus de l‘agudesa visual o per ceguesa total, tenen tancat l‘accés a l‘ordinador. Per tant, encara que són capaços d‘introduir la informació, no tenen accessibilitat a la resposta del mateix. Tot i això, un fenomen que pot generar una situació de marginació tecnològica aconsegueix, fent ús de la versatilitat i adaptabilitat de l‘ordinador, eradicar aquest perill i possibilitar la integració de la persona amb discapacitat en un entorn d‘educació i treball normalitzats. És per això que varis han estat els sistemes alternatius d‘accés a la informació de sortida de l‘ordinador desenvolupats. Podem categoritzar-los en els següents tipus: veu, braille, ampliació de caràcters o la combinació d‘uns amb els altres.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 30

El camp de les solucions informàtiques per a persones cegues o amb baixa visió és molt extens, però bàsicament l‘integren dos categories: les adaptacions pròpiament dites (que denominarem ―adaptacions de baix nivell‖) i les aplicacions de suport per a elles (que anomenarem ―adaptacions d‘alt nivell‖), i que es divideixen en tres grans grups: els revisors de pantalla, els revisors de documents i els prenedors de notes.

En el nostre cas, dins de les adaptacions de baix nivell, ens centrarem en els sistemes de síntesi de veu, els quals són utilitzats per les persones amb baixa visió i per aquelles que pateixen ceguesa total. Els lectors de pantalla, lectors de documents, etc., serien exemples de les adaptacions d‘alt nivell.

Els sistemes CTP són un bona oportunitat per a que les persones invidents puguin utilitzar un ordinador i navegar per Internet tan bé i tan ràpid com qualsevol que no pateixi aquesta discapacitat.

Gràcies a les veus sintetitzades qualsevol persona amb dificultats visuals pot navegar per la xarxa, llegir diaris on-line, treballar, rebre e-mails, etc., essent, a més, una tecnologia de rehabilitació fonamental per a integrar a aquestes persones en l‘actual societat de la informació.

Es tracta d‘una ciència totalment necessària sobre tot des del moment en que treballadors amb deficiències visuals considerables es van veure obligats a asseure‘s davant de la pantalla d‘un terminal, sense més ajuda que la d‘algun company d‘oficina, per a redactar cartes o introduir dades sense poder llegir el que teclejaven.

A continuació es detallen una sèrie d‘aplicacions que utilitzen sistemes de síntesi de veu les quals són utilitzades per aquestes persones per a acostar-les al món de la tecnologia o be per a facilitar-les coses tan simples per a uns (com la lectura d‘un llibre), però tan costoses per a altres. No pretén ser una revisió exhaustiva de la matèria, però sí un recull significatiu d‘alguns dels sistemes més coneguts.

• JAWS JAWS és un lector de pantalla que converteix el contingut d‘aquesta en veu. És per això, que es tracta d‘una eina de gran utilitat per a les persones amb visió reduïda o be

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 31

totalment cegues ja que l‘usuari pot accedir a qualsevol programa o aplicació sense necessitat de veure-la.

• IntelReader Es tracta d‘un lector electrònic, de la mida d‘un llibre de butxaca per a persones amb dificultats de lectura. L‘aparell inclou una cambra d‘alta resolució per a convertir el text en format digital i després transformar-lo en veu. Aquest dispositiu és una gran revolució que permet llegir llibres i revistes.

• Vodafone Speak Mitjançant les comunicacions mòbils, les persones obtenen major independència i autonomia. Amb elles es permet allargar el temps de relació social. D‘aquí la importància de pretendre una millor accessibilitat a aquelles persones amb dificultats.

Vodafone Speak és una aplicació per a telèfons mòbils basada en el sistema operatiu Symbian que permet a les persones cegues o amb discapacitat visual accedir a totes les funcionalitats del telèfon mòbil. Un lector de pantalles reconeix el text i tota la informació visual que apareix en la pantalla del telèfon es transforma en veu a mesura que l‘usuari es desplaça pel menú.

Les persones invidents podran enviar i rebre missatges de text, així com fer ús de la seva agenda de contactes i navegar per Internet o usar altres aplicacions del seu terminal.

• Voice Stick L‘aparell és un escàner de mà que combina tecnologia de reconeixement òptic de caràcters (en anglès, optical character recognition o OCR) i conversió de text a parla, aconseguint llegir literalment qualsevol text i transformant-lo en àudio per a que l‘usuari ho rebi a través d‘uns auriculars. Ha sigut creat per a que totes les lectures tals com diaris, llibres, revistes, etc. estiguin a l‘abast de les persones no vidents. La forma d‘ús és bastant senzilla, s‘agafa el dispositiu amb la mà i es passa sobre algun full amb text. En el moment en que es passa por sobre del text, aquest és traduït i llegit per l‘aparell.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 32

Existeix una cadena d‘elements entre l‘usuari i el contingut d‘una pàgina web que intervenen en tot el procés. Cadascun d‘ells ha de funcionar correctament en el seu paper i en la seva interacció amb els demés elements. Com pot veure‘s, el disseny de les pàgines és tan sols un dels factors que influeixen en l‘accessibilitat a la web. No obstant això, és especialment important ja que encara que l‘usuari pot tenir el seu ordinador personal adaptat per a compensar la seva discapacitat i pot escollir un navegador amb opcions o prestacions d‘accessibilitat incorporades, tot això pot resultar inútil en front a una pàgina web que no presenti el contingut de manera que pugui ser correctament interpretat i presentat a l‘usuari pel navegador.

La majoria de les webs no ofereixen un nivell d‘accessibilitat acceptable per aquest col·lectiu, pel que, avui dia, els discapacitats, no poden accedir d‘una forma normal, com ho fem qualsevol dels demés a, pràcticament, la totalitat de les webs del món tot i les ajudes tecnològiques existents.

2.4 Treball de camp

En aquest apartat s‘inclouen les entrevistes recollides durant el treball de camp realitzat. Per una banda, s‘inclouen les respostes dels tècnics d‘estudis de so, de doblatge, de postproducció, ràdios i televisions. En aquest mateix context, s‘ha fet un recull de les opinions de persones treballadores en aquests medis que no són tècniques, com poden ser locutors, periodistes i professors. L‘objectiu és presentar una visió general que té aquest col·lectiu sobre la tecnologia de la síntesi de veu, tant des d‘un punt de vista tècnic com no.

Tot i que en principi es va contactar amb una sèrie de productores, es va concloure que la part de tractament d‘àudio no la realitzen elles mateixes, sinó que treballen amb estudis d‘àudio, de doblatge i/o de postproducció externs. A partir d‘aquest moment, va ser quan es va decidir contactar amb els estudis que s‘encarreguen de tots els processos tècnics relacionats amb la producció del so.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 33

No tots els estudis consultats han donat resposta a l‘enquesta realitzada. Dels que ho han fet, s‘han recollit les respostes via correu electrònic (s‘inclouen amb les mateixes paraules) o bé, a través d‘entrevistes telefòniques.

2.4.1 Emissores de ràdio

2.4.1.1 Catalunya Ràdio Entrevista realitzada a: Departament de tecnologia

- Coneix els sistemes de síntesi de veu? Sí

- S‘utilitzen actualment? En anuncis, per algun tipus d‘informació en algun programa, etc. No

- Si es així, ho contracten de forma externa o ho realitzen directament vostès? ------Quina empresa els proporciona la veu? -----

- Creu que en un futur es podria utilitzar aquest tipus de tecnologia de manera complementaria a la locució? En quina secció/departament? Poc a poc els sistemes de síntesi es van perfeccionant, però tot i això, penso que es perdria tot l‘encant de la ràdio, per tant, no.

- Per què? Seria substituir a les persones. La gent escolta la ràdio per sentir-se acompanyada. Li agrada saber que hi ha algú darrera. És el sentit romàntic de les coses.

- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats, veu en off de documentals, algun programa per comunicar algun tipus d‘informació, per descriure els vídeos dels informatius pels invidents...) És possible que tingui més sortides que a la ràdio. Tot i així, val la pena substituir a una persona en mitjans de comunicació?

- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió) És més pràctic, però segueixo pensant que no sé si val molt la pena substituir una cosa que ja està establerta.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 34

- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els sistemes de reconeixement de la parla? A nivell tècnic és molt interessant, és un altre pas de la industrialització.

2.4.1.2 40 Principales Barcelona Entrevista realitzada a: Departament tècnic

- Coneix els sistemes de síntesi de veu? Sí

- S‘utilitzen actualment? En anuncis, per algun tipus d‘informació en algun programa, etc. No. Crec que molt puntualment s‘ha utilitzat per generar veus estranyes, veus robot, per fer algun efecte en concret, però res més.

- Si es així, ho contracten de forma externa o ho realitzen directament vostès? Directament nosaltres, amb qualsevol programa lliure d‘Internet. N‘hi ha molts.

- Quina empresa els proporciona la veu? -----

- Creu que en un futur es podria utilitzar aquest tipus de tecnologia de manera complementaria a la locució? En quina secció/departament? Bàsicament es podria utilitzar pel mateix que he comentat abans, per crear efectes en les veus.

- Per què? -----

- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats, veu en off de documentals, algun programa per comunicar algun tipus d‘informació, per descriure els vídeos dels informatius pels invidents...) Igual que a la ràdio, pràcticament és el mateix. Si es pot aplicar a la ràdio, es pot aplicar a la televisió, però són veus molt robòtiques, molt màquina.

- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió) Seria interessant, però depèn del món del cine, que ho vulguin incloure. És més complicat.

- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els sistemes de reconeixement de la parla?

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 35

Sempre ajuden. En el cas dels sistemes de síntesi, són de gran utilitat, a l‘empresari li agradarà molt perquè s‘estalviarà diners i temps, i nosaltres, com a tècnics, tindrem molta més feina, però estarem traient els llocs de treball a molta gent.

2.4.1.3 COM Ràdio Entrevista realitzada a: Departament de tècnics de COMRàdio.

- Coneix els sistemes de síntesi de veu? Sí

- S‘utilitzen actualment? En anuncis, per algun tipus d‘informació en algun programa, etc. No, el més freqüent és gravar la veu i reproduir-la com a fitxa d‘àudio.

- Si es així, ho contracten de forma externa o ho realitzen directament vostès? -----

- Quina empresa els proporciona la veu? -----

- Creu que en un futur es podria utilitzar aquest tipus de tecnologia de manera complementaria a la locució? En quina secció/departament? De manera complementaria sí, en emissores automatitzades, i en el moment en que les veus tinguin més qualitat. De totes maneres, a tots ens agrada que ens expliquin coses...

- Per què? -----

- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats, veu en off de documentals, algun programa per comunicar algun tipus d‘informació, per descriure els vídeos dels informatius pels invidents...) Els documentals, per exemple, porten molta feina i una persona sempre donarà més caliu.

- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió) Per audiodescripció podria ser, però de totes maneres has de picar el text i al cap i a la fi ja no et treu tanta feina. Diferent seria si, directament d‘una imatge amb text, es reproduís la veu.

Jo ho veig útil en sistemes de megafonia, des de missatges al supermercat fins a missatges d‘emergència als metros. T‘estalvies tenir una persona 24 hores.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 36

També és interessant per les persones amb discapacitat visual, per qualsevol aplicació d‘Internet o simplement perquè puguin escoltar una pàgina web.

- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els sistemes de reconeixement de la parla? Els sistemes de reconeixement de la parla els trobo molt interessants. Imagina que tens una entrevista, hi ha d‘haver alguna persona escoltant i escrivint a la vegada, d‘aquesta manera, pots automatitzar tot el sistema. A més a més, a l‘hora de fer cerques, és molt més eficaç sobre text que sobre àudio. Penso que aquests sistemes tenen molt de futur. D‘altra banda, als sistemes de síntesi, els veig amb menys futur. A mi m‘agrada parlar amb una persona no amb una màquina. Sempre que rebem una trucada amb veu de robot per vendre‘ns alguna cosa, ens atabalem, perquè ens agrada comunicar-nos amb éssers humans.

2.4.1.4 RAC 1 Entrevista realitzada a: Departament tècnic de RAC 1

- Coneix els sistemes de síntesi de veu? Sí

- S‘utilitzen actualment? En anuncis, per algun tipus d‘informació en algun programa, etc. No. Estic segur que la majoria de tècnics de la casa no els han utilitzat mai. Jo algun cop he treballat amb un sistema de síntesi per crear veu robòtica, però només per produir efectes, res d‘aplicacions serioses.

- Si es així, ho contracten de forma externa o ho realitzen directament vostès? Jo mateix amb qualsevol software lliure, com TalkAny. Estan prou bé perquè pots alterar diferents paràmetres com el tempo, l‘entonació o els formants.

- Quina empresa els proporciona la veu? -----

- Creu que en un futur es podria utilitzar aquest tipus de tecnologia de manera complementaria a la locució? En quina secció/departament? Dependrà de la qualitat dels resultats. És important l‘entonació, s‘ha de donar a entendre molt el que es diu, i no només amb les paraules, també intervenen altres aspectes humans, com el to. Si que es podria utilitzar per anuncis o promocions, sobretot si els sistemes s‘adaptessin al català i al castellà sense accent llatinoamericà. Penso que seria interessant per les emissores de música o electrònica, fan servir més efectes.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 37

- Per què? -----

- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats, veu en off de documentals, algun programa per comunicar algun tipus d‘informació, per descriure els vídeos dels informatius pels invidents...) A la televisió s‘hauria d‘acompanyar d‘un ninot virtual. És una tecnologia que encara sorprèn. Es pot aplicar de la mateixa manera a la televisió que a la ràdio. Si en un lloc s‘utilitza, en l‘altre també es podrà.

- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió) S‘hauria de coordinar molt bé perquè la veu sintètica no interferís amb les veus dels actors i la música. Tot i això, no sé si seria molt agradable escoltar la combinació de veus, trauria el plaer de la pel·lícula, la màgia.

- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els sistemes de reconeixement de la parla? M‘encanten. A nivell de psicologia és molt curiós com el cervell distingeix la veu real de la sintètica. En canvi, si pensem en les fotografies, no estem tan desenvolupats perquè no distingim les que són naturals de les que estan retocades.

2.4.1.5 Onda Rambla - Punto Radio Entrevista realitzada a: Departament Emissions

- Coneix els sistemes de síntesi de veu? Si, encara que a la nostra ràdio no n‘utilitzem.

- S‘utilitzen actualment? En anuncis, per algun tipus d‘informació en algun programa, etc. -----

- Si es així, ho contracten de forma externa o ho realitzen directament vostès? -----

- Quina empresa els proporciona la veu? -----

- Creu que en un futur es podria utilitzar aquest tipus de tecnologia de manera complementaria a la locució? En quina secció/departament?

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 38

Crec que encara falta molt perquè es pugui utilitzar en un àmbit de ràdio professional. Els locutors utilitzen la veu com una eina, entonen, emfatitzen, donen sentiment, eleven i baixen el volum o el to, interpreten...Crec que aquests sistemes de síntesi encara estan molt lluny d'arribar a poder competir amb un locutor "real". Si en un futur s'arriba a aconseguir un nivell de qualitat apte per poder substituir un locutor, es crearà una demanda tal que les millors veus estaran molt buscades, i les empreses hauran de pagar per les veus sintetitzades, igual que es paga a un locutor. Potser en emissores "petites", municipals...si que podrien fer servir la síntesi de veu, per exemple per donar un butlletí de noticies, informació del temps, trànsit etc..

- Per què? -----

- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats, veu en off de documentals, algun programa per comunicar algun tipus d‘informació, per descriure els vídeos dels informatius pels invidents...) -----

- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió) -----

- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els sistemes de reconeixement de la parla? -----

2.4.2 Televisions i productores

A continuació es presenten les entrevistes realitzades a les televisions i productores que han tingut l‘amabilitat d‘atendre l‘enquesta. Cal dir que s‘han contactat altres entitats que han declinat respondre l‘enquesta per motius diversos.

2.4.2.1 TV3 Entrevista realitzada a: Departament tècnic de TV3

- Coneix els sistemes de síntesi de veu? Sí

- S‘utilitzen actualment? (Anuncis, dibuixos animats, veu en off de documentals, algun programa per comunicar algun tipus d‘informació, per descriure els vídeos dels informatius pels invidents...) No, s‘utilitza en telefonia.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 39

- Si es així, ho contracten de forma externa o ho realitzen directament vostès? -----

- Quina empresa els proporciona la veu? -----

- Creu que en un futur es podria utilitzar aquest tipus de tecnologia? En quina secció/departament? No

- Per què? Perquè ens agrada la veu humana.

- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun programa de manera complementaria) De moment no està previst. Ho trobo atrevit dir que no s‘utilitzarà, potser sí.

- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió) Hi ha veus humanes que ja fan aquesta tasca, però si que es podria utilitzar.

- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els sistemes de reconeixement de la parla? Els sistemes de reconeixement de la parla són molt interessants per la investigació. En canvi, els sistemes de síntesi, no m‘agraden tant, ja que, per exemple, quan em truquen i sento una veu robòtica preferiria que aquesta fos natural i no sintètica.

2.4.2.2 8tv, RAC105tv Entrevista realitzada a: Departament tècnic

- Coneix els sistemes de síntesi de veu? Sí

- S‘utilitzen actualment? (Anuncis, dibuixos animats, veu en off de documentals, algun programa per comunicar algun tipus d‘informació, per descriure els vídeos dels informatius pels invidents...) No

- Si es així, ho contracten de forma externa o ho realitzen directament vostès? -----

- Quina empresa els proporciona la veu?

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 40

-----

- Creu que en un futur es podria utilitzar aquest tipus de tecnologia? En quina secció/departament Poder. Per audiodescripció multiidioma o programes automàtics (borsa, temps, etc).

- Per què? Estalvi de costos i maximitzar eficiència.

- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun programa de manera complementaria) Programes automàtics (borsa, temps, etc.)

- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió) Per l‘audiodescripció multiidioma.

- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els sistemes de reconeixement de la parla? Cal que madurin. Les aplicacions atractives són les que puguin treballar a temps real.

2.4.2.3 Gestmusic Entrevista realitzada a: Departament d‘àudio de Gestmusic

- Coneix els sistemes de síntesi de veu? Sí

- S‘utilitzen actualment? No

- Si es així, ho contracten de forma externa o ho realitzen directament vostès? -----

- Quina empresa els proporciona la veu? -----

- Creu que en un futur es podria utilitzar aquest tipus de tecnologia? Penso que seria una gran evolució si en un futur s‘arriba a usar ja que repercutiria un gran estalvi econòmic a nivell de locució per qualsevol anunci publicitari, documentals i promocions, sense oblidar, també, l‘estalvi de temps (gravació amb el locutor). Tot i això, crec que les veus sintetitzades encara no són prou naturals, ja que un humà pot produir diverses entonacions: veus agudes, veus greus, veus més series, veus juvenils, amb més velocitat o amb menys, etc. Segons les imatges gravades, el locutor

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 41

simula una veu o una altra, cosa que amb qualsevol software resulta encara molt difícil.

- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats, veu en off de documentals, algun programa per comunicar algun tipus d‘informació, per descriure els vídeos dels informatius pels invidents...) Ara per ara, per l‘experiència que jo tinc, no li veig molta aplicació.

- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun programa de manera complementaria) Es podria, però tampoc li veig molta sortida. Encara es nota que la veu és sintètica i no queda natural. Ho veig més per temes d‘informació general, com per exemple el metro.

- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió) Desconec aquest tema totalment, però simular veu real és molt difícil.

- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els sistemes de reconeixement de la parla? Crec que tenen molt de futur, tot i que pel tema de síntesi encara és aviat per substituir a un locutor, ho veig difícil.

2.4.3 Estudis de so, doblatge i postproducció

2.4.3.1 OIDO Entrevista realitzada a: Departament tècnic

- Coneix els sistemes de síntesi de veu? Sí

- S‘utilitzen actualment? Sí, en àmbit musical, per evocar algun efecte, per ambientar o per afinar a algun cantant (una nota, no una paraula ni un text).

- Si es així, ho contracten de forma externa o ho realitzen directament vostès? Utilitzem un software lliure.

- Quina empresa els proporciona la veu? -----

- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats, veu en off de documentals, algun programa per comunicar algun tipus d‘informació, per descriure els vídeos dels informatius pels invidents...)

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 42

Sí, però s‘hauria de perfeccionar la veu perquè fos més realista i sobretot ben creïble.

- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun programa de manera complementaria) Sí, també.

- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió) Sí, però tornem al mateix que he comentat anteriorment, la veu ha de ser creïble, i això encara no està del tot aconseguit.

- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els sistemes de reconeixement de la parla? Poden tenir molta utilitat, i més encara si es tendeix a una monitorització.

2.4.3.2 INFINIA Entrevista realitzada a: Departament tècnic de so

- Coneix els sistemes de síntesi de veu? Sí

- S‘utilitzen actualment? No, tot i que algun cop s‘han utilitzat per manipular la veu o per crear veu robòtica.

- Si es així, ho contracten de forma externa o ho realitzen directament vostès? -----

- Quina empresa els proporciona la veu? -----

- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats, veu en off de documentals, algun programa per comunicar algun tipus d‘informació, per descriure els vídeos dels informatius pels invidents...) No ho sé, cada vegada em sorprenen més aquestes tecnologies. El so va per davant de la imatge. En el cas de la síntesi és al revés, falta perfeccionar aquest pas en el so. Quan aquest sigui creïble com el 3D en la imatge, que no saps distingir si és real a no, serà un gran avançament, però actualment, la veu que produeixen aquests sistemes, no és real, es nota que és una màquina.

- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun programa de manera complementaria)

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 43

Seria el mateix que a la televisió. El problema que hi ha amb la síntesi, a part d‘aconseguir veus perfectes, és donar a una màquina la personalitat de cadascú, una personalitat que sigui creïble. Trobo que serà difícil desenvolupar aquest punt.

- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió) Això seria una bona idea, però buscant una veu que sigui el més agradable possible.

- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els sistemes de reconeixement de la parla? A mi m‘encanten. M‘agrada que em sorprenguin tecnològicament, cosa que en temes de so encara no han fet. La veu sempre és ―pregravada‖, mai és veu sintètica.

2.4.3.3 Onda Estudios Entrevista realitzada a: Departament tècnic

- Coneix els sistemes de síntesi de veu? Sí

- S‘utilitzen actualment? Nosaltres no els utilitzem.

- Si es així, ho contracten de forma externa o ho realitzen directament vostès? -----

- Quina empresa els proporciona la veu? -----

- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats, veu en off de documentals, algun programa per comunicar algun tipus d‘informació, per descriure els vídeos dels informatius pels invidents...) Per substituir la veu d‘un locutor no, encara no estan suficientment preparats com per produir parla de manera natural. Penso que és una eina de creativitat. En qualsevol situació on hi hagi comunicació, si el creatiu pensa que pot ser útil, doncs si que es podria usar.

- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun programa de manera complementaria) Només si és per produir algun efecte en la veu.

- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió)

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 44

No ho veig apropiat per a qualsevol comunicació en la que vulguis veu natural. L‘oient sap el que està escoltant, i sabrà que és una veu sense qualitat natural, sabrà que és robòtica. La interpretació humana no està a l‘abast de la tecnologia, és molt particular.

- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els sistemes de reconeixement de la parla? Estan molt bé. Els sistemes de reconeixement de la parla ajuden molt, es poden adaptar a molts tipus de maquinària. Els sistemes de síntesi també, la veu robòtica en un sistema GPS està molt bé, no ha d‘interpretar re, simplement comunicar. Tot és segons el que es necessiti en cada cas.

2.4.3.4 Cyo Studios Entrevista realitzada a: Departament tècnic

- Coneix els sistemes de síntesi de veu? Sí

- S‘utilitzen actualment? No. S‘utilitzen per contestadors telefònics i altres sectors de l‘estil.

- Si es així, ho contracten de forma externa o ho realitzen directament vostès? -----

- Quina empresa els proporciona la veu? -----

- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats, veu en off de documentals, algun programa per comunicar algun tipus d‘informació, per descriure els vídeos dels informatius pels invidents...) De moment no perquè la veu no està prou aconseguida, no és suficientment natural com per produir les mateixes emocions que les d‘una persona. Tot i això, aquests sistemes estan avançant molt.

- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun programa de manera complementaria) A les ràdios online si que es podria utilitzar, però, de totes maneres, es notaria que la veu és sintètica.

- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió)

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 45

Sí, però no tindria els mateixos efectes emotius que pot donar la veu natural. No produiria les mateixes sensacions a la gent.

- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els sistemes de reconeixement de la parla? Estan molt bé, però d‘aquí a uns anys trauran la feina a molta gent. Només necessitarem un ordinador i el text a reproduir.

2.4.3.5 Dubbing Films Entrevista realitzada a: Departament tècnic

- Coneix els sistemes de síntesi de veu? Sí

- S‘utilitzen actualment? No

- Si es així, ho contracten de forma externa o ho realitzen directament vostès? -----

- Quina empresa els proporciona la veu? -----

- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats, veu en off de documentals, algun programa per comunicar algun tipus d‘informació, per descriure els vídeos dels informatius pels invidents...) De moment no. S‘ha d‘aconseguir fluïdesa i inflexions en la veu. Avui dia, els espots publicitaris es paguen molt bé perquè el locutor ha de ser capaç de produir una veu concreta, amb moltes inflexions, etc.

- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun programa de manera complementaria) Igual que a la televisió.

- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió) Això s‘hauria de preguntar als invidents, perquè nosaltres podem pensar que els pots anar molt bé i potser és un desastre perquè no els hi agrada. D‘altra banda, les veus haurien de ser agradables.

- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els sistemes de reconeixement de la parla?

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 46

Els sistemes de síntesi a la llarga deixaran sense feina als locutors, ara per ara és impossible, però arribarà. Als estudis tindrem tota la classe de veus que necessitem: una dona de 60 anys, un home amb veu greu jovenet... Tot el que sigui millorar sempre és bo.

2.4.3.6 Tadutec Entrevista realitzada a: Departament tècnic

- Coneix els sistemes de síntesi de veu? Sí

- S‘utilitzen actualment? No, està molt verd encara.

- Si es així, ho contracten de forma externa o ho realitzen directament vostès? -----

- Quina empresa els proporciona la veu? -----

- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats, veu en off de documentals, algun programa per comunicar algun tipus d‘informació, per descriure els vídeos dels informatius pels invidents...) No. Els locutors de publicitat han de donar tons diferents segons el que hagin de dir. Si, per exemple, es necessita una veu d‘una persona plorant i el locutor no ho sap interpretar, aquest no servirà. De la mateixa manera passa amb els sistemes de síntesi, si aquests no saben fer el que es necessita, no podran ser utilitzats. S‘ha de pensar que l‘oïda és més sensible, no és com l‘ull que és més vague i per tant és més fàcil d‘enganyar-lo. És per això, que el so va més endarrerit.

- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun programa de manera complementaria) No, passa el mateix que a la televisió.

- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió) És possible. En l‘audiodescripció no es necessita tanta entonació, amb veus planes ja es pot descriure el que es desitgi.

- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els sistemes de reconeixement de la parla?

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 47

Estan molt bé, sobretot en camps on puguin oferir ajudes, com per exemple a les persones amb algun tipus de disminució.

2.4.3.7 Dvmusic Entrevista realitzada a: Departament tècnic.

- Coneix els sistemes de síntesi de veu? Sí

- S‘utilitzen actualment? No

- Si es així, ho contracten de forma externa o ho realitzen directament vostès? -----

- Quina empresa els proporciona la veu? -----

- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats, veu en off de documentals, algun programa per comunicar algun tipus d‘informació, per descriure els vídeos dels informatius pels invidents...) Tot depèn de com estigui implementat el sistema de síntesi. En quant a narració està molt ben adaptat, però dubto que es pugui emular l‘entonació d‘una persona humana. El que és interpretació és molt difícil d‘aconseguir. Els locutors estan molt ben preparats i tenen molts registres i, fins i tot, hi ha vegades que els costa realitzar allò que els publicistes els hi demanen. S‘ha de pensar que en les campanyes publicitàries es gasten molts diners, perquè han d‘arribar a l‘espectador sigui com sigui. En canvi, un documental, al ser narratiu i sense necessitat de tanta entonació perquè la locució és més plana, té més sentit de que es puguin usar aquests sistemes.

- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun programa de manera complementaria) De la mateixa manera que a la televisió.

- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió) Això potser sí. Pot proporcionar abaratir els costos d‘àudio, serà més rentable que no pas contractar a un locutor. S‘hauria de fer un anàlisi de mercat. Sempre és millor si l‘entonació és bona però els costos marquen el producte.

- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els sistemes de reconeixement de la parla?

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 48

Els sistemes de síntesi, com a professional, em fan una mica de por, però penso que encara es tracta d‘una tecnologia llunyana. És com pretendre que un robot pinti un quadre com un pintor professional, encara queda molt. Els sistemes de reconeixement els veig més pràctics, més fàcils de que siguin utilitzats.

2.4.3.8 Seimar RLM Estudios - Entrevista realitzada a: Departament tècnic

- Coneix els sistemes de síntesi de veu? Sí

- S‘utilitzen actualment? No

- Si es així, ho contracten de forma externa o ho realitzen directament vostès? -----

- Quina empresa els proporciona la veu? -----

- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats, veu en off de documentals, algun programa per comunicar algun tipus d‘informació, per descriure els vídeos dels informatius pels invidents...) Ja es fa.

- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun programa de manera complementaria) Ja es fa.

- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió) És més ràpid amb una persona.

- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els sistemes de reconeixement de la parla? No ho sé, no m‘ho havia plantejat mai.

2.4.3.9 Soundub - Entrevista realitzada a: Departament tècnic

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 49

- Coneix els sistemes de síntesi de veu? Sí

- S‘utilitzen actualment? No en el sector audiovisual de Broadcast i/o Cinema. Sí en el sector d'atenció al client (call centers), Internet i per persones amb discapacitat.

- Si es així, ho contracten de forma externa o ho realitzen directament vostès? Sempre el doblatge.

- Quina empresa els proporciona la veu? El doblatge és una de les nostres àrees de negoci.

- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats, veu en off de documentals, algun programa per comunicar algun tipus d‘informació, per descriure els vídeos dels informatius pels invidents...) Només considero que es podria aplicar a tots aquells programes que permetin una comunicació neutral com ara caixers automàtics, contestadors o call centers, potser a vídeos promocionals o informatius no enfocats a vendes. Els documentals, dibuixos animats i anuncis tenen molta emoció i gran part del seu èxit es basa en això. Li encomano que es miri qualsevol dels documentals de "Al filo de lo imposible" narrat per en Armando Carreras, un documental sobre alpinisme que, fóra de l‘interès per una audiència molt específica, l'interès era limitat; aquests documentals mostraven imatges molt maques de muntanyes i alpinistes, sovint la gent reconeix que la narrativa del documental els "enganxava" i de fet el programa ha aguantat moltes reedicions sempre amb la mateixa veu. Els anuncis mateixos, basats en despertar una necessitat de consum, perdrien el sentit sense l'emoció que és capaç de transmetre el locutor. Cal entendre, deixant de banda les seves ideologies, que la capacitat d'oració de persones com Kennedy, Luther King, Gandhi o Hitler, sovint va marcar la diferencia de la perdurabilitat i l'èxit de les seves idees. Aquests són alguns exemples de la importància d'una veu no sintètica o capaç de transmetre emocions.

- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun programa de manera complementaria) Novament, la finalitat de la publicitat és generar ingressos per vendes, si la veu que és substituïda manté el retorn potser llavors és possible. Això llavors és extrapolable a tot el gènere audiovisual.

- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió)

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 50

No. És fàcil d‘entendre que si es doblés una pel·lícula amb un sintetitzador de veu, és de difícil acceptació ja sigui per invidents o no. La dificultat en aquests sintetitzadors està en eliminar la neutralitat de la interpretació que doleixen. Això s'agreuja quan aquesta interpretació va lligada a una imatge, com que doncs les interpretacions son infinites, caldria parametritzar massa l'algoritme del sintetitzador per poder fer una aproximació fidedigne (no neutre i realista) a la substitució de la veu. L'àudio d'una pel·lícula transmet emoció; com a part important d'aquesta emoció, la veu (i altres elements) permeten a l‘espectador poder matisar el significat i el caràcter últim del quadre audiovisual, particularment si hom és invident. Així doncs, substituir una veu "no natural" en un programa audiovisual deixaria "coix" a l'espectador invident.

- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els sistemes de reconeixement de la parla? Vàlids per reconèixer ordres, no obstant tornem al mateix, es pot parlar amb ironia a un sistema de reconeixement de la parla tot esperant que sàpiga interpretar realment els nostres desitjos?

2.4.3.10 Sounygraf - Entrevista realitzada a: Departament tècnic

- Coneix els sistemes de síntesi de veu? Sí

- S‘utilitzen actualment? No

- Si es així, ho contracten de forma externa o ho realitzen directament vostès? -----

- Quina empresa els proporciona la veu? -----

- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats, veu en off de documentals, algun programa per comunicar algun tipus d‘informació, per descriure els vídeos dels informatius pels invidents...) No, haurien de millorar moltíssim l‘entonació.

- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun programa de manera complementaria) Sí, però només com a senyal horària i indicatius de l‘emissora.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 51

- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió) No, per la mateixa raó que he comentat abans.

- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els sistemes de reconeixement de la parla? Són molt interessants, però estan en una fase poc desenvolupada.

2.4.4 Impressions del personal no tècnic

Per complementar les enquestes realitzades al personal tècnic de les ràdios, televisions, productores i estudis de so, també s‘ha contactat amb gent involucrada en aquest sector, però que no es dediquen a la part tècnica, com són periodistes, locutors, professors, etc. L‘objectiu d‘aquesta part del projecte de recerca ha estat recollir la impressió global dels perfils no tècnics relacionats amb les empreses de l‘àmbit audiovisual i de la comunicació pel què fa als seus coneixements i preferències davant la tecnologia de síntesi de veu. Cal esmentar, que aquesta part s‘ha realitzat recollint opinions a nivell estatal.

2.4.4.1 Enquestat/da #1 Formació: Llicenciatura en Periodisme Lloc de treball: Productora 8 milímetros

Impressions/Comentaris: Han realitzat diversos programes a la productora on treballa per IB3 Ràdio i IB3 TV (cadenes valencianes) i no ha treballat ni ha vist mai cap tipus de sintetitzador de veu. Han treballat amb moduladors de veu per tal de modificar-les en cas d‘imprevistos com pot ser un refredat.

No li agraden aquestes noves tecnologies, doncs seria una pèrdua de treball per molta gent que es dedica a la locució.

2.4.4.2 Enquestat/da #2 Formació: Comunicació Audiovisual a la universitat Pompeu Fabra de Barcelona Lloc de residencia: Barcelona

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 52

Impressions/Comentaris: No ha treballat mai amb cap tipus de sintetitzador de veu tot i que n‘ha sentit a parlar.

Pensa que les veus sintetitzades encara són molt robòtiques i que per tant no poden ser substituïdes. El que realment es vol a l‘hora de fer qualsevol anunci publicitari, doblatge, etc., és arribar a l‘usuari final, i això s‘aconsegueix mitjançant els sentiments i les emocions, característiques que les veus artificials encara no proporcionen.

2.4.4.3 Enquestat/da #3 Estudis: Llicenciatura en Periodisme

Lloc de treball: Secció d‘informatius a la televisió BTV de Barcelona i Lavinia (Tele5) Lloc de residencia: Barcelona

Impressions/Comentaris: No ha sentit a parlar mai dels sintetitzadors de veu, per tant, es tracta d‘una tecnologia totalment nova per a ella. En cap de les seccions de les cadenes on ha treballat no ha vist mai utilitzar (ni ha utilitzat) veus robòtiques.

2.4.4.4 Enquestat/da #4 Lloc de treball: Director de doblatge i professor de postgrau a la Universitat Autònoma de Barcelona (UAB) Lloc de residencia: Barcelona

Impressions/Comentaris: Coneix els sistemes de síntesi de veu. Podrien servir per determinades parts d‘una pel·lícula en el cas de que es busquessin veus planes o robòtiques. Per la interpretació és necessària la entonació, qualitat que encara no s‘ha aconseguit. Es podria utilitzar per l‘audiodescripció si la veu fos semblant a la d‘una persona humana encara que aquesta fos neutra i sense tons.

2.4.4.5 Enquestat/da #5 Lloc de treball: Departament d‘informatius de TV3 i professor de tecnologia de l‘Escac

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 53

Lloc de residencia: Barcelona

Impressions/Comentaris: Penso que fins d'aquí a molts anys un sintetitzador de veu no podrà substituir la veu d'un doblador professional. De totes formes, sí que crec que en algunes aplicacions automatitzades per web o televisió per a invidents, pot tenir cert sentit.

Als telenotícies, la veu dels vídeos és la del mateix redactor, encarregat de la notícia. Ho fa tot ell, així, si hi ha algun canvi d‘última hora, ràpidament pot modificar el que calgui. S‘ha de tenir en compte que en els informatius prima la velocitat i l‘entonació, que ha de ser adient pel vídeo que s‘estigui muntant. Pels reportatges 30min o pel resum de l‘any, es contracten actors de doblatge. Tenen veus potents. A més a més, han fet molts cursos i saben expressar sensacions, donen èmfasi allà on toca... modulen molt bé la veu i ho fan molt ràpid. En el doblatge interessa diferents veus: nens, adults, gent estrangera, etc. En el món de la televisió es busca que tot sigui creïble. Prima més la qualitat que no la rapidesa. Ho veig més per ajudes personalitzades.

2.4.4.6 Enquestat/da #6 Formació: Llicenciada en Publicitat per la Universidad Complutense de Madrid (UCM) Lloc de treball: Molaría Lloc de residencia: Madrid

Impressions/Comentaris: No ha treballat mai amb sintetitzadors de veu. Pensa que és complicat instaurar-ho en el món audiovisual, ja que la televisió té uns antecedents que marquen el que has de fer, ja està molt implantat i és difícil canviar la veu de la persona que interpreta al ―noi famós‖.

Opina que té més sortides per serveis d‘atenció al client, fins i tot amb la intervenció d‘un ninot virtual que anés responent les preguntes més freqüents que sorgeixen a les pàgines web.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 54

2.4.5 Usuaris amb discapacitat visual

Tot i que a l‘inici del treball de recerca no s‘havia plantejat l‘estudi d‘un grup d‘usuaris concret, després de les primeres anàlisis realitzades, es va decidir incloure en l‘estudi de camp a persones amb deficiències visuals, en constatar que l‘audiodescripció és un dels possibles punt d‘entrada de les tecnologies de síntesi de veu en el món de la comunicació audiovisual. Alhora, cal destacar que aquest sector de la societat és un dels majors usuaris dels sintetitzadors de veu, un punt més per no deixar de banda a aquest sector de la població en l‘estudi de camp, tant per ser usuaris potencials de la implantació dels sistemes de síntesi de veu, com per ser experts coneixedors de la implantació de la tecnologia en el món de la comunicació audiovisual.

En el món audiovisual existeixen tècniques com l‘audiodescripció que ajuden a descriure la part visual de l‘escena i, per tant, informen de com es produeixen les accions. En aquest context, sembla que pot ser una de les vies per introduir la síntesi de veu en les produccions audiovisuals de la televisió i el cinema, i així potenciar l‘ús d‘aquesta tecnologia que és de gran ajuda per aquestes persones. Però, per això, és necessari saber quina és la seva opinió al respecte, qüestió que s‘analitza més endavant. A més, són uns dels usuaris més indicats per tal de conèixer l‘opinió que tenen de les veus sintètiques actuals, ja que tenen l‘oïda molt més desenvolupada que una persona sense aquest tipus de discapacitat.

A continuació s‘inclouen algunes de les entrevistes realitzades a persones amb discapacitat visual, la resta es poden trobar a (Torrens, 2010). Cal destacar el fet que s‘ha contactat amb persones de tot l‘estat per tal de tenir una mostra més completa en l‘enquesta d‘un dels grups d‘usuaris més interessats en al integració de les tecnologies de la síntesi de veu en el món de les produccions audiovisuals.

Algunes d‘aquestes s‘han formalitzat via e-mail, pel que s‘inclouen tal i com han estat contestades.

2.4.5.1 Enquestat/da #1 Professió: Empleada de banca Lloc de residència: Santander

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 55

- ¿Utiliza sistemas de síntesis de voz? Sí, mucho, aunque aún tienen algunas carencias. A veces no leen ciertas cosas que aparecen en la pantalla como por ejemplo los botones, aunque es más bien un problema del programa y no del sintetizador. El sintetizador más utilizado es Loquendo.

- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas del ordenador...) Para todo. Yo siempre suelo decir que en mi casa todo me habla: el móvil, el ordenador, el reloj, el robot de cocina, el termómetro, el identificador de llamada del teléfono fijo... todo.

- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por los costes que pueden suponer) Lo comercializa la ONCE, al margen de que puedas comprar por internet otros sintetizadores. Son mucho más baratos que los sistemas que te traducen un texto al braille, aunque me niego a pagar por no ver. Me compro un ordenador como cualquiera, pago por tener Windows como cualquiera, pago el antivirus como cualquiera, pero me niego a pagar otro software por no ver. No existen subvenciones y me parece inmoral. Un ebook, que puede valer unos 400 euros, yo tengo que pagar casi el doble, y un teléfono móvil, que hoy en día las compañías te los regalan, yo tengo que pagar 150 euros para poder manejarlo. Con todo esto, te digo, que todo lo que tengo es pirateado.

- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté preparado? No se necesita nada, instalas el sintetizador y ya lo puedes utilizar. Funcionan con Windows, Linux y Mac.

- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de accesibilidad aceptable? Sí, todas las que tienen flash son muy complicadas. La página web de Ryanair no es 100% accesible. También es verdad que a veces los que no son compatibles son los propios navegadores. Por ejemplo, para poder leer el Diario Montañés, que es el más frecuente aquí, con Internet Explorer es imposible porque se cierra, en cambio, con Firefox, es perfecto.

- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material es una aportación externa?

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 56

CIDAT es el departamento de investigación para material para ciegos, aunque muchos software son aportaciones externas que comercializa la ONCE.

- ¿Se van informando de todas las nuevas tecnologías que van saliendo? Sí, muchísimo. Piensa que los ciegos nos jubilamos muy pronto, hacia los 50 años, y nos queda mucho tiempo para divertirnos con la tecnología. Internet es una apertura total hacia el mundo para nosotros, sobre todo para los ciegos totales como yo. No puedo ir al quiosco y comprar el periódico, pero si puedo escucharlo mediante el ordenador. En tanto por ciento, nosotros utilizamos más el ordenador que no las personas normales, es decir, los que veis. Existen unos aparatos, del tamaño similar a un mando de garaje, que tienen dos botones. Uno de ellos, se utiliza en los semáforos a demanda del ciego, de esta manera, al no sonar periódicamente, no se molesta tanto a los demás viandantes. El otro botón está relacionado con las paradas de autobús. Cuando un ciego quiere saber cuál es la siguiente detención, pulsando el botón, el autobús lleva un sistema con voz sintetizada anunciando la calle correspondiente. Es otra aplicación con estos sistemas.

- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya diciendo? En teoría, si mandabas un mensaje de texto a Aena, éstos te remitían la información al móvil, pero a mí nunca me ha funcionado. Para un ciego total, es muy difícil moverse por espacios grandes. Existe una ayuda especial, sueles quedar con una persona unas horas antes del vuelo y ésta te hace de guía. Yo suelo viajar a menudo y me ha pasado de todo. Se olvidan de ti, te embarcan en otro vuelo... Lo malo de ahora es que en los aeropuertos han suspendido los mensajes de voz y todo va por pantalla. Esto significa que, si el avión ha sido anulado o retrasado, ya no te enteras, y te quedas esperando ahí como una estatua perdiendo el tiempo, ya que, igual solo viajabas para ir a una conferencia o a una reunión, y ya no te interesa despegar. Estaría muy bien que existieran unos aparatos que hicieran un barrido de pantalla y te fueran diciendo todo.

- Como todas las personas, ustedes también son fans del cine y les gusta la televisión como medio de distracción. En las situaciones dónde los personajes se comunican con los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa acción? Si es así, ¿se utiliza voz sintética? En TVE hay películas audiodescritas. En Madrid, de vez en cuando, los cines hacen audiodescripción de alguna de las películas que están en cartelera. Te dan un aparato y te va describiendo todo en los espacios donde los personajes no hablan. Hay cosas que sobran de las audiodescripciones. A veces describen en exceso vestimentas y se dejan otras cosas. No me importa si el hombre lleva camisa blanca y la mujer vestido rojo, prefiero saber la edad de los personajes o si la zona es arbolada

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 57

para imaginar cómo puede producirse la acción. También es cierto que yo estoy acostumbrada a ir al cine e igual no necesito tantos datos como otra gente. No hay que olvidar que, para los ciegos, la música, nos dice muchas cosas. Está claro que, cuando escuchas una canción romántica, consecutivamente habrá un beso. En todos los casos, la voz siempre es humana.

- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe alguna persona o tecnología que describa las imágenes de los vídeos que aparecen? Si es así, ¿se utiliza voz sintética? No existe, tenemos que escuchar la radio o leer la prensa por internet para estar informados, pero sería muy interesante que lo describiesen, nos abriría las puertas a un nuevo canal.

- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se podría utilizar? ¿lo ve conveniente? La voz sintética es odiosa para la lectura de libros, pero está bien cuando te dan datos, que es el caso de las audiodescripciones en el cine o de los vídeos en los informativos, así que lo veo muy bien, creo que tiene futuro.

- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las situaciones o acciones que están ocurriendo? En ópera no. Creo que sería difícil porque necesitarías a alguien describiendo continuamente lo que está ocurriendo en escena mientras están cantando, por lo que se interferiría la audiodescripción con el canto. En el teatro hay momentos en los que se producen silencios, así que sí que se podría aplicar.

- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio? Claro. De hecho, creo que en algún anuncio de coches ya se ha utilizado.

- ¿Sugerencias? Creo que sería de gran ayuda que los autobuses llevasen un altavoz y al abrirse la puerta en cada parada, te dijeran el número del mismo. Se podría utilizar voz sintética y además no solo serviría para nosotros, sino que también para la gente mayor. En los conciertos en directo a veces proyectan cosas en pantallas, sería interesante si nos lo describieran. En cualquier audiodescripción, las frases tienen que ser cortas, capaces de explicar la situación con 5 o 6 palabras para no robar espacio. Muy descriptivas en poco espacio de tiempo.

Todo lo que vosotros tengáis acceso con la vista que nosotros tengamos acceso con la voz. Nos harían la vida mucho más fácil.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 58

2.4.5.2 Enquestat/da #2 Professió: Telefonista Lloc de residència: Madrid

- ¿Utiliza sistemas de síntesis de voz? Sí, soy usuaria de sistemas de síntesis de voz.

- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas del ordenador...) Lectura de sms y otras funciones de los teléfonos móviles, lectura de libros, lectura de pantalla del ordenador, etc.

- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por los costes que pueden suponer) Bueno, realmente no son de fácil acceso si hablamos en términos económicos. No todas las personas que los necesitan pueden afrontar los elevados costes y por eso a veces se suele tender al pirateo de dichas síntesis de voz.

- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté preparado? Lo cierto es que la mayoría de los sistemas operativos admiten síntesis de voz pero obviamente si bien la accesibilidad mejora considerablemente, cada actualización a versiones más avanzadas de los mencionados sistemas operativos requiere una actualización de los programas de síntesis de voz.

- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de accesibilidad aceptable? Sí. Muchas webs son diseñadas de acuerdo a la imagen estética. Muchas empresas buscan el "entrar por los ojos" al cliente potencial y se olvidan que las personas ciegas también podemos ser clientes potenciales. Cierto que se está empezando a mejorar en este sentido pero queda mucho camino por recorrer.

- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material es una aportación externa? Existe un departamento de investigación pero realmente son las empresas externas las que hacen las aportaciones con el encarecimiento de los productos que esto conlleva. En síntesis de voz, todo es externo.

- ¿Se van informando de todas las nuevas tecnologías que van saliendo? Bueno... Supongo que en parte.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 59

- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya diciendo? En el supermercado con ayuda de una persona que vea. En el aeropuerto hay personal -si se solicita previamente a la fecha del viaje- para ayudar y creo que se cuenta -no sé si en todos los aeropuertos o solamente en algunos- con un sistema de llamada al móvil en el que se informa acerca de la puerta de embarque.

- Como todas las personas, ustedes también son fans del cine y les gusta la televisión como medio de distracción. En las situaciones dónde los personajes se comunican con los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa acción? Si es así, ¿se utiliza voz sintética? Sí, afortunadamente el sistema audesc, o lo que es igual, audiodescripción, se está empezando a implantar y muchos DVD comerciales ya lo llevan incorporado. También algunas cadenas televisivas están empezando a incorporar este sistema en algunas películas. Personalmente prefiero que se use voz humana.

- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe alguna persona o tecnología que describa las imágenes de los vídeos que aparecen? Si es así, ¿se utiliza voz sintética? No. No obstante no lo veo necesario en estos casos.

- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se podría utilizar? ¿lo ve conveniente? En el caso del cine sería una interesante idea. En el caso de los informativos no lo veo necesario pues la noticia en sí misma ya nos da la idea de las imágenes que se emiten.

- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las situaciones o acciones que están ocurriendo? Esto solamente ocurre en sesiones de teatro especiales.

- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio? No. La voz sintética debería dejarse más bien para cosas muy puntuales. Resulta impersonal, fría y distante.

- ¿Sugerencias? Considero que no debe abusarse de la voz sintética y dejarla para lectura de pantallas o informaciones puntuales, servicios de megafonía y similares. En los sistemas de audiodescripción es mejor utilizar voz humana pues es más directo y cercano el

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 60

mensaje y uno puede hacerse más claramente la idea de la imagen que está describiendo.

2.4.5.3 Enquestat/da #3 Professió: Especialista integración laboral Lloc de residència: Málaga

- ¿Utiliza sistemas de síntesis de voz? Sí

- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas del ordenador...) Lector de pantallas PC y móvil, iPod, conversor de audiolibros.

- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por los costes que pueden suponer) Algunos sí y otros no.

- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté preparado? Depende del sistema operativo. Windows, Linux, Mac, Symbian y Android soportan lectores de pantalla.

- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de accesibilidad aceptable? La mayoría no ofrecen un nivel de accesibilidad aceptable, pero sí que accedemos a casi todas de una manera poco ortodoxa.

- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material es una aportación externa? Sí lo hay, aunque la mayor parte del material es aportación externa.

- ¿Se van informando de todas las nuevas tecnologías que van saliendo? Gracias a las listas de distribución especializadas, blogs y redes sociales gestionadas por usuarios.

- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya diciendo? A través de las webs de los supermercados, podemos saber los precios.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 61

- Como todas las personas, ustedes también son fans del cine y les gusta la televisión como medio de distracción. En las situaciones dónde los personajes se comunican con los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa acción? Si es así, ¿se utiliza voz sintética? En el cine, se utiliza el sistema AUDESC, es decir, la audiodescripción, pero la voz es humana.

- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe alguna persona o tecnología que describa las imágenes de los vídeos que aparecen? Si es así, ¿se utiliza voz sintética? No existe nada.

- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se podría utilizar? ¿lo ve conveniente? Se utiliza en cine, en algunas películas

- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las situaciones o acciones que están ocurriendo? En las obras adaptadas, la audiodescripción, como en el cine.

- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio? Sí, pero serían menos atractivos.

- ¿Sugerencias? ----

2.4.5.4 Enquestat/da #4 Professió: Administrativo Lloc de residència: Santander

- ¿Utiliza sistemas de síntesis de voz? Sí

- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas del ordenador...) Lectura SMS, lector de libros, lector de pantallas del ordenador, telefonía móvil, reloj, calculadora, anotadores parlantes, cronómetros, megafonía de espacios públicos y medios de transporte, grabación de etiquetas sonoras, ajedrez y otros juegos electrónicos, GPS, ascensores...

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 62

- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por los costes que pueden suponer) El programa de síntesis de voz más generalizado para el uso de ordenadores se llama Jaws y su precio aproximado es de 800 a 1000 euros, lo que entorpece introducirse en la informática a los ciegos por su alto coste o les obliga a utilizar demos o copias sin licencia. Es urgente disponer de un software de acceso libre o coste más favorecedor. Las síntesis de voz incorporadas a productos de consumo no encarecen el precio de éstos, ni tampoco el de los ordenadores que disponen de ella desde su fabricación.

- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté preparado? El programa Jaws funciona con Windows y evoluciona a medida que lo hacen las versiones de este sistema operativo, observándose un año de diferencia entre uno y otro aproximadamente. Existe un programa de voz para Linux, susceptible de ser mejorado, y otro para Apple que viene incorporado de fábrica.

- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de accesibilidad aceptable? Las páginas web tienen distinto grado de accesibilidad, dependiendo de su diseño. Son absolutamente inaccesibles las que están basadas en pantallas flash dinámicas, y en estos casos se sugiere a los diseñadores que ofrezcan como alternativa un enlace al mismo contenido con formato de texto.

- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material es una aportación externa? El centro de la ONCE encargado de la evaluación, investigación y distribución de estos materiales se denomina CIDAT (Centro de Investigación, Desarrollo y Aplicación Tiflotécnica). Los usuarios tenemos la impresión de que su actividad se enfoca fundamentalmente a la distribución y la evaluación de productos ajenos y menos a la investigación y fabricación de artículos propios, pero puede ser una apreciación subjetiva.

- ¿Se van informando de todas las nuevas tecnologías que van saliendo? Mensualmente se publica una nota informativa con las novedades que comercializa, pero no hay un canal estable de información sobre novedades generales y menos de previsiones futuras.

- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya diciendo? Hay muchas situaciones de la vida diaria en las que los ciegos necesitamos el apoyo de una tercera persona por falta de tecnología para facilitarnos mayor autonomía

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 63

personal, como en estaciones de tren, aeropuertos, establecimientos públicos en los que un dispositivo numerador establece el orden de los clientes... La compra en supermercados requiere que la realicemos con la ayuda de una persona, o bien haciéndola por teléfono o a través de internet en los casos donde las páginas web correspondientes son accesibles (Mercadona, Supercor, Eroski...) Podría solucionarse la dificultad con el empleo de un lector de tarjetas RFID con síntesis de voz, aprovechando las posibilidades de los códigos de barras.

- Como todas las personas, ustedes también son fans del cine y les gusta la televisión como medio de distracción. En las situaciones dónde los personajes se comunican con los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa acción? Si es así, ¿se utiliza voz sintética? Desde hace quince años, aproximadamente, la ONCE adapta películas incorporando una voz humana en off a la banda sonora, lo que conocemos como audiodescripción. Por otro lado, la Fundación Orange y Navarra de Cines desarrollan un proyecto similar, también con voz humana, comercializándose DVDs. que llevan incorporadas como posibilidad la opción de activar la audiodescripción para personas ciegas o una subtitulación con código de colores para personas con deficiencia auditiva. La posibilidad de desarrollar iniciativas semejantes utilizando síntesis de voz abarataría sensiblemente los precios de producción y permitiría generalizar su uso en un número muy superior de películas.

- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe alguna persona o tecnología que describa las imágenes de los vídeos que aparecen? Si es así, ¿se utiliza voz sintética? No está resuelto el problema de la descripción de las imágenes que aparecen en la programación de la televisión, y nos apoyamos exclusivamente en la información hablada o la ayuda de las personas que nos acompañan.

- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se podría utilizar? ¿lo ve conveniente? Sí, es necesario.

- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las situaciones o acciones que están ocurriendo? Para el teatro y la ópera se aplica un sistema parecido al de las películas con la audiodescripción, pero son pocos los casos en que se lleva a cabo como consecuencia de los costes y los recursos materiales necesarios.

- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio?

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 64

La voz sintética requiere una cierta familiarización previa, por lo que inicialmente suele rechazarse como alternativa. A mi juicio, el motivo del rechazo se debe más bien a una falta de perfeccionamiento en la modulación fónica, lo que llegará a superarse en el momento en que la humanización de las voces haga más sensitiva su audición.

- ¿Sugerencias? Alguno de los sectores en los que no se han incorporado síntesis de voz ni otro sistema de accesibilidad es el de los electrodomésticos, como lavadoras, microondas, cocinas de inducción, lavaplatos, etc., los rótulos públicos, el etiquetado de ropa, los museos y exposiciones..., lo que representaría un avance muy importante en la autonomía de las personas con ceguera o deficiencia visual, el acceso a la cultura como derecho público y la inclusión social en general.

2.4.5.5 Enquestat/da #5 Professió: Fisioterapeuta Lloc de residència: Almería

- ¿Utiliza sistemas de síntesis de voz? Sí, en varios dispositivos.

- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas del ordenador...) Lector de pantallas de ordenador y teléfonos móviles, lectura de libros y documentos diversos, identificadores de colores, etc.

- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por los costes que pueden suponer) En estos momentos su precio ha disminuido respecto a otros tiempos, pero sigue siendo caro el acceso a estas aplicaciones. Existen voces gratuitas, y esto facilita en ocasiones las cosas, pero su calidad suele ser muy inferior.

- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté preparado? No es necesario, porque en realidad el problema es a la inversa, es decir, el lector de pantallas es un programa que debe ser compatible con el ordenador. Lo ideal sería que no fuese necesario adquirir lectores de pantalla para instalar posteriormente en ordenadores, y esto es posible.

- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de accesibilidad aceptable? Sí, y lamentablemente eso nos dificulta el acceso a información importante en muchas ocasiones. Por ejemplo, las webs de bancos como el Santander presentan problemas

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 65

de accesibilidad a la hora de verificar las claves, operadores como Ono presentan problemas similares. Hay más pero no cabe aquí.

- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material es una aportación externa? En el Cidat deberían ocuparse de esto, pero no sé hasta qué punto lo hacen. Visita http://www.once.es/cidat/

- ¿Se van informando de todas las nuevas tecnologías que van saliendo? Desde la ONCE hacen mucho hincapié en informar sobre las tecnologías específicas, pero desde otros foros, listas, redes sociales, etc., se obtiene información acerca de las tecnologías universales que nos pueden ser útiles.

- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya diciendo? En la actualidad no hay dispositivos que nos permitan comprar en el supermercado como los videntes ni obtener información de pantallas en medios de transporte públicos. No nos queda otra que contar con la buena voluntad de los demás y con los amigos.

- Como todas las personas, ustedes también son fans del cine y les gusta la televisión como medio de distracción. En las situaciones dónde los personajes se comunican con los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa acción? Si es así, ¿se utiliza voz sintética? Si queremos acceder a películas audiodescritas tenemos que ir a la ONCE a retirarlas o contar con algún canal de televisión que amablemente ponga una de estas películas. Normalmente imaginas, lo supones o lo preguntas. La voz de audiodescripción no es sintética actualmente.

- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe alguna persona o tecnología que describa las imágenes de los vídeos que aparecen? Si es así, ¿se utiliza voz sintética? No se describen los vídeos en ningún momento. Todo hay que imaginarlo o esperar que algún tertuliano de algún lugar comente algo. Si es un vídeo demasiado polémico o importante, pedimos descripción a amigos o conocidos.

- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se podría utilizar? ¿lo ve conveniente? Sería importante que así fuera, aunque no sé yo si los videntes aceptarían estas interrupciones. Para nuestro colectivo sería muy interesante.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 66

- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las situaciones o acciones que están ocurriendo? Creo que no, pero ahí mi experiencia es más limitada.

- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio? Supongo que sí, pero tampoco creo que sea imprescindible.

- ¿Sugerencias? • Implementar lectores de pantalla en cajeros automáticos -no me sirve un teclado en braille si no puedo acceder al contenido de la pantalla. • Que se universalicen los lectores de pantalla en móviles y ordenadores, de forma que no nos suponga un costo mayor acceder a lo que nos corresponde por derecho. • Colocar sistemas de voz sintética en autobuses que, al abrir la puerta o detenerse, anuncien en el exterior qué línea cubren y en qué sentido van. • Voz sintética universal en los dispositivos de TDT o acceso a los menús mediante móvil y bluetooth. • Posibilidad de interacción con móviles de electrodomésticos para poder así acceder a la información de los displays de los mismos. • Voz sintética en cualquier tipo de máquina expendedora (refrescos, golosinas, billetes de tren o metro, etc.). • Acceso mediante bluetooth a información a través de voz sintética que permita saber los tiempos de espera de las líneas de autobús, aviones, autobuses interurbanos, etc. • Establecer una base de datos de códigos de barra y una aplicación universal que permita con diferentes dispositivos -pda, móvil, etc.-, acceder a datos como nombre del producto, precio, fecha de caducidad, etc.

2.4.5.6 Enquestat/da #6 Professió: Venedora ONCE Lloc de residència: Terrassa (Barcelona)

- ¿Utiliza sistemas de síntesis de voz? Sí

- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas del ordenador...) • Lector de pantalla ordenador. • Lector de pantalla del móvil, que permite el acceso a prácticamente todas las funciones del mismo. • Reproductor de libros en formato Daisy, que dispone de síntesis de voz propia para navegar por menús.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 67

• Síntesis de voz propia que incorpora el robot de cocina "La cocinera" (aunque es voz humana pregrabada y no sintética). • Síntesis de voz propia de un identificador de llamadas para fijos, que anuncia el teléfono llamante y el día y hora de la llamada. • Síntesis de voz que trae de serie el IPod Touch de las últimas generaciones. • Termómetro parlante con síntesis de voz. • Kapten (navegador GPS sin pantalla que funciona mediante reconocimiento de voz y síntesis de voz). • Báscula de baño y de cocina también con síntesis de voz.

- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por los costes que pueden suponer) El lector de pantalla que utilizo para el ordenador (Jaws) es caro. No recuerdo el precio exacto, pero no está al alcance de todos los bolsillos (quizás ronde los 900€). El del teléfono móvil (Mobile Speak) cuesta en torno a los 100€ en estos momentos, aunque cuando yo lo adquirí costaba 150€, lo cual no es poco, porque en ocasiones se paga más por el programa que por el propio terminal. El aparato reproductor de libros Daisy, que incorpora la síntesis de voz, cuesta en torno a 300€, cifra nada despreciable y poco asequible. El robot de cocina, está en torno a los 600 o 700€, creo que es un precio normal para este tipo de aparatos. El identificador de llamadas, creo que ahora está en torno a los 30€. Y el IPod lo trae de serie, así que no pagamos más por tener accesibilidad, lo cual es de agradecer a Apple enormemente. El GPS está en torno a los 180€, y las básculas no superan los 60.

- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté preparado? No soy técnica en la materia, pero el lector que utilizo funciona en Windows (diría que en todas sus versiones), y sin que el ordenador deba tener características especiales, y hay otros específicos aunque menos desarrollados para Linux. Para Mac, también se incluye ya de serie un lector de pantallas, el Voice Over (que es el mismo que lleva el IPod) y que, por lo que dicen, funciona bien. Como lo ha desarrollado Apple para sus productos, ya éstos están preparados para su funcionamiento correcto.

Ten en cuenta que una cosa es poder utilizar los sistemas operativos, y la otra, bien distinta, es que se pueda tener acceso a todo tipo de programas y aplicaciones. Eso no es así: en los entornos gráficos, o que no cumplen ciertos estándares de accesibilidad, estos programas lectores de pantalla no funcionan en absoluto o presentan múltiples problemas que dificultan mucho el uso de esas aplicaciones.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 68

- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de accesibilidad aceptable? Es cierto que tenemos problemas de acceso a algunas Webs. Tal como te he comentado con los programas, si no se cumplen en las WEBS ciertos estándares de accesibilidad (que no te puedo precisar por desconocerlos) las páginas son mal interpretadas por el lector, y, o no se puede acceder a parte del contenido, o a ninguno en ciertos casos.

- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material es una aportación externa? En la ONCE tenemos el Centro de Investigación, Desarrollo y Aplicación Tiflotécnica (CIDAT). Aquí puedes consultar a grosso modo qué hacen: http://cidat.once.es/ Todos los productos que vende la ONCE son testados por el CIDAT, pero no producidos por ellos en su mayoría, sino por empresas externas.

Y no todos los productos de tiflotecnología (tecnología aplicada a la ceguera o deficiencia visual) se han de comprar necesariamente en la ONCE, también hay otros agentes que los venden, aunque la ONCE tiene un precio para afiliados más asequible que para no afiliados, lo cual nos resulta de interés a los que podemos beneficiarnos de esa ventaja.

De todas formas, puedes ponerte en contacto con el CIDAT para ampliar esta información con fuentes más veraces que yo.

- ¿Se van informando de todas las nuevas tecnologías que van saliendo? Hay información por muchas vías. La ONCE difunde permanentemente notas informativas con actualizaciones de los productos que ellos distribuyen, y las listas de correo (por ejemplo Tiflonet) son también una buena forma de difundir y obtener información de nuevos productos, actualizaciones, etc. Aunque creo que no nos llega toda la información que existe realmente, y eso que somos internautas. Quien no tiene acceso a las nuevas tecnologías tiene muchos más problemas para acceder a toda la información en general, y a ésta en particular.

- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya diciendo? Para el supermercado, pues preguntando, porque aunque habría posibilidades de usar códigos de barras con información y sus respectivos lectores, no se ha implantado aún realmente. Yo a veces hago la compra por internet (Mercadona tiene página accesible) y ahí consulto todos los precios y decido libremente

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 69

En el aeropuerto no sé bien cómo funciona, pero tengo entendido que hay un sistema que avisa mediante teléfono móvil o algo así, aunque no sé hasta qué punto es efectivo y fiable.

- Como todas las personas, ustedes también son fans del cine y les gusta la televisión como medio de distracción. En las situaciones dónde los personajes se comunican con los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa acción? Si es así, ¿se utiliza voz sintética? Ese sistema se conoce como de audiodescripción. Se aprovechan los espacios sin diálogos para introducir una voz en of que va explicando qué pasa, la parte visual que no podemos apreciar. Nunca he escuchado voz sintética para esas explicaciones, siempre es real.

- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe alguna persona o tecnología que describa las imágenes de los vídeos que aparecen? Si es así, ¿se utiliza voz sintética? No sé si con el TDT se haya implantado esa tecnología para los informativos, porque no tengo acceso a las opciones de la TDT por resultarme inaccesibles esos aparatos. Hasta donde yo sé, no hay audiodescripción en tiempo real, salvo cuestiones puntuales (audiodescripción para una conferencia concreta, o una obra de teatro determinada, etc.). Desde luego en televisión yo no he tenido el gusto de disfrutar de eso, que por otra parte sería muy interesante.

- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se podría utilizar? ¿lo ve conveniente? Como digo sería muy interesante que se ampliara la utilización de la audiodescripción a todos los niveles en que se considere necesario. En este punto, aunque la voz humana es más agradable al oído (a pesar de la proliferación de voces sintéticas cada vez más logradas) yo me conformaría con que fuera una voz sintética la que pudiera explicarme todo lo que no logro ver de los programas de televisión, películas, documentales, noticieros, etc. Creo que, igual que para los sordos existe la subtitulación simultánea (no sé si esa es la denominación pero sí el concepto) se podrían aprovechar técnicas de escritura rápidas como la estenografía informatizada para, posteriormente, narrar esa información mediante voz sintética, en tiempo real.

- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las situaciones o acciones que están ocurriendo? Nunca he asistido a una ópera, pero sí a alguna obra de teatro audiodescrita. Hay un narrador en off que rellena esos vacíos de información, y para que sólo lo escuchemos los que realmente lo necesitamos se nos facilitan unos auriculares. Las que yo he escuchado son voces reales, no sintéticas.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 70

- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio? Pues no sé hasta qué punto. No creo que me gustara demasiado, porque la voz humana es muchísimo más expresiva y transmite mucho más que la sintética, y la calidad no tiene comparación. Le encuentro muchos usos a la voz sintética, pero precisamente éste la verdad es que no me convence.

- ¿Sugerencias? Pues no se me ocurre ahora mismo ninguna en particular. En general, me parece interesante que se investigue y profundice en la búsqueda de aplicaciones para la síntesis de voz que puedan resultar útiles a personas con discapacidad visual u otro tipo de dificultades (anuncios de autobuses, de la calle en la que estamos para proporcionarnos una mejor movilidad, o multitud de ejemplos similares).

2.4.5.7 Enquestat/da #7 Professió: Programador Lloc de residència: Madrid

- ¿Utiliza sistemas de síntesis de voz? Sí

- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas del ordenador...) Todo lo que tenga que ver con el uso de tecnologías. Es mi puerta de acceso a la información.

- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por los costes que pueden suponer) A las síntesis sí, a los lectores de pantalla propietarios no tanto. JAWs, por ejemplo, cuesta más de 1000€. Existen lectores gratuitos como: NVDA para Windows, Orca para Linux y Voice Over para Mac.

- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté preparado? No, sólo cumplir requisitos mínimos de software (el sistema operativo objetivo del lector), y de hardware (tarjeta de sonido para servir como sistema de salida de la síntesis).

- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de accesibilidad aceptable? Sí, ese es un gran problema en el acceso a la información.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 71

- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material es una aportación externa? Hay un grupo de investigación (CIDAT, Centro de Investigación y Desarrollo de Aplicaciones Tiflotécnicas), pero básicamente sirven como distribuidores de desarrollos externos.

- ¿Se van informando de todas las nuevas tecnologías que van saliendo? Sí, por parte del CIDAT una minoría, y por parte de redes complementarias, la mayoría: webs y blogs especializados, y redes sociales, Twitter, sobre todo, es ahora una red social que está teniendo bastante tirón.

- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya diciendo? No, hay que preguntar in situ en las tiendas, o aeropuertos. Hay aplicaciones para móviles, que pueden decirnos tiempos de espera y puertas de embarque en aeropuertos (la que conozco es para iPhone), pero para tiendas, nada de nada, hasta donde yo sé.

- Como todas las personas, ustedes también son fans del cine y les gusta la televisión como medio de distracción. En las situaciones dónde los personajes se comunican con los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa acción? Si es así, ¿se utiliza voz sintética? No, se utiliza voz humana, y sólo en películas que cuenten con adaptación audiodescrita. No son sistemas automatizados, sino que son personas las que se encargan de complementar la banda sonora de la película, con la descripción de lo que ocurre, rellenando siempre espacios vacíos en los diálogos.

- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe alguna persona o tecnología que describa las imágenes de los vídeos que aparecen? Si es así, ¿se utiliza voz sintética? No

- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se podría utilizar? ¿lo ve conveniente? Sí, con un algoritmo de inteligencia artificial, procesamiento de imágenes y demás. Ya hay proyectos en desarrollo, pero aún queda mucho para que llegue al público.

- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las situaciones o acciones que están ocurriendo? No

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 72

- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio? ¡No! ¡Qué cosa más antinatural! Si me venden algo con la voz de Loquendo, te aseguro que no me lo compro. No tienen suficiente expresividad para ser creíbles y convincentes.

- ¿Sugerencias? ----

2.4.5.8 Enquestat/da #8 Professió: Periodista Lloc de residència: Huesca

- ¿Utiliza sistemas de síntesis de voz? Sí

- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas del ordenador...) Lector de pantalla, teléfonos móviles, lector de libros en tinta.

- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por los costes que pueden suponer) Digamos que son de acceso medio/alto para los tiempos que corren, no son baratos, pero tampoco son carísimos.

- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté preparado? No

- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de accesibilidad aceptable? Sí, lo es.

- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material es una aportación externa? Lo hay, en muchas cosas es bastante eficaz, en otras, para mi gusto, algo hermético y anticuado.

- ¿Se van informando de todas las nuevas tecnologías que van saliendo? Podríamos decir que sí.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 73

- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya diciendo? Que yo sepa no existe, hay que tirar de oído o de unos ojos que te ayuden, al menos en mi caso

- Como todas las personas, ustedes también son fans del cine y les gusta la televisión como medio de distracción. En las situaciones dónde los personajes se comunican con los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa acción? Si es así, ¿se utiliza voz sintética? Existe el sistema de audiodescripción en DVD, que se empieza a implantar muy escasamente en cine y en TDT, pero siempre con un guión audiodescriptivo hecho por una voz humana.

- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe alguna persona o tecnología que describa las imágenes de los vídeos que aparecen? Si es así, ¿se utiliza voz sintética? Que yo sepa no hay ninguna adaptación para esto, salvo la voz en off que acompaña a la noticia, que lógicamente no reproduce la imagen, sino que la acompaña.

- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se podría utilizar? ¿lo ve conveniente? Personalmente veo muy conveniente seguir trabajando en la descripción en cine y televisión, ya sea con voz sintética o humana.

- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las situaciones o acciones que están ocurriendo? No suelo frecuentar el teatro ni la ópera.

- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio? Creo que nada en radio como la voz humana, lo digo por experiencia, pero en los tiempos que corren, cualquier cosa es posible...

- ¿Sugerencias? Adelante con esto, para nosotros, los ciegos, cualquier síntesis de voz es vida.

2.4.5.9 Enquestat/da #9

Professió: Venedor ONCE Lloc de residència: Elx, Alacant

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 74

- ¿Utiliza sistemas de síntesis de voz? Sí

- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas del ordenador...) Para todo. En el móvil, en el PC con revisores de pantalla y a veces para leer libros.

- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por los costes que pueden suponer) Hay de todo, pero los gratuitos no suelen tener mucha calidad.

- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté preparado? No, basta con que tenga potencia suficiente para hacer correr el programa lector, y un sistema operativo con el que sea compatible.

- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de accesibilidad aceptable? Sí, pero el problema es más por el mal diseño de las webs, que no porque los lectores de pantalla no sean eficaces.

- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material es una aportación externa? Sí, el CIDAT. Antes intentaban desarrollar sus propios productos, ahora creo que más que nada se dedican a evaluar productos externos.

- ¿Se van informando de todas las nuevas tecnologías que van saliendo? Sí, sobre todo a los que nos interesa el tema. Estamos suscritos a listas de correo, Twitter, etc.

- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya diciendo? Los precios en el supermercado, como no vaya con alguien que los vea, nada. Para mí, personalmente, es más cómodo comprar por Internet que ir al establecimiento. Las pantallas de los aeropuertos no sé, hace años que no voy a uno. Las más accesibles que conozco son las de Hacienda que tienen TTS.

- Como todas las personas, ustedes también son fans del cine y les gusta la televisión como medio de distracción. En las situaciones dónde los personajes se comunican con los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa acción? Si es así, ¿se utiliza voz sintética?

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 75

Sí, se llama audiodescripción y lo narra un locutor, no una voz sintética. Hay pocas películas audiodescritas. Las hacen, sobretodo, la ONCE y TV3, aunque ya han salido algunos DVD con Audesc.

- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe alguna persona o tecnología que describa las imágenes de los vídeos que aparecen? Si es así, ¿se utiliza voz sintética? No

- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se podría utilizar? ¿lo ve conveniente? En el cine y series de TV sí, ya debería ser un estándar. En otras emisiones en directo y en tiempo real como informativos, lo veo más difícil.

- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las situaciones o acciones que están ocurriendo? En teatro se ha hecho alguna prueba con auriculares y un narrador que va explicando la acción. Ha funcionado bien, pero no han sido más que experiencias puntuales.

- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio? Sí, ¿por qué no? Las hay con calidad suficiente para que quien no está muy acostumbrado ni siquiera note que son sintéticas. Aunque habría que postproducirlas porque la expresividad no suele ser su fuerte, si lo quieres hacer bien, pero casi me parece más trabajo que grabar a un locutor humano.

- ¿Sugerencias? ----

2.4.5.10 Enquestat/da #10

Professió: Tècnic en comunicació audiovisual Lloc de residència: Madrid

¿Utiliza sistemas de síntesis de voz? Sí

- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas del ordenador...) Lector de pantalla de smartphone y de PC, lectura libros (conversión TTS en MP3 y editores de texto)

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 76

- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por los costes que pueden suponer) No conozco a nadie que haya pagado por una licencia específica. Los precios son desproporcionados. Lo más usual es utilizar los motores incorporados por defecto en los programas de lectura (sean o no legales). Los motores gratuitos, tipo Espeak se valoran negativamente. A mí me parecen muy dignos.

- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté preparado? No, salvo determinadas versiones que requieren SAPI 4.

- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de accesibilidad aceptable? La accesibilidad de las webs no tiene ninguna relación con los sintetizadores, sino con el software de revisión y/o navegadores y su relación con el código de la página. Dicho lo cual, sigue habiendo muchos problemas de accesibilidad web.

- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material es una aportación externa? Aunque existe un centro de I+D, hasta dónde yo conozco no desarrollan ninguno de los productos que utilizo. En tiempos se limitaban a traducir alguno de ellos. Creo que hoy ya no. Se limitan a importar, si procede, y distribuir a quién no tiene acceso por otra vía.

- ¿Se van informando de todas las nuevas tecnologías que van saliendo? Gracias a otros usuarios e internet.

- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya diciendo? Para el súper no hay solución, hoy por hoy. Hay varios pilotos de lectura de códigos Bidi y de Barras mediante móvil, pero no pasan de proyecto. En España Aena tiene un buen servicio de información vía web móvil para acceder a información útil en aeropuertos.

- Como todas las personas, ustedes también son fans del cine y les gusta la televisión como medio de distracción. En las situaciones dónde los personajes se comunican con los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa acción? Si es así, ¿se utiliza voz sintética? No. Todas las experiencias que conozco de "audiodescripción", que es como se llama la técnica, utilizan voz humana pregrabada y sincronizada con la pista de audio del

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 77

programa principal, o bien voz humana en directo, cuando el tipo de contenido así lo exige.

- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe alguna persona o tecnología que describa las imágenes de los vídeos que aparecen? Si es así, ¿se utiliza voz sintética? No conozco ninguna experiencia en España de informativos audiodescritos.

- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se podría utilizar? ¿lo ve conveniente? Estoy seguro de que se puede, sobre todo en el segundo caso. En el primero, puede que la intencionalidad en la modulación de la voz y en su tono, acorde al tipo de contenidos descritos, pueda ser un problema aún.

- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las situaciones o acciones que están ocurriendo? Sí, aunque apenas se utiliza. Se trata de sistemas de traducción simultánea, vía RF o infrarrojos, con un narrador en directo.

- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio? No le encuentro ninguna ventaja, salvo cuando se trate de un recurso narrativo o se trate de producciones de tan bajo coste, que no contarían con recursos para su difusión.

- ¿Sugerencias? La gran mayoría de los desarrollos evolutivos de los sintetizadores persiguen la "apariencia real" de la voz. Hay todo un campo por explorar para lograr mayores índices de comprensibilidad en condiciones extremas (velocidad, ruido de fondo, bajo volumen...). Las voces más "humanas" no son las más útiles para nosotros.

2.4.5.11 Enquestat/da #11 Professió: Pedagoga Lloc de residència: Barcelona

- ¿Utiliza sistemas de síntesis de voz? Sí.

- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas del ordenador...) Lector de pantalla de ordenador y de teléfono móvil.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 78

- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por los costes que pueden suponer) Son demasiado caros teniendo en cuenta que para las personas ciegas son productos de primera necesidad.

- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté preparado? Según mis escasos conocimientos en informática, no necesita tener ninguna preparación especial, pero estos lectores son más compatibles con Windows que con otros sistemas operativos.

- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de accesibilidad aceptable? Es cierto que muchas webs no resultan accesibles para los lectores de pantalla, pero afortunadamente, cada vez se respetan más las normas de confección de webs accesibles.

- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material es una aportación externa? En la ONCE hay departamento de investigación, aunque creo que muchas adaptaciones provienen del exterior y la ONCE se limita a traducirlas al español.

- ¿Se van informando de todas las nuevas tecnologías que van saliendo? Sí, lo hacen a través de notas informativas a los afiliados a la ONCE.

- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya diciendo? No es posible acceder a la información de los supermercados, de los aeropuertos, etc. No existe ningún aparato que nos ayude en ese tema. En las estaciones de tren suelen anunciar la circulación de trenes por megafonía y esto resulta ser un buen sistema, siempre y cuando funcione y se escuche correctamente

- Como todos los humanos, ustedes también son fans del cine y les gusta la televisión como medio de distracción. En las situaciones dónde los personajes se comunican con los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa acción? Si es así, ¿se utiliza voz sintética? Existe la audiodescripción que, afortunadamente, cada vez se va extendiendo más, pero hasta ahora sólo podemos disfrutarla en casa y no en los cines. La realizan la ONCE y alguna otra empresa externa como TV3. La descripción la hacen personas.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 79

- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe alguna persona o tecnología que describa las imágenes de los vídeos que aparecen? Si es así, ¿se utiliza voz sintética? No.

- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se podría utilizar? ¿lo ve conveniente? Veo conveniente que se implemente cualquier sistema de descripción para estas situaciones y prefiero que, aunque sean voces sintéticas, sean humanas y resulten cálidas.

- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las situaciones o acciones que están ocurriendo? En algunos casos hay una persona que hace audiodescripción que llega a nosotros a través de unos auriculares inalámbricos.

- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio? Prefiero la voz humana.

- ¿Sugerencias? ----

2.4.5.12 Enquestat/da #12 Professió: Tècnic de Biblioteca ONCE Lloc de residència: Madrid

¿Utiliza sistemas de síntesis de voz? Sí

- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas del ordenador...) En los tres casos indicados además de en electrodomésticos de la vida diaria.

- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por los costes que pueden suponer) No, resultan caros.

- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté preparado? Los programas con los que funciona el ordenador sí deben permitirlo.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 80

- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de accesibilidad aceptable? Sí

-¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material es una aportación externa? Sí, el Centro de Investigación CIDAT

-¿Se van informando de todas las nuevas tecnologías que van saliendo? Sí

- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya diciendo? No. Hay que recurrir a que alguien te los verbalice.

- Como todos los humanos, ustedes también son fans del cine y les gusta la televisión como medio de distracción. En las situaciones dónde los personajes se comunican con los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa acción? Si es así, ¿se utiliza voz sintética? La audiodescripción no utiliza voz sintética, sino humana.

- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe alguna persona o tecnología que describa las imágenes de los vídeos que aparecen? Si es así, ¿se utiliza voz sintética? No conozco esa opción. Creo que no la hay, frente al subtitulado para los sordos.

- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se podría utilizar? ¿lo ve conveniente? Sí, claro. Sería ideal.

- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las situaciones o acciones que están ocurriendo? Lo mismo que lo dicho anteriormente: la audiodescripción.

- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio? Para la radio creo que no es necesario ya que se basa en el sonido más que en la imagen y resulta más fácil su comprensión.

- ¿Sugerencias?

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 81

Que se investigue en lograr voces más cercanas a las humanas y que se puedan disponer de ellas en los distintos dispositivos y aplicaciones de la vida cotidiana dándose la opción de que se usen o no. El diseño para todos es un derecho y un plus de prestigio para quien lo incorpora.

2.4.5.13 Enquestat/da #13 Professió: Psicòloga Lloc de residència: Madrid

- ¿Utiliza sistemas de síntesis de voz? Sí, el Zoomtext, Talks i Kapten.

- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas del ordenador...) Lector de pantalla, teléfono móvil i GPS vocal.

- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por los costes que pueden suponer) Sí en cuanto a su accesibilidad y manejo, pero no en cuanto a su coste económico.

- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté preparado? No, únicamente es cuestión de instalar el software correspondiente al programa de ampliación con apoyo de síntesis de voz. Y lo mismo para el programa que se maneja con el teléfono móvil.

- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de accesibilidad aceptable? Sí, respecto a la síntesis de voz, pero también es verdad que al manejar conjuntamente la ampliación de pantalla, me resulta más difícil.

- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material es una aportación externa? Sí, pero tengo entendido que suelen valorar productos diseñados por diversas empresas.

- ¿Se van informando de todas las nuevas tecnologías que van saliendo? Sí, por supuesto.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 82

- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya diciendo? Dentro del supermercado suelo preguntar a mi acompañante o a algún empleado, pero a través de la compra por internet no necesito preguntar a nadie.

- Como todos los humanos, ustedes también son fans del cine y les gusta la televisión como medio de distracción. En las situaciones dónde los personajes se comunican con los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa acción? Si es así, ¿se utiliza voz sintética? Sí pero no soy demasiado aficionada al cine, prefiero leer libros.

- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe alguna persona o tecnología que describa las imágenes de los vídeos que aparecen? Si es así, ¿se utiliza voz sintética? Sí, está inventada la tecnología, pero no se utiliza todavía de forma generalizada. Se trata de la audiodescripción.

- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se podría utilizar? ¿lo ve conveniente? Sí, es perfectamente factible. Se utiliza sobre todo en el cine. De hecho, en Madrid existe un cine que proyecta películas adaptadas.

- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las situaciones o acciones que están ocurriendo? Sí, es el mismo sistema y suele haber algunas obras de teatro adaptadas.

- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio? Sí, pero no creo que sea necesario.

- ¿Sugerencias? La tecnología que se necesita para adaptar la televisión está inventada, simplemente es cuestión de voluntad y dinero para que se ponga en funcionamiento de forma generalizada.

2.4.5.14 Enquestat/da #14 Professió: Jubilat Lloc de residència: Santa Cruz de Tenerife

- ¿Utiliza sistemas de síntesis de voz?

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 83

- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas del ordenador...) Para todo

- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por los costes que pueden suponer) Unos más que otros

- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté preparado? Con cualquier ordenador se pueden usar, más o menos

- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de accesibilidad aceptable? En muchas de ellas sí.

- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material es una aportación externa? Sí, algo hay.

- ¿Se van informando de todas las nuevas tecnologías que van saliendo? Sí, por supuesto.

- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya diciendo? Todavía eso está un poco en pañales

- Como todos los humanos, ustedes también son fans del cine y les gusta la televisión como medio de distracción. En las situaciones dónde los personajes se comunican con los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa acción? Si es así, ¿se utiliza voz sintética? Existe el audiodescripción, de momento con voz humana, y muy bien hecha además

- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe alguna persona o tecnología que describa las imágenes de los vídeos que aparecen? Si es así, ¿se utiliza voz sintética? Poco, de momento

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 84

- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se podría utilizar? ¿lo ve conveniente? Claro que si

- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las situaciones o acciones que están ocurriendo? La dicha audiodescripción

- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio? Pues, ¿por qué no?

- ¿Sugerencias? Que sigan trabajando en estos proyectos que, tanto bien nos hace a los que carecemos de la vista.

2.4.5.15 Enquestat/da #15 Professió: Estudiant Lloc de residència: Málaga

- ¿Utiliza sistemas de síntesis de voz? Sí

- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas del ordenador...) Uso principalmente lectores de pantalla en el ordenador y en el teléfono móvil.

- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por los costes que pueden suponer) No, tienen un costo demasiado elevado.

- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté preparado? Con tener una tarjeta de sonido y un controlador de vídeo, es suficiente.

- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de accesibilidad aceptable? Es cierto, y seguirá pasando si las webs no se adaptan a los estándares de accesibilidad.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 85

- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material es una aportación externa? Tenemos el Cidat, Centro de Investigación y Desarrollo de Aplicaciones Tiflotécnicas.

- ¿Se van informando de todas las nuevas tecnologías que van saliendo? Sí

- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya diciendo? Lamentablemente no. Igualmente yo reservo los billetes de avión online.

- Como todos los humanos, ustedes también son fans del cine y les gusta la televisión como medio de distracción. En las situaciones dónde los personajes se comunican con los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa acción? Si es así, ¿se utiliza voz sintética? La once produce películas en audesc, pero las voces son grabaciones humanas.

- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe alguna persona o tecnología que describa las imágenes de los vídeos que aparecen? Si es así, ¿se utiliza voz sintética? En muchos casos el periodista describe la noticia y es suficiente.

- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se podría utilizar? ¿lo ve conveniente? Sí

- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las situaciones o acciones que están ocurriendo? No, aunque se podría implementar un sistema de audiodescripción con comunicación por radiofrecuencia.

¿Cree que se podría utilizar voz sintética para los anuncios de la radio? En algunas emisoras se hace, pero no queda tan profesional.

¿Sugerencias? ----

2.4.5.16 Enquestat/da #16 Professió: Comercial

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 86

Lloc de residència: Sevilla

- ¿Utiliza sistemas de síntesis de voz? Sí

- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas del ordenador...) Para todo, ya que lo tengo en el móvil y en el ordenador, pero, sobre todo, como salida para el lector de pantalla.

- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por los costes que pueden suponer) No lo son. Una síntesis buena, basada en sampleado, (grabación de muestras de audio, y no basada en ruido modulado), suele ser cara. Apple ahí está apostando fuerte, ya que los iPhones traen para su lector de pantalla una síntesis que, aunque está basada en ruido, es muy buena.

- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté preparado? No. Conque el sistema operativo disponga de una API para tal fin, (SAPI en Windows, por ejemplo), y disponga de tarjeta de sonido, es suficiente.

- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de accesibilidad aceptable? Así es, aunque ahí las síntesis de voz tienen poco que hacer. Eso sí, un diccionario de expansión de abreviaturas SMS no les vendría mal. A la gente le ha dado por escribir así, y la síntesis interpreta lo que lee...

- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material es una aportación externa? Al menos el departamento así se llama, (http://www.once.es/cidat), pero jamás les he visto otra cosa que vender lo que otros fabrican, vea el catálogo y lo comprobará.

- ¿Se van informando de todas las nuevas tecnologías que van saliendo? Sí, aunque la información es dispersa, (no me conformo con la que me proporciona el CIDAT antes mencionado.)..

- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya diciendo? Que yo sepa no. Ahí estamos desprotegidos completamente, cada vez hay más tendencia al silencio, son los autobuses urbanos de Sevilla y al final han acabado

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 87

quitando el indicador de paradas, y, los que lo tienen, me consta que son anulados por los conductores...

- Como todos los humanos, ustedes también son fans del cine y les gusta la televisión como medio de distracción. En las situaciones dónde los personajes se comunican con los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa acción? Si es así, ¿se utiliza voz sintética? No. La audiodescripción, (la ONCE tiene bastantes películas audiodescritas), consta de un canal extra con la voz de un locutor sobre la mezcla general de audio. Podría incluirse en un canal para otro idioma, claro, cuando la TDT sea accesible.

- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe alguna persona o tecnología que describa las imágenes de los vídeos que aparecen? Si es así, ¿se utiliza voz sintética? No, y sería harto complicado, ya que un vídeo complejo en tiempo real sería muy difícil de explicar, aparte que el mundo de los informativos es el mundo de las prisas, no habría tiempo para generar un texto descriptivo... digo yo...

- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se podría utilizar? ¿lo ve conveniente? ...Pregúntele a los locutores, ja, ja... Yo tengo aquí una síntesis, que, la meto en un informativo de radio, y nadie distinguiría que eso no es un locutor. Entona de morir... Como se están poniendo las cosas, no me extrañaría que algún día lo que digo sea realidad...

- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las situaciones o acciones que están ocurriendo? Quisieron hacer en la ONCE algo así, pero el transmisor y receptores están basados en infrarrojos. ¿A quién se le ocurre? Con lo bonitas que son las radiofrecuencias, y lo limitada que es la transmisión basada en luz...

- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio? Con lo que yo tengo ahora mismo delante lo afirmo. No tengo aquí la lista de tags insertables en el texto, pero puedo hacerlo incluso bostezar o reírse...

- ¿Sugerencias? Más que sugerencias, ánimos, sigan trabajando, no sólo por nosotros, la voz sintética es el futuro. Aún no entiendo como en las compañías telefónicas se siguen usando mensajes pregrabados, mal grabados y con locutores que a veces ni lo son... Adelante....

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 88

2.4.5.17 Enquestat/da #17 Professió: Venedor ONCE Lloc de residència: Zaragoza

- ¿Utiliza sistemas de síntesis de voz? Sí

- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas del ordenador...) Para el manejo general del móvil y del ordenador

- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por los costes que pueden suponer) En el caso del móvil que yo uso sí, porque el IPhone trae VoiceOver incorporado aunque cuando usaba móviles de Nokia necesitaba pagar una licencia de un programa externo asociada al IMEI del teléfono En el caso del ordenador, hay alguno gratuito pero los de verdadero nivel tienen un coste muy alto.

- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté preparado? A priori con nada en especial porque es imprescindible una tarjeta de sonido pero no es nada con lo que no cuente casi cualquier equipo que se precie.

- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de accesibilidad aceptable? Sí. No sólo webs, sino también muchas aplicaciones no cumplen con los estándares y criterios de accesibilidad. Como ejemplo, es lamentable el caso de la web de RENFE.

- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material es una aportación externa? Existe departamento de investigación aunque, francamente, sus creaciones suelen dejar bastante que desear y el material de calidad es siempre extranjero.

- ¿Se van informando de todas las nuevas tecnologías que van saliendo? En la medida de lo posible está uno informado gracias a los foros y listas de correo donde la gente aporta cosas.

- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya diciendo? Que yo conozca no lo hay aunque en este sentido no estoy muy informado.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 89

- Como todos los humanos, ustedes también son fans del cine y les gusta la televisión como medio de distracción. En las situaciones dónde los personajes se comunican con los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa acción? Si es así, ¿se utiliza voz sintética? Existe para el cine el sistema audesc o de audiodescripción y hasta donde yo sé, son personas las que se encargan de él.

- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe alguna persona o tecnología que describa las imágenes de los vídeos que aparecen? Si es así, ¿se utiliza voz sintética? No que yo conozca. Y como apunte y en atención a la practicidad del lenguaje, no es necesario sustituir el verbo de ver la televisión por el de escucharla.

- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se podría utilizar? ¿lo ve conveniente? Supongo que se podrá llegar a eso. a mí personalmente, el sistema audesc me satura porque termino recibiendo más información de la estrictamente necesaria para seguir el argumento. Pero al margen de eso, evidentemente, sí sería conveniente y una ayuda.

- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las situaciones o acciones que están ocurriendo? Supongo que no porque eso sí que casi me suena a ciencia ficción.

- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio? Eso ya ha habido empresas que lo han hecho pero vamos, mientras no se demuestre lo contrario, mucho mejor con voces de verdad.

- ¿Sugerencias? ----

2.4.5.18 Enquestat/da #18

Professió: Administratiu Lloc de residència: Sevilla

- ¿Utiliza sistemas de síntesis de voz? Sí

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 90

- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas del ordenador...) Lector de pantalla del ordenador, teléfono móvil, lectura de libros (sólo en ocasiones)

- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por los costes que pueden suponer) Sí

- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté preparado? Debe tener instalado el programa correspondiente (Jaws, NVDA, etc.)

- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de accesibilidad aceptable? Esto ocurre si el diseño de la página no está suficientemente adaptado

- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material es una aportación externa? Sí, existe el Centro de Investigación y Desarrollo de Aparatos Tiflotécnicos (CIDAT)

- ¿Se van informando de todas las nuevas tecnologías que van saliendo? Sí, mediante publicación de novedades desde la ONCE y por medio de foros en Internet

- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya diciendo? Para los precios u otras informaciones sobre productos se pueden utilizar algunos dispositivos lectores portátiles. Para las pantallas informativas, no conozco ningún método.

- Como todos los humanos, ustedes también son fans del cine y les gusta la televisión como medio de distracción. En las situaciones dónde los personajes se comunican con los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa acción? Si es así, ¿se utiliza voz sintética? Existe la técnica del AUDESC, mediante la cual una voz en off grabada en la banda sonora de la película informa de las situaciones y escenas que necesitan dicho apoyo. La voz es humana.

- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe alguna persona o tecnología que describa las imágenes de los vídeos que aparecen? Si es así, ¿se utiliza voz sintética?

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 91

Lo desconozco, pero creo que por el momento no existe.

- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se podría utilizar? ¿lo ve conveniente? Pienso que debiera ser una norma de obligado cumplimiento, si bien utilizando alguna fórmula que no perturbe a otros espectadores que no la necesiten.

- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las situaciones o acciones que están ocurriendo? Se han hecho algunas experiencias piloto, concretamente en el Teatro Lope de Vega de Sevilla en 1994, pero creo que en la actualidad no se está utilizando ningún sistema.

- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio? Sí, de hecho ha habido ya algunos anuncios que la han utilizado.

¿Sugerencias? Pues creo que cualquier intención de universalizar los sistemas de audiodescripción en los medios de comunicación social es positiva y debiera dedicarse recursos para la investigación y el desarrollo de tecnologías y sistemas apropiados.

2.4.5.19 Enquestat/da #19 Professió: Mando intermedio Lloc de residència: Oviedo

- ¿Utiliza sistemas de síntesis de voz? Sí

- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas del ordenador...) Lectura SMS y lector de pantallas del ordenador

- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por los costes que pueden suponer) Los lectores de pantalla que utilizamos son muy caros por tanto para mucha gente no serán de fácil acceso

- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté preparado? Yo únicamente he tenido que instalar el lector como cualquier programa normal

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 92

- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de accesibilidad aceptable? Aunque el nivel de accesibilidad a las páginas Web, con el lector Jaws ha mejorado bastante todavía queda mucho por hacer y aún nos es bastante dificultoso navegar por ellas y conocer y acceder de forma completa a sus contenidos

- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material es una aportación externa? Sí, en la Once hay departamento de investigación

- ¿Se van informando de todas las nuevas tecnologías que van saliendo? En líneas generales sí

- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya diciendo? No, únicamente en alguna página web de algún supermercado puedes intentar hacer la compra a través de Internet pero es muy dificultoso aún

- Como todos los humanos, ustedes también son fans del cine y les gusta la televisión como medio de distracción. En las situaciones dónde los personajes se comunican con los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa acción? Si es así, ¿se utiliza voz sintética? Por lo que yo he conocido hasta ahora, se utiliza voz humana. La Once nos ofrece el sistema llamado Audesc, en el que una voz en of, nos va describiendo las partes de las películas que se editan en este sistema y que no tienen diálogos

- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe alguna persona o tecnología que describa las imágenes de los vídeos que aparecen? Si es así, ¿se utiliza voz sintética? Que yo sepa, no.

- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se podría utilizar? ¿lo ve conveniente? Yo creo que sí se podría utilizar, los sintetizadores de voz están mejorando mucho en los últimos tiempos y a mi juicio podrían facilitar enormemente la descripción de los contenidos de los documentos audiovisuales que no tienen diálogo

- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las situaciones o acciones que están ocurriendo?

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 93

Yo no los conozco

- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio? Yo creo que al paso que van las cosas en este campo, no sería extraño que cualquier día llegásemos a verlo

- ¿Sugerencias? Sería más bien un ruego dirigido a los que trabajáis o aspiráis a trabajar en este campo, en el sentido de que no os olvidéis de nuestro colectivo, ya que todavía queda mucho por hacer para que podamos acceder al enorme volumen de información que ofrecen las nuevas tecnologías, en igualdad de condiciones que el resto de la gente que no tiene deficiencias visuales. Es más, yo diría que a medida que la tecnología va avanzando, nos resulta cada vez más dificultoso poder manejarla. Te pongo como ejemplo los aparatos digitales como televisores de última generación, lectores de DVD, descodificadores de TDT, etc., etc., etc. Nos es imposible hoy en día manejarlos. Por eso, es muy importante para nosotros que os sensibilicéis con nuestro problema y que en la medida que podáis contribuir a crear tecnología nueva que nos ayude a superar estos problemas que te describo lo hagáis, nos vendrá de fábula. Muchas gracias por tu interés.

2.4.5.20 Enquestat/da #20 Professió: Proyectos accesibles en Telecomunicaciones Lloc de residència: Portugalete, Bilbao

- ¿Utiliza sistemas de síntesis de voz? Sí

- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas del ordenador...) Para todo.

- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por los costes que pueden suponer) Algunos más limitados que otros.

- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté preparado? Quizás al revés.

- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de accesibilidad aceptable? Algunos, al día de hoy está superado.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 94

- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material es una aportación externa? Sobre esto creo que es todo externo.

- ¿Se van informando de todas las nuevas tecnologías que van saliendo? Sí

- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya diciendo? Al día de hoy no lo conozco, como mejor se aprende es ir a comprar muchas veces.

- Como todos los humanos, ustedes también son fans del cine y les gusta la televisión como medio de distracción. En las situaciones dónde los personajes se comunican con los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa acción? Si es así, ¿se utiliza voz sintética? Al día de hoy yo no la conozco, las descripciones son en voz humana.

- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe alguna persona o tecnología que describa las imágenes de los vídeos que aparecen? Si es así, ¿se utiliza voz sintética? No la conozco.

- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se podría utilizar? ¿lo ve conveniente? Por que no, las audiodescripciones que yo hago las relato con voz sintética y pienso que quedan muy bien, ahora estoy trabajando en la carta de un restaurante.

- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las situaciones o acciones que están ocurriendo? Sí, en algunas lo montan.

- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio? No me desagrada, si la voz es lo suficientemente cálida.

- ¿Sugerencias? Voces agradables y no metálicas ni chillonas, con costes más baratos.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 95

2.4.6 Conclusions del treball de camp

L‘objectiu principal del treball de camp era l‘anàlisi i la recerca de la implantació i l‘ús actual dels sistemes de síntesi de veu en els mitjans de comunicació audiovisual a Catalunya. En aquest apartat, s‘analitzen els resultats obtinguts a partir de les diferents respostes recollides de les enquestes que s‘han realitzat als actors principals del sector (emissores de ràdio, televisió, productores i estudis de so i doblatge), a través d‘enquestes realitzades a persones que treballen en aquest sector, tant des de la vessant tècnica com de la no tècnica.

A més a més, s‘ha enquestat un grup d‘usuaris potencialment molt interessant en la inclusió de la síntesi de veu en el món de la comunicació audiovisual, com és el de les persones amb discapacitat visual. A continuació també es presenten les conclusions de l‘estudi contextualitzades per aquest sector de la societat.

2.4.6.1 Mitjans de comunicació Les enquestes realitzades als mitjans de comunicació audiovisual s‘han desglossat en tres grans grups: 1) ràdios, 2) televisions i productores de televisió i 3) estudis d‘àudio, de doblatge i de postproducció. D‘aquestes enquestes es pot concloure el següent:

Tant les ràdios, les televisions com els estudis de so són coneixedors de la tecnologia dels sistemes de síntesi de veu.

Analitzant el primer dels grups, cap de les emissores de ràdio amb les que s‘ha contactat utilitza els sistemes de síntesi de veu, exceptuant un parell que l‘han usat, però només per generar veu robòtica o per crear algun efecte en concret, i ho han fet utilitzant programari lliure.

Hi ha diverses opinions respecte a l‘ús de les tecnologies de síntesi de la parla en un futur: dues de les persones representants de les emissores creuen que podrien ser útils però només de manera complementària, és a dir, per la creació d‘efectes o per emissores automatitzades. Una altra, exposa que es perdria l‘encant i la màgia que dóna un mitjà com la ràdio; les dues restants pensen que els sintetitzadors encara es troben lluny de la seva utilització per la manca d‘expressió i entonació en la veu.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 96

En cap de les televisions ni en la productora amb les que s‘ha pogut contactar s‘utilitzen els sistemes de síntesi de veu per generar productes audiovisuals. Tanmateix, l‘opinió dels tècnics consultats és força variada. En un cas, s‘indica que no interessen perquè el que agrada és la veu humana. Contràriament, s‘exposa que es podrien utilitzar en programes automàtics que donin informació sobre la borsa o el temps i, també, en anuncis publicitaris, documentals i promocions pel gran estalvi econòmic que suposaria en la generació d‘aquests productes. Aquesta última indicació s‘ha extret de l‘enquesta realitzada a la productora de televisió Gestmusic. Tot i que alguns tècnics vegin viable l‘aplicació de veu sintètica per diverses aplicacions, també indiquen que els sistemes de síntesi de veu haurien de madurar a nivell de naturalitat per poder produir diverses entonacions (veus agudes, greus, juvenils, serioses...).

Només dos dels departaments tècnics de l‘últim grup (estudis de so, doblatge i postproducció), han utilitzat algun cop un sintetitzador de veu, però només per la creació d‘efectes en l‘àmbit musical o per la manipulació de les veus. L‘opinió general respecte a la implantació d‘aquests sistemes de comunicació en un futur és molt semblant en tots els estudis consultats. La gran majoria de les persones enquestades destaca que fins que els sistemes de síntesi de veu no estiguin més perfeccionats, en el sentit de la naturalitat de la veu sintètica generada, per tal de transmetre emocions de forma realista tal i com ho fa una persona humana, la veu sintètica no podrà ser utilitzada ni en el sector de la televisió ni en el de la ràdio

Com a valoració global de la idea de la introducció del sistemes de síntesi de veu en els mitjans de comunicació audiovisual, es pot dir que les opinions dels tècnics, en principi contraris a la integració en el procés de creació de continguts audiovisuals, podrien canviar si s‘arribessin a sintetitzar de forma natural les emocions en la veu, aconseguint, d‘aquesta manera, veus sintètiques menys robòtiques i per tant, més semblants a la veu natural produïda per l‘ésser humà. A continuació es presenta un resum d‘aquestes opinions, en format gràfic, per les preguntes més rellevants de l‘estudi de camp:

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 97

S’utilitzen actualment?

No (77,78%)

No Condicionat (22,22%)

Fig.2.1. Resposta dels tècnics sobre si els sistemes de síntesi s‘utilitzen actualment. No condicionat, fa referència al fet que es podrien utilitzar si la qualitat sintètica fos suficient.

Creu que es podrien introduir els sistemes de síntesi de veu a la ràdio?

Sí (22,22%) No (38,89%) Altres (33,33%)* NS/NC (5,56%)

*Només per senyal horària, programes automàtics, efectes en les veus

Fig. 2.2. Resposta dels tècnics sobre la viabilitat d‘introduir els sistemes de síntesi en el món de la ràdio.

Creu que es podrien introduir els sistemes de síntesi de veu a la televisió?

Sí (22,22%) No (44,44%) Altres (22,22%) NS/NC (11,11%)

Fig. 2.3. Resposta dels tècnics sobre la viabilitat d‘introduir els sistemes de síntesi en el món de la televisió.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 98

Creu que es podria utilitzar veu sintètica per l’audiodescripció?

Sí (38,89%) No (33,33%) Altres (16,67%)* NS/NC (11,11%)

* S’hauria de preguntar als invidents

Fig.2.4. Resposta dels tècnics sobre la viabilitat d‘introduir els sistemes de síntesi per l‘audiodescripció.

2.4.6.2 Usuaris potencials En quant a les enquestes realitzades en el context de les tecnologies per a les persones amb discapacitat visual, les enquestes s‘han realitzat a dos perfils diferents: 1) els tècnics que treballen en els mateixos mitjans de comunicació recollits en l‘apartat anterior, per tal de conèixer la seva opinió respecte a l‘ús de veu sintètica per l‘audiodescripció (tecnologia que ells ja coneixen), i 2) el sector de la població que pateix algun tipus de discapacitat visual, ja que és essencial considerar la seva opinió per tal de conèixer la viabilitat de la introducció de veu artificial en aquests medis.

La majoria de persones dedicades a les tecnologies del so (englobant els tècnics de la ràdio, de la televisió i d‘estudis d‘àudio, de doblatge i de postproducció), creu que es podria aplicar veu sintètica en l‘audiodescripció si aquesta fos més natural i ―creïble‖, tot i que, en alguns casos, es pensa que tampoc suposa un gran estalvi de temps i que no val la pena substituir la veu natural. Concretament, s‘han recollit opinions en el sentit que els sistemes de síntesi de veu haurien de millorar molt en quant a qualitat sintètica, i fins i tot, s‘afirma que és més ràpid enregistrar-ho amb una persona. Tanmateix, en el conjunt de les enquestes, n‘hi ha hagut dues que ressalten especialment pel fet que són clarament diferents a les demés. Concretament, en elles s‘indica que:

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 99

• Abans d‘incorporar les tecnologies de síntesi de veu en la producció audiovisual, s‘hauria de preguntar a les persones amb discapacitat visual, que realment són els usuaris finals, sobre la viabilitat d‘usar veu sintètica per l‘audiodescripció, i si no els agrada, caldria deixar de banda aquesta opció.

• Sempre és millor si l‘entonació i la naturalitat del missatge és bona, però els costos poden ser un factor clau. En aquest sentit, tot i que la veu sintètica no sigui del tot natural, pot permetre abaratir els costos de la creació de l‘àudio i per tant, ser més rentable que contractar a un locutor.

2.4.6.3 Usuaris amb discapacitat visual De les enquestes realitzades a les persones amb discapacitat visual, ja sigui total o parcial, s‘extreuen dues idees força interessants relacionades amb els mitjans de comunicació:

• Gairebé totes les persones que han col·laborat responent al qüestionari creuen que en un futur es podria utilitzar veu sintètica per l‘audiodescripció en televisió i cinema. Indiquen que seria molt interessant que una veu els expliqués tot allò que no poden veure en programes de televisió, documentals, pel·lícules... Tot el que els permeti una normalització i integració en el consum de productes audiovisuals és benvingut.

• Respecte la introducció dels sistemes de síntesi de veu a la ràdio, les opinions són diverses. Més de la meitat creuen que és innecessari i prefereixen la veu humana. De la resta d‘enquestes, algunes veuen que pot ser útil, depenent de la qualitat de les veus sintètiques i altres, tot i que ho accepten, no creuen que sigui imprescindible.

Finalment, es pot concloure, que el dia que s‘aconsegueixi naturalitat i emotivitat en les veus sintètiques, l‘audiodescripció pot ser una bona via per a introduir de forma progressiva els sistemes de síntesi de veu en el món de les produccions audiovisuals, ja que gairebé totes les persones amb discapacitat visual utilitzen aquests sistemes. Mentre s‘espera aquest avenç en les veus, la viabilitat d‘introduir els sistemes de síntesi de veu a la ràdio o televisió sembla difícil, però existeix l‘opció de la seva

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 100

utilització en sectors o aplicacions on no es necessiti expressivitat o bé es vulgui modelar una veu robòtica.

A continuació es presenta un resum d‘aquestes opinions, en format gràfic, per les preguntes més rellevants de l‘estudi de camp:

Creu que es podria utilitzar veu sintètica per l'audiodescripció? (cinema i televisió)

Sí (82,69%)

No (13,46%)

Altres (1,92%)*

NS/NC (1,92%)

*No cal en emissions en temps real

Fig.2.5. Resposta de les persones amb discapacitat visual sobre la viabilitat d‘introduir els sistemes de síntesi de veu per incorporar audiodescripció als productes audiovisuals.

Creu que es podria utilitzar veu sintètica pels anuncis publicitaris?

Sí (28,85%)

Sí Condicionat (11,54%) No (36,54%)

Altres (21,15%)*

NS/NC (1,92%) *Prefereix veu humana

Fig.2.6. Resposta de les persones amb discapacitat visual sobre la viabilitat d‘introduir els sistemes de síntesi en la generació d‘anuncis publicitaris.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 101

Viabilitat de l’ús de la síntesi de veu en produccions audiovisuals

3 Adaptació del sistema de síntesi de La Salle al català

Dins de l‘àmbit tècnic del projecte, una de les fases clau ha estat l‘encarregada de desenvolupar els recursos lingüístics i de processament del senyal per a la creació de les veus en català. El recursos lingüístics, com són el sistema de transcripció fonètica, l‘analitzador morfosintàctic, etc. que formen part del mòdul de PLN del sistema de síntesi són propis i han estat desenvolupats dins del marc del grup de recerca durant els darrers anys d‘investigació. En canvi, les bases de dades de síntesi de veu en català són públiques i han desenvolupades pel grup de recerca TALP de la UPC (veure secció 2.2.1) amb finançament de la Generalitat de Catalunya dins del marc del projecte FestCat (http://gps-tsc.upc.es/veu/festcat).

D‘aquest projecte s‘han escollit les dues veus, Ona i Pau, que tenen major extensió, donat que el sistema de síntesi de veu del Grup de Tecnologies Mèdia de La Salle (URL) està basat en la tècnica de selecció de unitats en funció dels paràmetres predits pel model prosòdic.

Un cop es disposa dels fitxers de veu, s‘ha de procedir a la ―creació d‘una nova veu‖ pel sistema de síntesi, és a dir, cal processar les mostres de veu per tal de que siguin útils per a generar veu sintètica. La creació d‘una nova veu consta de tres parts principals:

(1) La segmentació de la base de dades en unitats de síntesi, que s‘encarrega de determinar l‘inici i final de cada una de les unitats acústiques (difonemes, en aquest cas) que composen els missatges enregistrats en els fitxers de veu.

(2) La indexació i parametrització de la base de dades, que s‘encarrega de generar el conjunt de fitxers en format XML que contenen els paràmetres que descriuen el contingut acústic de la base de dades (durada, energia,

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 102

freqüència fonamental de les unitats). Alhora, cal ajustar la funció de cost de selecció, qüestió que implica, per una banda, precalcular tots els costos de les unitats de la base de dades, i per una altra, ajustar els pesos de la funció de cost (Alías et al., 2011).

(3) L‘entrenament del model prosòdic, que és l‘encarregat de determinar la pronúncia més adequada d‘un text d‘entrada a sintetitzar a partir de l‘extracció de patrons prosòdics que s‘extreuen a partir de les mostres de veu disponibles (Iriondo et al., 2007).

Un cop finalitzades aquestes tres fases, ja es disposa de les veus Ona i Pau integrades dins del sistema de síntesi de veu de La Salle per tal de procedir a realitzar els experiments que tenen l‘objectiu d‘analitzar la viabilitat de l‘ús de la síntesi de veu en produccions audiovisuals i que es descriuen a continuació.

4 Experiments i resultats

En l'àmbit de la síntesi de la parla es poden avaluar diferents característiques com són la intel·ligibilitat, la naturalitat i l'expressivitat. En algunes aplicacions, com per exemple, en les màquines parlants per a persones invidents, la intel·ligibilitat de la parla a alta velocitat és més important que la naturalitat (Llisterri et al., 1993). En canvi, una prosòdia correcta i una elevada naturalitat són essencials en la majoria d'aplicacions multimèdia. L'avaluació es pot realitzar a diferents nivells (segment, paraula, frase o paràgraf) i amb diferents tipus de proves (Campbell, 2007b).

Amb la finalitat de disposar d‘una avaluació subjectiva de la viabilitat de l‘ús de la síntesi de veu a l‘hora de generar material audiovisual, s‘han preparat dos tests perceptius: un d‘anuncis publicitaris i un altre de notícies. Per cada test, es prepararà un conjunt de parelles d‘estímuls. Cada parella tindrà el mateix contingut verbal però un estarà generat amb el sistema de síntesi i l‘altre estarà llegit per una persona. Un cop s'han preparat els estímuls, s'ha de decidir el tipus de prova més adequat per presentar-los als oients i la metodologia d'avaluació dels mateixos. En el cas dels anuncis, aquests només portaran el canal d‘àudio, mentre que en el cas de les notícies seran vídeos on hi haurà imatges relacionades amb la notícia i el canal d‘àudio estarà

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 103

format per la pista de so de fons (música, soroll de carrer, veus, etc) superposada a la pista de veu en off.

L'objectiu de la prova és, com ja s'ha assenyalat, l'avaluació de la síntesi de la parla en anuncis o notícies. Es disposa d'una parella de fitxers d'àudio (anuncis) o de vídeo (notícies) per cada element que s'ha d'avaluar. Per això, es plantegen diferents possibilitats de presentació dels estímuls (de manera individual o per parelles) i d'escales de puntuació. A partir de la recomanació P.800 de la Unió Internacional de Telecomunicacions (UIT) (UIT-T, 1996), es consideren tres possibles mètodes de prova perceptiva que podrien ser adequades per a aquest cas:

1. Determinació d‘índexs per categories absolutes —Absolute Category Rating— (ACR) obtenint-se una nota mitjana d‘opinió —Mean Opinion Score— (MOS). 2. Determinació d‘índexs per categories de degradació —Degradation Category Rating— (DCR) obtenint-se una nota mitjana d‘opinió sobre les degradacions — Degradation Mean Opinion Score— (DMOS). 3. Determinació d‘índexs per categories de comparació —Comparison Category Rating— (CCR) obtenint-se una nota mitjana d‘opinió sobre les comparacions —Comparison Mean Opinion Score— (CMOS).

En aquest cas, s‘ha escollit el tercer mètode, CMOS, amb una escala de set possibles notes: A molt millor que B A millor que B A lleugerament millor que B Cap preferència B lleugerament millor que A B millor que A B molt millor que A

Amb aquesta escala els oients poden avaluar comparativament els dos estímuls presentats escoltant-los tants cops com sigui necessari.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 104

4.1 Anuncis publicitaris

Per avaluar l‘ús de la síntesi de la parla en situacions reals, s‘ha generat un test amb set anuncis publicitaris. Per cada anunci, s‘han generat dos fitxers de so, un a partir de la lectura de l‘anunci per part d‘una locutora amateur i l‘altre utilitzant el nostre sintetitzador de parla en català.

El test s‘ha realitzat amb la plataforma on-line TRUE (Planet et al., 2008) que permet el disseny i la realització del test de forma remota.

Per cada parella de àudios associats al mateix anunci, al participant del test se li han fet dues preguntes:

1. “El següents àudios (A el de dalt, B el de sota) es corresponen a dues lectures d'anuncis publicitaris. No es tracta d'avaluar si t'agrada més la veu d'una dona o de l'altra, sinó, per un ús en publicitat, indica la teva preferència, fixant-te en la NATURALITAT de la pronúncia i l'entonació:” 2. ―En quant a la INTEL·LIGIBILITAT, què et sembla?”

I aquest havia de contestar una de les set opcions per a cadascuna de les dues preguntes (veure figura 3.1).

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 105

Fig.3.1. Pantalla de la plataforma TRUE (Planet et al., 2008) configurada per al test d‘anuncis publicitaris.

El test l‘han realitzat 25 oients (12 dones i 13 homes) d‘edats compreses entre els 18 i els 66 anys.

Els resultats de preferència obtinguts amb aquest test es mostren en la figura 3.2, on A representa la veu natural i B la veu generada amb el sintetitzador. Els resultats, com és d‘esperar, mostren una clara preferència per la veu natural especialment en quant a naturalitat tot i que en intel·ligibilitat la diferència no és tan gran.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 106

50,8% A molt millor que B 28,0%

28,5% A millor que B 29,1%

12,6% A lleugerament millor que B 14,3%

2,9% Cap preferència 14,3% Naturalitat Intel·ligibilitat 0,6% B lleugerament millor que A 4,6%

4,6% B millor que A 9,7%

0,0% B molt millor que A 0,0%

0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0%

Fig.3.2. Resultats del test d‘anuncis publicitaris en quant a Intel·ligibilitat i Naturalitat. ―A‖ es correspon a la veu natural i ―B‖ a la veu sintetitzada.

4.2 Vídeos de notícies

En aquest experiment s‘ha volgut afegir a la veu dues components habituals en el material audiovisual: la imatge i una pista de so addicional a la de veu. S‘ha preparat un test amb tres parelles de notícies. A partir de material extret de YouTube i de la veu generada amb el nostre sintetitzador s‘han generat vídeo de notícies que contenen tres pistes: la de vídeo pròpiament i dues d‘àudio (so de fons i veu).

El test també s‘ha fet amb la plataforma TRUE i és un CMOS de set categories. L‘han realitzat 20 persones (17 homes i 3 dones) d‘edats compreses entre els 24 i 41 anys. Als usuaris no se‘ls informa de l‘origen de les dues veus. Al final del test es pregunta el sexe i l‘edat del participant, si és expert en tecnologies de la parla i dues preguntes de resposta oberta:

1. “La veu del vídeo de sota ha estat generada per ordinador, què t'ha semblat?”

2. “Creus que és factible l'ús de síntesi de veu per explicar notícies en programes que es generin automàticament?”

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 107

La figura 3.3 mostra en exemple de la pantalla de test per avaluar una parella de notícies.

Fig.3.3. Pantalla de la plataforma TRUE (Planet et al., 2008) configurada per al test de vídeos de notícies.

Els resultats obtinguts es mostren a la figura 3.4, on es pot observar com la resposta majoritària és que la veu natural és lleugerament millor que la sintètica (46.3%). És important destacar que pràcticament un 26% de les respostes (18.5 % de cap

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 108

preferència més un 7.4% de la veu sintètica és lleugerament millor que la natural) indiquen que la veu sintètica és acceptable en aquest context.

A molt millor que B 1,9%

A millor que B 25,9%

A lleugerament millor que B 46,3%

Cap preferència 18,5% Qualitat B lleugerament millor que A 7,4%

B millor que A 0,0%

B molt millor que A 0,0%

0,0% 10,0% 20,0% 30,0% 40,0% 50,0%

Fig.3.4. Resultats del test de vídeos de notícies en quant a qualitat de la veu en off. ―A‖ es correspon a la veu natural i ―B‖ a la veu sintetitzada.

Si analitzem les respostes dels participants on han manifestat, després de fer el test, la seva opinió respecte l‘ús de la síntesi de la parla per generar notícies podem destacar dues idees generals. En primer lloc que, els oients són molt sensibles a errors puntuals en una determinada part del text i que falta millorar l‘expressivitat i el ritme. En segon lloc, l‘opinió majoritària és que l‘ús d‘aquesta tecnologia el veuen factible per generar notícies d‘última hora per exemple per a la web o en programes de generació semiautomàtica.

Concretament, aquestes són les respostes més significatives a la primera pregunta: “La veu del vídeo de sota ha estat generada per ordinador, què t'ha semblat?”: “Bastant acceptable, encara que una mica lenta i amb algunes errades en sons concrets.” “Bona qualitat en general tot i que algunes discontinuïtats i salts en l’entonació.”

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 109

“Bastant aconseguida, però en certs moments es nota que no es humana.” “A vegades molt bé (millor que l’original i tot), altres no. Els "galls" puntuals fa baixar la qualitat global.” “Poc natural, tot i que es notava una mica d’expressivitat i la qualitat de l’àudio estava força ben aconseguida. Potser problemes en el fet de mantenir un ritme constant, es noten salts de ritme.” “La veu és una mica metàl·lica. L’entonació és bastant natural però no el suficient. En tot moment notes sense dubte que t’està parlant una màquina. Malgrat tot, el missatge s’entén correctament.” “Bastant bé, sobretot en el primer. El soroll de fons dissimula els errors. En funció de la temàtica, l’estil de locució hauria de variar (p.ex., en ambient festiu, parla més àgil).” “Es nota que és una veu sintètica però no és molest perquè s’integra bé amb la música i les imatges, i la seva qualitat permet que s’entengui bé tot el que diu, fins i tot millor de vegades que la real.” “Força bona en quant a versemblança de veu humana i d’entonació. El fet que la converteix de menys qualitat que la humana són uns sorolls, "clics", que apareixen de tant en tant.” “En el primer test la qualitat era prou bona, mentre que en la resta la qualitat ha decaigut. Es nota bastant la concatenació entre unitats.” “Prou bona; el principal problema són els artefactes de coarticulació, que resten naturalitat a la veu.” “Bastant bo tenint en compte que és àudio sintètic. De tota manera, es nota bastant que no és una veu humana natural.” “Qualitat acceptable. L’únic problema que detecto que es repeteix sovint és l’allargament / arrossegament d’algunes vocals i consonants.” “La veu és correcta i clara, però de tant en tant fa sons estranys i sona com distorsionada.”

I pel que fa a la segona pregunta: “Creus que és factible l'ús de síntesi de veu per explicar notícies en programes que es generin automàticament?”, aquestes són algunes de les respostes obtingudes: “Sí, ho veig factible i interessant.”

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 110

“Sí, especialment si es tracta de notícies curtes i de darrera hora, de forma que sigui més adequada una producció semiautomatitzada que faci possible disposar amb més celeritat dels continguts.” “En un futur ha de ser més que viable.” “No seria factible per a un telenotícies per televisió, per exemple, però potser si per a contingut a la web on la qualitat del contingut no és el que prima si no el contingut en si mateix.“ “Li falta naturalitat i expressivitat, els quals ajuden a fer una notícia més atractiva. No obstant la intel·ligibilitat és molt bona i el missatge es pot transmetre perfectament. Seria factible.” “Sí. Tot i la falta de naturalitat, que és millorable. El resultat és prou satisfactori.” “Sí. Els petits problemes amb la síntesi queden sota la pista sonora de la notícia, i no suposen un problema per entendre-la. A més, formalment la locució és correcta (to neutre).” “Si. És igual d’intel·ligible que la veu humana.” “Sí, però depenent de l’àmbit en el que s’apliqui. Si és en plataformes web crec que des de nivell d’usuari es pot acceptar aquesta qualitat.” “Sí, sempre que s’evitin els artefactes abans esmentats.” “Sí em sembla factible, però no tal i com està ara el TTS. Encara li falta més naturalitat. La veu que genera ara resulta massa desagradable per a un locutor que has d’escoltar habitualment.” “La comprensió és perfecta. Si es pogués millorar el tema de les petites distorsions faria el seguiment de les notícies més agradable.”

Si comparem els resultats amb el test d‘anuncis publicitaris podem comprovar que el fet d‘afegir vídeo i so de fons ajuda a dissimular els errors de síntesi i a desviar l‘atenció, amb la qual cosa millora l‘acceptabilitat d‘utilitzar veu sintètica.

Els fitxers d‘àudio i de vídeo generats pels experiments es poden trobar al lloc web següent: http://www.salle.url.edu/portal/departaments/home-depts-DTM-projectes- info?id_projecte=67

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 111

5 Conclusions i línies d’investigació futures

En aquest treball, després de revisar l‘estat de la qüestió en l‘àmbit de la síntesi de veu (també conegut com a sistemes de conversió de text en parla), s‘ha estudiat la situació d‘aquesta tecnologia a Catalunya i, concretament, en l‘àmbit de les produccions audiovisuals. En l‘actualitat hi ha diversos centres de recerca i empreses que treballen en el desenvolupament i la millora dels sistemes de síntesi de la parla en català. Tanmateix, la implantació d‘aquests sistemes en el context de la generació de produccions audiovisuals encara és molt reduïda. Donada aquesta situació, s‘ha procedit a avaluar la viabilitat de la implantació d‘aquesta tecnologia en el món de les produccions audiovisuals, a partir d‘un treball de camp que ha consistit en diverses enquestes tant a personal tècnic com a potencials usuaris, així com un conjunt d‘experiments dissenyats per a estudiar el grau d‘acceptació de la síntesi en exemples reals.

Tant de les enquestes com dels experiments realitzats, es pot concloure que l‘ús de veu sintètica en contingut broadcast pot ser una realitat en els propers anys si es milloren certs aspectes relacionats amb aconseguir l‘expressivitat pròpia del contingut. Un altre aspecte important és el nombre de modes que formen part del contingut. Si la veu va acompanyada d‘uns altres elements d‘àudio superposats així com del canal de vídeo, llavors l‘ús de veu sintètica es preveu més factible. En canvi en continguts on només hi ha veu (p.ex. un anunci publicitari per a ràdio), l‘exigència dels oients sobre la qualitat d‘aquesta veu és molt més gran.

Per tal de possibilitar la utilització de la síntesi de la parla en continguts audiovisuals cal seguir avançant en les següents línies d‘investigació:

Millorar l‘expressivitat de la parla generada per adaptar els trets suprasegmentals (ritme, entonació, intensitat, èmfasi, etc.) a les característiques pròpies del mode de locució de cada tipus de contingut. Aquesta millora es pot aconseguir si es compta amb l‘aportació dels coneixements d‘experts en el camp de la comunicació audiovisual.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 112

Millorar la qualitat segmental de la síntesi per evitar artefactes sonors ja que cal tenir en compte que l‘oïda humana és molt sensible aquests petits errors. En aquest aspecte, influeixen errors relacionats amb la fonètica i amb el processament del senyal. Per tant, seria desitjable comptar amb experts en fonètica que aportessin coneixement per millorar, per exemple, les regles de transcripció fonètica especialment les que fan referència a la coarticulació. En quant al processament dels senyal, hi ha camí a recórrer en la parametrització i modelat de la veu per poder dur a terme modificacions de les seves característiques sense distorsionar-la.

Aconseguir nous mètodes per generar noves veus mitjançant tècniques de transformació de veu que permetin augmentar el nombre de veus d‘alta qualitat disponibles en un idioma determinat.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 113

6 Bibliografia

Adell, J. (2009). Prosodic Analysis and modelling of conversational elements for . Tesi doctoral, Univeristat Politènica de Catalunya, Barcelona, Espanya. Alías, F., Iriondo, I., Formiga, L., Gonzalvo, X., Monzo, C. i Sevillano, X. (2005). ―High quality Spanish restricted-domain TTS oriented to a weather forecast application‖. The 9th European Conference on Speech Communication and Technology (Interspeech‘ 2005), pp. 2573–2576. Lisboa, Portugal. Alías, F., Formiga, L., i Llorà, X. (2011). "Efficient and reliable perceptual weight tuning for unit-selection Text-to-Speech synthesis based on active interactive genetic algorithms: a proof-of-concept", Speech Communication, vol. 53 (5), pp. 786-800, Maig-Juny, 2011. Armenta, A., Escalada, J.G., Garrido, J.M., Rodríguez, M.A. (2003) ―Conversor texto a voz multilingüe de Telefónica I+D‖, Procesamiento del Lenguaje Natural (ISSN:1135- 5948), nº31, pp. 331-332. Bailly, G., Campbell, N., i Mobius, B. (2003). Isca special session : Hot topics in speech synthesis. In EUROSPEECH-2003 Geneva, Switzerland, pp. 37-40. Barra-Chicote, R., Yamagishi, J., King, S., Montero, J. M., i Macias-Guarasa, J. (2010). Analysis of statistical parametric and unit selection speech synthesis systems applied to emotional speech. Speech Communication, 52(5):394-404. Black, A. W. i Campbell, N. (1995). ―Optimising selection of units from speech databases for ‖. The 4th European Conference on Speech Communication and Technology (Eurospeech‘95), vol. 1, pp. 581–584. Madrid, Espanya. Black, A. W, Lenzo, K. (2001). ―Optimal Data Selection for Unit Selection Synthesis‖. The 4th ISCA Workshop on Speech Synthesis, Perthshire, Escòcia. Boersma, P. (1998). ―Functional Phonology Formalizing the interactions between articulatory and perceptual drives‖. Tesi doctoral, University of Amsterdam. Browman, C. P. i Goldstein, L. (1986). ―Towards an articulatory phonology‖. Phonology Yearbook , 3, pp. 219–252. Bulut, M., Narayanan, S. S., i Sydral, A. K. (2002). Expressive speech synthesis using a concatenative synthesizer. In Proceedings of InterSpeech, pp. 1265-1268, Denver, EEUU. Campbell, N. (2007). Approaches to conversational speech rhythm: Speech activity in two-person telephone dialoges. In 16th International Congress of Phonetic Sciences. pp. 343-348, Saarbrücken, Alemanya. Campbell, N. (2007b). ―Evaluation of Text and Speech Systems‖. vol 37, Text, Speech and Language Technology, pp. 29–64. Springer, Dordrecht.

Camps, J. , Bailly, G. i Martí, J. (1992). ―Synthèse è partir du texte pour le catalan,‖ in Proc. 19èmes Journeés d‘Études sur la Parole, pp. 329–333, Bruxelles, França.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 114

Carlson, R. (2002). ―Data-driven formant synthesis‖. Proceedings of Fonetik, TMH- QPSR, 41(1): pp. 121-124. Depalle, P. i Helie, T. (1997). ―Extraction of spectral peak parameters using a shorttime Fourier transform modeling and no sidelobe windows‖. Proceedings of IEEE ASSP Workshop on Applications of Signal Processing to Audio and Acoustics. Donovan, R. E. i Woodland, P. C. (1995). Improvements in an HMM-based speech synthesiser. In Proc. of Eurospeech, vol. 1, pp. 573–576, Madrid, Espanya. Eide, E., Aaron, A., Bakis, R., Hamza, W., Picheny, M., i Pitrelli, J. (2004). A corpus- based approach to expressive speech synthesis. Proceedings of 5th ISCA Workshop on Speech Synthesis, pp. 79-84. Erickson, D., (2005). Expressive speech: Production, perception and application to speech synthesis, Acoustical Science and Technology, vol. 26., nº4, pp. 317-325. Erro, D. (2008). Intra-lingual and cross-lingual voice conversion using harmonic plus stochastic models. Tesi doctoral, Universitat Politècnica de Catalunya, Barcelona, Espanya. Erro, D., Moreno, A., Bonafonte, A., (2010a). ―Voice Conversion Based on Weighted Frequency Warping‖, IEEE Transactions on Audio Speech and Language Processing, vol. 18, nº5, pp. 922-931, Juliol 2010. Erro, D., Navas, E., Hernáez, I., i Saratxaga, I. (2010b). ―Emotion conversion based on prosodic unit selection‖, IEEE Transactions on Audio Speech and Language Processing, vol. 18, nº5, pp. 974-983, Juliol 2010. Gonzalvo, X. (2010). ―HMM-based speech synthesis applied to Spanish and English, its applications and a hybrid approach‖, Tesi doctoral. La Salle, Universitat Ramon Llull, Barcelona, Espanya. Gonzalvo, X., Socoró, J., Iriondo, I., Monzo, C., i Martínez, E. (2007). Linguistic and Mixed Excitation Improvements on a HMM-based speech synthesis for Castilian Spanish. Proc. of the IEEE Speech Synthesis Workshop, Bonn, Alemanya. Guaus, R. i Iriondo, I. (2000). ―Diphone based Unit Selection for Catalan Text-to- Speech Synthesis,‖ Proceedings of Workshop on Text, Speech and Dialogue (TSD), Brno, República Txeca. Heuft, B., Portele, T., i Rauth, M. (1996). ―Emotions in time domain synthesis‖. Proceedings of ICSLP '96, pp. 1974-1977. Hunt, A. i Black, A. W. (1996). ―Unit selection in a concatenative speech synthesis system using a large speech database‖. Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP‘1996), pp. 373–376. Atlanta, Canadà. Iriondo,I., Alías, F., Melenchón, J. i Llorca, M.A. (2004); "Modeling and Synthesizing Emotional Speech for Catalan Text-to-Speech Synthesis", Tutorial and Research Workshop on Affective Dialog Systems, Lecture Notes in Artificial Intelligence, nº 3068 (ISSN 0302- 9743), Springer Verlag, pp.197-208, Kloster Irsee, Alemanya. Iriondo,I., Socoró,J.C. i Alías, F.;"Prosody Modelling of Spanish for Expressive Speech Synthesis" , International Conference on Acoustics, Speech and Signal Processing (ICASSP‘07), vol. IV, pp. 821-824, Maig, 2007, Hawai'i, EEUU.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 115

Kröger , B. J., Birkholz, P. (2009). of speech and singing: State of the art and suggestions for future research. pp. 306–319. Latorre, J., Iwano, K., i Furui, S. (2006). New approach to the polyglot speech generation by means of an HMM-based speaker adaptable synthesizer. Speech Communication, 48(10):1227–1242. Laroche, J., Stylianou, Y. i Moulines, E. (1993). ―HNS: Speech modification based on a harmonic+noise model‖. En: IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP‘1993), volum 2, pp. 550–553. Minneapolis, EEUU. Llisterri, J., Fernández, N., Gudayol, F., Poyatos, J. J. i Martí, J. (1993). ―Testing user‘s acceptance of Ciber232, a text to speech system used by blind persons‖. Proceedings of the ESCA Workshop on Speech and Language Technology for Disabled Persons, pp. 203–206. Estocolm, Suècia. Manzara, L. (2005), ―The Tube Resonance Model Speech Synthesizer‖, Poster paper, 149th Meeting of the Acoustical Society of America (ASA), Vancouver, British Columbia, Canada. Martí, J. (1985). ―Estudi acústic del català i síntesi automàtica per ordinador‖, Tesi doctoral, Universitat de València. Möbius, B. (2000). ―Corpus-based speech synthesis: methods and challenges‖. Arbeitspapiere des Instituts für Maschinelle Sprachverarbeitung (AIMS), vol. 6(4), pp. 87–116. Monzo, C., (2010). ―Modelado de la cualidad de la voz para la síntesis del habla expresiva‖, Tesi doctoral. La Salle, Universitat Ramon Llull, Barcelona, Espanya. Moulines, E. i Charpentier (1990), F. ―Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones‖, Speech Communication, vol.9, pp. 453-467. Murray, I. R., Edgington, M. D., Campion, D., i Lynn, J. (2000). ―Rule-based emotion synthesis using concatenated speech‖. Proceedings of ISCA Tutorial and Research Workshop (ITRW) on Speech and Emotion, pp. 173-177, Northern Ireland. Ohlin, D. i Carlson, R. (2004). ―Data-driven formant synthesis‖. Proceedings of FONETIK 2004, Dept. of Linguistics, University. Planet, S., Iriondo, I., Martínez, E., Montero, J.A. ―TRUE: an online testing platform for multimedia evaluation‖ Proceedings of the Second International Workshop on Emotion: Corpora for Research on Emotion and Affect at the 6th Conference on Language Resources & Evaluation (LREC 2008), Marrakech, Marroc. Rodríguez,M.A., Escalada, J. G., Armenta, A. i Garrido, J.M. (2008) ―Nuevo módulo de análisis prosódico del conversor texto-voz multilingüe de Telefónica I+D‖, Actas de las V Jornadas en Tecnología del Habla, pp. 157-160. Sagisaka, Y. (1988). ―Speech synthesis by rule using an optimal selection of nonuniform synthesis units‖. En: IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP‘1988), pp. 679–682. New York, EEUU. Sagisaka, Y., Naiki, N., Iwahashi, N. i Mimura, K. (1992). ―ATR - v - TALK speech synthesis system‖. The 2nd International Conference on Spoken Language Processing (ICSLP‘1992), vol. 1, pp. 483–486. Banff, Canadà.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 116

Schröder, M. (1999). ―Can emotions be synthesized without controlling voice quality?‖ Phonus 4, Research Report of the Institute of Phonetics, University of the Saarland, pp. 37-55, Germany. Sproat, R., Black, A. W., Chen, S., Shankar, S. Kumar, Ostendorf, M. i Richards, C. (1999). ―Normalization of non-standard words: WS‘99 final report‖. Informe tècnic, The Center for Language and Speech Processing, Johns Hopkins University. Stallo, J. (2000). ―Simulating emotional speech for a talking head‖. Honour's thesis, School of Computing, Curtin University of Technology, Australia. Stylianou, Y. (1998a). ―Concatenative Speech Synthesis using a Harmonic plus Noise Model‖. En: The 3rd ESCA/COCOSDA Workshop on Speech Synthesis, pp. 261–266. Jenolan Caves, Austràlia. Stylianou,Y, Cappé, O. Moulines, E. (1998b), ―Continuous probabilistic transform for voice conversion‖, Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing, vol.6, nº2, pp.131-142. Stylianou, Y., Laroche, J. i Moulines, E. (1995). ―High-quality speech modification based on a harmonic + noise model‖. Proceedings of the European Conference on Speech Communication and Technology (Eurospeech‘95), pp. 451–454, Madrid, Espanya. Takeda, K., Abe, K. i Sagisaka, Y. (1990). ―On unit selection algorithms and their evaluation in non-uniform speech synthesis‖. ESCA Workshop on Speech Synthesis, pp. 35–38. Autrans, França. Tamura, M., Masuko, T., Tokuda, K., i Kobayashi, T. (1998). Speaker adaptation for HMMbased speech synthesis system using mllr. In Proc. of The Third ESCA/COCOSDA workshop on Speech Synthesis, pp. 273–276. Taylor, P. (2009). Text-to-Speech Synthesis. Cambridge University Press. Tokuda, K., Kobayashi, T., i Imai, S. (1995). Speech parameter generation from HMM using dynamic features. In Proc. of ICASSP, volume 1, pages 660–663. Detroit, EEUU. Torrens, A. (2010) ―Estudi sobre la utilització de les tecnologies de síntesi de veu en els mitjans audiovisuals de Catalunya‖. Treball Final de Carrera, La Salle, Universitat Ramon Llull. UIT-T (1996). ―Recomendación P.800: Métodos de determinación subjetiva de la calidad de transmisión‖. Sector de Normalización de las Telecomunicaciones de Unión Internacional de Telecomunicaciones. http://www.itu.int/rec/T-REC-P.800-199608-I/es Vatikiotis-Bateson, E. i Yehia, H. (1997). ―Unified physiological model of audible-visible speech production‖. En: The 5th European Conference on Speech Communication and Technology (Eurospeech‘1997), pp. 2031–2034. Rhodes, Grècia. Wilhelms-Tricarico, R. (1995). ―Physiological modeling of speech production:Methods for modeling soft-tissue articulators‖. Journal of the Acoustical Society of America (JASA) , 97(5), pp. 3085–3098. Yoshimura, T., Tokuda, K., Masuko, T., Kobayashi, T., i Kitamura, T. (2000). Speaker interpolation for HMM-based speech synthesis system. Acoustical Science and Technology, 21(4):199–206.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 117

Yoshimura, T., Tokuda, K., Masuko, T., Kobayashi, T. i Kitamura, T. (1999). ―Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis‖. The 6th European Conference on Speech Communication and Technology (Eurospeech‘ 1999), pp. 2374–2350. Budapest, Hungria. Zen, H., Tokuda, K., i Black, A. W. (2009). Statistical parametric speech synthesis. Speech Communication, vol. 51(11), pp. 1039-1064.

Aplicació de tècniques de generació automàtica de la parla en producció audiovisual Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull 118