LibrasTube: Um Aplicativo para a Cria¸c˜aode Janelas de Libras Sincronizadas com V´ıdeosdo YouTube

Leandro Henrique de Souza Santos

CENTRO DE INFORMATICA´ UNIVERSIDADE FEDERAL DA PARA´IBA

Jo˜aoPessoa, PB Junho - 2018 Leandro Henrique de Souza Santos

LibrasTube

Monografia apresentada ao curso Engenharia de Computa¸c˜aodo Centro de Inform´atica,da Universidade Federal da Para´ıba,como requisito para a obten¸c˜aodo grau de Bacharel em Engenharia de Computa¸c˜ao

Orientador: Tiago Maritan Ugulino de Ara´ujo

Jo˜aoPessoa, PB Junho - 2018

Catalogação na publicação Seção de Catalogação e Classificação

S237l Santos, Leandro Henrique de Souza. LibrasTube: Um Aplicativo para a Criação de Janelas de Libras Sincronizadas com Vídeos do YouTube / Leandro Henrique de Souza Santos. - João Pessoa, 2018. 41 f.

Orientação: Tiago Maritan Ugulino de Araújo. Monografia (Graduação) - UFPB/CI.

1. Libras, VLibras, Sincronização de Libras. I. Araújo, Tiago Maritan Ugulino de. II. Título.

UFPB/BC CENTRO DE INFORMATICA´ UNIVERSIDADE FEDERAL DA PARA´IBA

Trabalho de Conclus˜aode Curso de Engenharia de Computa¸c˜aointitulado Libras- Tube: Um Aplicativo para a Cria¸c˜aode Janelas de Libras Sincronizadas com V´ıdeos do YouTube de autoria de Leandro Henrique de Souza Santos, aprovada pela banca examinadora constitu´ıdapelos seguintes professores:

Prof. Dr. Tiago Maritan Ugulino de Ara´ujo Universidade Federal da Para´ıba

Prof. Dr. Tha´ısGaudencio do Rˆego Universidade Federal da Para´ıba

Prof. Dr. Lincoln David Nery e Silva Universidade Federal da Para´ıba

Jo˜aoPessoa, 17 de Junho de 2018

Centro de Inform´atica,Universidade Federal da Para´ıba Rua dos Escoteiros, Mangabeira VII, Jo˜aoPessoa, Para´ıba,Brasil CEP: 58058-600 Fone: +55 (83) 3216 7093 / Fax: +55 (83) 3216 7117 ”Inclus˜ao´eo processo de trazer para o nosso mundo pessoas que, de alguma maneira, foram retiradas dele.”(Nara Marcelino)

A` minha m˜aepor ser a pessoa mais trabalhadora que conhe¸co. AGRADECIMENTOS

A` professora Tha´ısGaudencio do Rˆego,que nem ´egente, ´eanjo. Pelo esfor¸co extraordin´ariopara transformar o Centro de Inform´aticada UFPB em um lugar melhor e pelo apoio incessante aos alunos da institui¸c˜ao. Ao professor Eudisley Gomes dos Anjos, por ser um exemplo de conduta e de- dica¸c˜aoque sempre me serviu como inspira¸c˜ao. Ao professor Tiago Maritan Ugulino de Ara´ujo,por aceitar me orientar e pelo conhecimento transferido nesse importante projeto para minha forma¸c˜aoacadˆemica. A todos os bons professores do centro de inform´aticada UFPB que mantiveram seus papeis de ensinar e motivar os alunos de forma ´eticae justa. Aos meus colegas que passaram madrugadas fazendo trabalhos e estudando para chegarmos onde chegamos. RESUMO

As Tecnologias da Informa¸c˜aoe da Comunica¸c˜ao,quando s˜aodesenvolvidas, geralmente n˜aoendere¸camas necessidades das pessoas com deficiˆencia.Em raz˜aodisso, ´enecess´ario adaptar ou desenvolver novas tecnologias para reduzir as barreiras de acesso. Este tra- balho endere¸cao problema de inclus˜aoe acesso `ainforma¸c˜aodas pessoas surdas em pla- taformas multim´ıdiacomo o YouTube. Atrav´esde um aplicativo para Android chamado LibrasTube, este trabalho prop˜oeuma arquitetura de tradu¸c˜aoautom´aticae sincroniza¸c˜ao de janelas de Libras atrav´esde legendas criadas por ferramentas de reconhecimento de fala. Assim, usu´ariossurdos poder˜aoassistir v´ıdeosdo YouTube de forma mais inclusiva atrav´esda adi¸c˜aode janelas de Libras nos v´ıdeos. Na realiza¸c˜aodeste trabalho, foi veri- ficado que a sincroniza¸c˜aodessas janelas com o v´ıdeooriginal ´ealgo alcan¸c´avel. Por´em, o desenvolvimento de tecnologias de resumos textuais ´enecess´ariopara que essa solu¸c˜ao possa, de fato, atuar com uma qualidade satisfat´oria. Palavras-chave: Libras, reconhecimento autom´aticode fala, sincroniza¸c˜aode janela de Libras, YouTube API, VLibras API. ABSTRACT

Information and Communication Technologies, when developed, generally do not address the needs of people with disabilities. As a result, new technologies need to be adapted or developed to reduce access barriers for people with disabilities. This paper addresses the problem of inclusion and access to information for deaf people on multimedia platforms such as YouTube. Through an Android application called LibrasTube, this work proposes an architecture of automatic translation and synchronization of Libras’ windows through subtitles created by speech recognition tools. Therefore, deaf users will be able to watch YouTube videos more inclusively by adding Libras’ windows to videos. In the realization of this work, it was verified that the synchronization of these windows with the original video is something reachable, however, the development of technologies for textual summaries is necessary so that this solution can, in fact, work with a satisfactory quality. Key-words: Libras, automatic speech recognition, Libras synchronization, YouTube API, VLibras API LISTA DE FIGURAS

1 Exemplo de Ocorrˆenciade Regionalismo em Libras (PEREIRA, 2010) . . . 20 2 Exemplo de Tradu¸c˜aode Portuguˆespara Glosa em Libras ...... 21 3 Exemplo de tradu¸c˜aopara Libras em tempo real [TV Justi¸ca] ...... 22 4 Diagrama de blocos de um sistema de reconhecimento cont´ınuo de fala (VEIGA, 2013) ...... 23 5 Arquitetura VLibras (FALCAO,˜ 2014) ...... 26 6 Arquitetura proposta ...... 28 7 Tela inicial do LibrasTube ...... 30 8 Fluxo principal do LibrasTube ...... 31 9 Captura de tela da janela de Libras sincronizada com v´ıdeo oriundo do YouTube...... 32 10 Lista parcial de legendas dispon´ıveis no YouTube para um v´ıdeo ...... 33 11 Prioridade da mais alta at´ea mais baixa na escolha da legenda...... 33 12 Ajustes da janela de Libras ...... 34 LISTA DE TABELAS

1 Exemplo de plataformas vi´aveis para a cria¸c˜ao de janelas de Libras . . . . 18 2 Compara¸c˜aoda legenda gerada pelo YouTube atrav´esde um v´ıdeo com boa qualidade de ´audio...... 35 3 Compara¸c˜aoda legenda gerada pelo YouTube atrav´es de um v´ıdeocom m´a qualidade de ´audio ...... 36 LISTA DE ABREVIATURAS

ASR – Reconhecimento Autom´aticode Fala (“Automatic Speech Recognition”)

API – Interface de Programa¸c˜aode Aplicativos (“Application Programming Interface”) eMAG – Modelo de Acessibilidade em Governo Eletrˆonico

IBGE – Instituto Brasileiro de Geografia e Estat´ıstica

LIBRAS – L´ınguaBrasileira de Sinais

LGP – L´ınguaGestual Portuguesa

NLP – Processamento de Linguagem Natural (“Natural-Language Processing”)

OMS – Organiza¸c˜aoMundial da Sa´ude

PNS – Pesquisa Nacional de Sa´ude

TIC - Tecnologia da Informa¸c˜aoe Comunica¸c˜ao

URL – Localizador Padr˜aode Recursos (“Uniform Resource Locator”)

WCAG – Diretrizes de Acessibilidade ao Conte´udoWeb (“Web Content Accessibility

Guidelines”) Conte´udo

1 INTRODUC¸ AO˜ 16 1.1 Identifica¸c˜aodo Problema ...... 16 1.2 Objetivo geral ...... 17 1.3 Objetivos espec´ıficos ...... 18 1.4 Estrutura da monografia ...... 18

2 FUNDAMENTAC¸ AO˜ TEORICA´ 20 2.1 Libras ...... 20 2.2 Tradu¸c˜aosimultˆaneade Libras no Brasil ...... 21 2.3 Reconhecimento Autom´aticode Fala ...... 22

3 TRABALHOS RELACIONADOS 24 3.1 Ferramentas de tradu¸c˜aoautom´aticapara Libras ...... 24 3.2 Su´ıteVLibras ...... 25 3.3 VLibras-V´ıdeo...... 26

4 SOLUC¸ AO˜ PROPOSTA 28 4.1 Aplicativo LibrasTube ...... 29

5 APRESENTAC¸ AO˜ E ANALISE´ DOS RESULTADOS 32 5.1 Resultados da gera¸c˜aoautom´aticade legendas no YouTube ...... 32 5.2 Resultados da gera¸c˜aoda janela de Libras atrav´esda su´ıteVLibras . . . . 35

6 CONSIDERAC¸ OES˜ FINAIS E TRABALHOS FUTUROS 38

REFERENCIASˆ 39

15 1 INTRODUC¸ AO˜

1.1 Identifica¸c˜aodo Problema

Segundo o ´ultimocenso do Instituto Brasileiro de Comunica¸c˜aoe Estat´ıstica(IBGE), realizado em 2010, cerca de 5,1% da popula¸c˜aobrasileira possui algum tipo de deficiˆencia auditiva [1]. O n´umerode pessoas com deficiˆenciaauditiva severa, caracterizado por ter grande dificuldade ou n˜aoconseguir de modo algum ouvir, ´ede cerca de 1,12% da po- pula¸c˜ao.Dados mais recentes da Pesquisa Nacional de Sa´ude(PNS) de 2013 corroboram com os dados de 2010 do IBGE, estimando que 1,1% da popula¸c˜aopossui deficiˆenciaaudi- tiva caracterizada como surdez nos dois ouvidos, surdez em um ouvido e audi¸c˜aoreduzida no outro ouvido, ou ainda audi¸c˜aoreduzida em ambos os ouvidos [10]. Em termos mundiais, a Organiza¸c˜aoMundial da Sa´ude(OMS) estima que, em 2018, mais de 5% da popula¸c˜ao,o equivalente a 466 milh˜oesde pessoas, possui deficiˆencia auditiva caracterizada por perda auditiva superior a 40 decib´eis(dB) na orelha de maior capacidade auditiva em adultos, ou perda auditiva maior que 30 dB em crian¸cas[4]. Al´em disso, a OMS estima que, em 2050, esse n´umero ir´aaumentar para 900 milh˜oesde pessoas. Diante desses dados e com o crescimento do n´umerode pessoas que acessam `a Internet no Brasil e no mundo, milh˜oes de pessoas com deficiˆenciaauditiva podem aca- bar exclu´ıdasdesse processo, devido a existˆenciade poucos recursos de acessibilidade que permitam que elas acessem informa¸c˜oesna Internet. Para reduzir esse problema, algumas iniciativas do Governo brasileiro foram desenvolvidas com o objetivo de promover aces- sibilidade para pessoas com deficiˆencia. Um exemplo ´ea Lei 10.098 [7] de dezembro de 2000 que estabeleceu normas gerais e crit´eriosb´asicospara a promo¸c˜aoda acessibilidade das pessoas com deficiˆencia. Al´emdisso, tamb´emfoi criado o Modelo de Acessibilidade em Governo Eletrˆonico(eMAG) [5] que consiste em um conjunto de recomenda¸c˜oespara padronizar e facilitar a implementa¸c˜aodo processo de acessibilidade em sites e portais do governo brasileiro. Com isso, algumas tecnologias vˆemsendo desenvolvidas para tornar `ainforma¸c˜ao mais acess´ıvel para as pessoas surdas, como, por exemplo, os tradutores autom´aticosde Portuguˆespara L´ınguaBrasileira de Sinais (Libras). Alguns exemplos desses tradutores autom´aticospara Libras s˜aoo VLibras [15], HandTalk [6] e ProDeaf [11]. Esses tradutores s˜aoutilizados geralmente para traduzir automaticamente o texto de diversos sites em portuguˆespara anima¸c˜oesem Libras. O VLibras, por exemplo, ´eatualmente utilizado nos sites do Governo Brasileiro, da Cˆamara dos Deputados, do Senado Federal, entre outros, enquanto que o Prodeaf e Handtalk s˜aoutilizados geralmente em sites comerciais. No entanto, n˜aoforam encontradas ferramentas que disponibilizem conte´udosem l´ınguas de sinais em servi¸cosde streaming de v´ıdeocomo, por exemplo, Youtube e Netflix. Esses

16 servi¸cosest˜aoem crescente expans˜aoe a plataforma mais utilizada, Youtube, divulgou, em 2017, que possu´ıa1,5 bilh˜aode usu´ariosativos mensalmente e os mesmos assistiam, em m´edia,mais de uma hora de conte´udona plataforma apenas em dispositivos m´oveis [22] [14]. Um dos recursos de acessibilidade providos pelo YouTube ´eum servi¸code adi¸c˜ao de legendas ocultas geradas a partir de softwares de reconhecimento autom´aticode fala. A transcri¸c˜aodescritiva de ´audiogravado faz parte da recomenda¸c˜ao5.2 do eMAG, em conformidade com o Guia de Acessibilidade de Conte´udoWeb (WCAG) [5]. No entanto, o Cap´ıtuloVII da Lei 10.098, que trata da acessibilidade nos sistemas de comunica¸c˜ao e sinaliza¸c˜ao,determina, no Art. 19, que: “Os servi¸cosde radiodifus˜aosonora e de sons e imagens adotar˜aoplano de medidas t´ecnicascom o objetivo de permitir o uso da linguagem de sinais ou outra subtitula¸c˜ao, para garantir o direito de acesso `ainforma¸c˜ao`aspessoas portadoras de deficiˆenciaauditiva, na forma e no prazo previstos em regulamento”[7]. As- sim, o YouTube carece de uma ferramenta que disponibilize esses conte´udosem l´ınguasde sinais, para que consiga promover uma melhor acessibilidade para pessoas com deficiˆencia auditiva. O uso de legendas para prover acessibilidade para pessoas com deficiˆenciaauditiva geralmente n˜ao´esuficiente, uma vez que mesmo ap´osmuitos anos de escolaridade, as pessoas com deficiˆenciaauditiva geralmente tˆemdificuldade em compreender textos na l´ınguaoral de seu pa´ıs[27]. Dessa forma, a melhor forma de assegurar que textos se tornem significativos a surdos ´einterpret´a-losna l´ınguade sinais [30]. Desta forma, o uso da L´ınguaBrasileira de Sinais para tornar o conte´udo de plata- formas de streaming de v´ıdeomais acess´ıveis, ´eum requisito necess´ario.Para endere¸car esse problema, e como consequˆencia,minimizar os problemas de acesso `ainforma¸c˜ao das pessoas surdas em plataformas de streaming de v´ıdeo,a proposta deste trabalho ´e investigar os principais problemas relacionados a gera¸c˜aode conte´udosem Libras nas plataformas de streaming de v´ıdeo,bem como desenvolver um prot´otipo funcional para amenizar os problemas encontrados. Uma breve lista de plataformas que poderiam usar nossa proposta est´adescrita e caracterizada na Tabela 1

1.2 Objetivo geral

O objetivo geral deste trabalho ´eanalisar os principais desafios acerca da imple- menta¸c˜aode solu¸c˜oespara tratar a acessibilidade em plataformas de streaming de v´ıdeo utilizando janelas de Libras, de forma a tornar conte´udos audiovisuais mais acess´ıveis para pessoas surdas. Al´emdisso, tamb´empretende-se desenvolver um aplicativo que permita a tradu¸c˜aode v´ıdeosdo YouTube para Libras e sua apresenta¸c˜aode forma sincronizada com o v´ıdeo.

17 Tabela 1: Exemplo de plataformas vi´aveis para a cria¸c˜aode janelas de Libras

Plataformas Tipos de V´ıdeo Caracter´ısticas YouTube Variados - Suporte `aadi¸c˜aode arquivos de legenda - Mais de 1 bilh˜aode closed captions geradas

Netflix, HBO, Hulu Filmes e s´eries - Variado cat´alogo com legendas adicionadas em portuguˆes

Udacity, Udemy, Coursera V´ıdeo-aulas - Geralmente s´oh´aum falante, o que facilita a convers˜aode fala para texto

1.3 Objetivos espec´ıficos

1. Implementar um aplicativo Android capaz de pesquisar e selecionar v´ıdeosdo You- Tube para a tradu¸c˜ao;

2. Obter a transcri¸c˜aodo v´ıdeoselecionado e convertˆe-la para uma sequˆenciade glosas em Libras;

3. Gerar e exibir os sinais de Libras em uma janela mixada ao v´ıdeooriginal selecio- nado;

4. Sincronizar a janela de Libras com o v´ıdeodo YouTube.

1.4 Estrutura da monografia

Esta monografia est´aorganizada em cinco cap´ıtulosestruturados da seguinte forma:

• Cap´ıtulo1: abordou o problema de pesquisa a ser tratado no escopo desta mono- grafia, al´emde descrever os objetivos gerais e espec´ıficos;

18 • Cap´ıtulo 2: apresenta uma fundamenta¸c˜aote´oricasobre os principais conceitos relacionados ao trabalho como a L´ıngua Brasileira de Sinais, a tradu¸c˜aosimultˆanea de Libras no Brasil e o reconhecimento autom´aticode voz.

• Cap´ıtulo3: apresenta os trabalhos relacionados ao trabalho aqui desenvolvido. Ser´a discutido aplica¸c˜oesde tradu¸c˜aode portuguˆespara Libras e, de forma mais detalhes, a su´ıteVLibras e o VLibras-V´ıdeo.

• Cap´ıtulo4: explana a solu¸c˜aoproposta, LibrasTube, descrevendo-a em suas princi- pais funcionalidades.

• Cap´ıtulo5: apresenta e discute os principais resultados obtidos com o desenvolvi- mento da solu¸c˜ao.

• Cap´ıtulo 6: apresenta as considera¸c˜oesfinais e algumas propostas de trabalhos futuros.

19 2 FUNDAMENTAC¸ AO˜ TEORICA´

2.1 Libras

Libras ´ea segunda l´ınguaoficial do Brasil de acordo com a Lei 10.436 de 2002, consistindo de um sistema lingu´ısticode natureza visual-motora oriunda de comunidades de pessoas surdas no Brasil para transmiss˜aode ideias e fatos [8]. Os sinais de Libras s˜aoformados a partir de combina¸c˜aodas formas e movimentos das m˜aose express˜oes faciais [30]. Al´em disso, a L´ınguaBrasileira de Sinais n˜ao´euniversal em todos os estados brasileiros. Os sinais de Libras acabam sofrendo influˆenciasde suas regi˜oes,assim como acontece com a l´ınguaPortuguesa [30]. Esse regionalismo da Libras adiciona uma vari- edade de sinais que torna a tradu¸c˜aode textos em sinais um desafio ainda maior. Um exemplo desse regionalismo pode ser visualizado na Figura 1, onde a palavra ”verde”´e sinalizada de maneira distinta entre as cidades do Rio de Janeiro, S˜aoPaulo e Curitiba.

Figura 1: Exemplo de Ocorrˆenciade Regionalismo em Libras (PEREIRA, 2010)

Al´emdisso, a Libras n˜ao´euma simples gestualiza¸c˜aoda l´ınguaportuguesa, mas sim uma l´ıngua`aparte e, por isso, ela se difere da L´ınguaGestual Portuguesa (LGP) utilizada para a comunica¸c˜aoentre pessoas surdas em Portugal. Dessa forma, n˜aobasta apenas saber os sinais para utiliz´a-la,pois conhecer sua estrutura gramatical pr´opria´e fundamental para o correto entendimento pelos usu´ariosda l´ıngua. A exemplo disso e como ´edemonstrado na Figura 2, o texto original em Portuguˆesdifere-se da representa¸c˜ao textual em Libras, denominada glosa.

20 Figura 2: Exemplo de Tradu¸c˜aode Portuguˆespara Glosa em Libras

H´adiversos fatores que diferenciam a forma e estrutura gramatical entre a l´ıngua portuguesa e a Libras. Entre esses fatores, pode-se destacar:

• Os verbos aparecem sempre no infinitivo;

• Os pronomes pessoais n˜aos˜aorepresentados, sendo necess´arioapontar a quem se refere;

• Os pronomes pessoais, possessivos e demonstrativos n˜aopossuem indica¸c˜oesde gˆenero;

• Os nomes pr´opriosn˜aonecessariamente possuem sinais pr´oprios.Nesse caso, faz-se a datilologia do sinal (isto ´e,sinaliza-se o nome letra a letra).

2.2 Tradu¸c˜aosimultˆaneade Libras no Brasil

Atualmente, int´erpretesda L´ıngua Brasileira de Sinais atuam na tradu¸c˜aosi- multˆaneaem atividades oficiais do Senado Federal, TV Senado, TV Justi¸cae Institutos Legislativos Brasileiro. Em programas de televis˜ao,a imagem do int´erprete´ecomumente sobreposta ao v´ıdeooriginal no canto inferior direito, como pode ser visto na Figura 3 que apresenta a utiliza¸c˜aode um int´erpretede Libras na TV Justi¸ca. Uma caracter´ısticaimportante do processo de tradu¸c˜aosimultˆanea´eque o int´erprete precisa manter a informa¸c˜aoem Libras o mais pr´oximoposs´ıvel da informa¸c˜aooriginal. No entanto, pessoas falam, em m´edia,de duas a trˆespalavras por segundo em portuguˆes [21]. Um ´unicosinal de Libras, por sua vez, tem dura¸c˜aom´ediade dois a trˆessegundos, o que torna mais dif´ıcila tradu¸c˜aosimultˆaneade forma sincronizada. Assim, um dos focos da interpreta¸c˜aodeve ser o significado da mensagem e n˜aoas palavras a serem traduzi- das, levando em considera¸c˜aoque o tempo ´ecr´ıticonessas situa¸c˜oes[28]. Dessa forma, os sistemas de tradu¸c˜aoautom´aticade textos para sinais em Libras devem ser capazes de entender essas caracter´ısticasintr´ınsecasa l´ınguade sinais para tentar contornar esses problemas. Portanto, afim de sincronizar sinais de Libras com a fala, poder´aser necess´ario o uso resumos e simplifica¸c˜oestextuais.

21 Figura 3: Exemplo de tradu¸c˜aopara Libras em tempo real [TV Justi¸ca]

2.3 Reconhecimento Autom´aticode Fala

O reconhecimento autom´aticode fala ´eo processo de usar o software para con- verter as palavras faladas de uma pessoa em uma transcri¸c˜aode texto. Esses softwares conseguem, atrav´esda captura de um sinal ac´usticorepresentativo da fala, determinar as palavras que foram faladas pela correspondˆenciade padr˜oes[19]. Os sistemas de reconhe- cimento autom´aticode fala geralmente possuem um conjunto de modelos ac´usticose de idiomas armazenados em banco de dados. Esses modelos s˜aoo resultado de treinamento e de regras de interpreta¸c˜aodo idioma que s˜aocomparados aos sinais capturados como pode ser visto Figura 4. De acordo com a Figura 4, o m´odulode an´alisede extra¸c˜aode caracter´ısticas tem como proposta a parametriza¸c˜aoda fala em uma sequˆenciade vetores, chamados de vetores de caracter´ısticas,que cont´eminforma¸c˜oesrelevantes sobre a express˜ao. Essas ca- racter´ısticasdevem estar dentro do dom´ınioespectral contido na voz e devem prover uma boa distin¸c˜aoem modelos estat´ısticos[29]. Essas caracter´ısticas,ent˜ao,ser˜aocomparadas a modelos ac´usticosde palavras e modelos de linguagem para realizar a convers˜aodas caracter´ısticasda fala para senten¸casque ir˜aocompor o texto final. Um dos principais fatores de complica¸c˜aono reconhecimento da fala cont´ınua ´eque os limites das palavras s˜aomuitas vezes dif´ıceisde serem classificados [19]. Por exemplo,

22 Figura 4: Diagrama de blocos de um sistema de reconhecimento cont´ınuo de fala (VEIGA, 2013) softwares de reconhecimento de fala tˆemdificuldade de diferenciar o limite de uma palavra de um sub-palavra (por exemplo, um fonema). Dessa forma, t´ecnicasde processamento de linguagem natural (PLN) s˜aoutilizadas para otimizar o processo de convers˜ao. Baseando-se nessas t´ecnicas,softwares de reconhecimento autom´aticode fala tˆem conseguido alcan¸carbons resultados em v´ıdeosde diferentes perfis. Entre os sistemas de reconhecimento autom´aticode fala mais utilizadas est´aa Cloud Speech-to- Text que ´ecapaz de transcrever ´audioem mais de 110 idiomas [2]. Al´emdisso, em 2017, o YouTube divulgou que j´apossui mais de 1 bilh˜aode legendas ocultas geradas automaticamente a partir de falas [9]. Esta se¸c˜aoabordou conceitos importantes para a fundamenta¸c˜aodeste trabalho. Entre os pontos a serem destacados, est˜ao:as caracter´ısticasda l´ınguabrasileira de sinais e algumas das distin¸c˜oes da l´ıngua portuguesa, a utiliza¸c˜aode janelas de Libras com int´erpretesreais na TV Brasileira, e a fundamenta¸c˜aodo processo de reconhecimento de fala. Na pr´oxima se¸c˜ao,ser˜aoabordados alguns trabalhos relacionados que s˜aocorrelatos ao trabalho aqui desenvolvido.

23 3 TRABALHOS RELACIONADOS

3.1 Ferramentas de tradu¸c˜aoautom´aticapara Libras

Existem diversas ferramentas com o objetivo de realizar a tradu¸c˜ao de portuguˆes para Libras. A maioria dessas ferramentas fazem a tradu¸c˜aoapenas a partir de textos, algumas contam ainda com a funcionalidade de traduzir informa¸c˜oestextuais de websites para sinais de Libras. Outras ferramentas, no entanto, s˜aocapazes de realizar a tradu¸c˜ao para Libras tamb´ematrav´esde ´audio.De forma geral, as ferramentas geram anima¸c˜oes que s˜aocapazes de executar os movimentos dos sinais de Libras. Entre as principais diferen¸casdessas ferramentas, est˜aoa capacidade de realizar um passo intermedi´ariode tradu¸c˜aodo conte´udoda mensagem para Glosa (representa¸c˜ao textual de sinais) ao inv´esde gerar os sinais diretamente a partir de estrutura grama- tical portuguesa. Al´emdisso, algumas ferramentas geram um avatar 3D que pode ser rotacionado para visualizar os sinais em diferentes ˆangulos. Atualmente, na literatura, existe uma vasta variedade de ferramentas de tradu¸c˜ao autom´aticapara Libras, segue alguns exemplos com uma breve descri¸c˜aode suas carac- ter´ısticas:

• F-LIBRAS: ambiente virtual cujas principais fun¸c˜oess˜aoa grava¸c˜ao,editora¸c˜aoe visualiza¸c˜aode gestos e movimentos tridimensionais da l´ınguade sinais atrav´esde t´ecnicasde realidade virtual [24];

• FALIBRAS: um tradutor de portuguˆes (escrito ou falado) para l´ınguabrasileira de sinais em formato gestual e animado com integra¸c˜aoao navegador web Firefox. O tradutor utiliza-se de t´ecnicasde aprendizado de m´aquina e possui o potencial de traduzir qualquer l´ınguaescrita ou falada para qualquer l´ınguade sinal [20];

• HandTalk: empresa fundada em 2012 com foco em tradu¸c˜aode sites para Libras. Seu tradutor ´ecapaz de gerar sinais a partir de texto e ´audioe conta com aplicativos para dispositivos m´oveis [6];

• POLI-LIBRAS: um sistema de c´odigoaberto capaz de fazer a tradu¸c˜aoPortuguˆes- Libras atrav´esde uma anima¸c˜ao3D. O diferencial deste projeto ´ea sua modula- riza¸c˜ao,o que facilita a integra¸c˜aocom outros projetos com finalidades semelhantes [26];

• ProDeaf: um conjunto de softwares capazes de traduzir texto e voz de portuguˆes para Libras. O ProDeaf possui vers˜oespara web e dispositivos m´oveis, al´emde ser capaz de traduzir websites [11];

24 • Projeto RyBen´a: um projeto de acessibilidade para surdos que iniciou-se com uma solu¸c˜aoque converte automaticamente mensagens de texto para sinais de Libras no celular. O RyBen´aTV foi desenvolvido a partir do projeto inicial com o objetivo de traduzir legendas ocultas em TV Digital, por´ema tradu¸c˜ao´efeita em portuguˆes sinalizado, n˜aoem Glosa, e n˜aoh´asincroniza¸c˜aocom as marca¸c˜oesde texto das legendas ocultas [12][18].

3.2 Su´ıteVLibras

Dentre todos esses sistemas de tradu¸c˜aoautom´aticossupracitados, o VLibras ´eo ´unicocapaz de receber arquivos de legenda para a gera¸c˜aode Libras [23]. Al´emdisso, ele ´eum software livre que possui um dicion´ariode sinais que est´aem cont´ınua expans˜ao, e a capacidade de realizar um passo intermedi´ariode tradu¸c˜ao text-to-gloss (isto ´e,uma tradu¸c˜aodo texto para glosa em Libras). Em raz˜aodisso, ele foi a plataforma escolhida para apoiar o desenvolvimento deste trabalho e ser´aanalisado de uma forma um pouco mais aprofundada. A Su´ıteVLibras ´eum conjunto de ferramentas computacionais que faz a tradu¸c˜ao autom´aticade conte´udosdigitais como, por exemplo, textos, ´audiose v´ıdeospara Libras, tornando esses conte´udosacess´ıveis para pessoas surdas. Al´emda capacidade de traduzir para diferentes tipos de m´ıdias,o VLibras tamb´empossui suporte para diferentes plata- formas como, por exemplo, os sistemas operacionais Windows, Linux, Android e iOS, e nos navegadores , Firefox e Safari. Como pode ser visto na arquitetura da su´ıteVLibras apresentada na Figura 5, o VLibras gera a tradu¸c˜aodas anima¸c˜oesem Libras a partir de uma sequˆenciade passos que se inicia com a obten¸c˜aodo conte´udodigital a ser traduzido. Caso o conte´udon˜aoseja obtido diretamente atrav´esde texto, um m´odulo de extra¸c˜aoir´aextrair o texto a partir de um v´ıdeo,´audio ou legenda. A tradu¸c˜aopara glosa ocorre com o aux´ıliode um conjunto de regras de tradu¸c˜aoque s˜aoobtidas atrav´esde uma ferramenta colaborativa chamada WikiLIBRAS, que ´erespons´avel por definir regras de tradu¸c˜aoe sinais animados de Libras. Ap´osa realiza¸c˜aoda tradu¸c˜ao,a anima¸c˜aopoder´aser criada e, se preciso, sincronizada com os tempos de fala do seu conte´udode origem.

25 Figura 5: Arquitetura VLibras (FALCAO,˜ 2014)

3.3 VLibras-V´ıdeo

O VLibras-V´ıdeo´euma ferramenta contida na su´ıteVLibras capaz de gerar janelas de Libras a partir de legendas enviadas pelos usu´ariosou geradas pelo seu software interno de reconhecimento de fala. Esta ferramenta pode ser acessada atrav´esdo seu website [16] ou atrav´esde sua API p´ublica[17]. O principal diferencial do VLibras-V´ıdeoem rela¸c˜ao a outras ferramentas de tradu¸c˜aopara Libras ´ea funcionalidade de sincronizar a janela de Libras com as marca¸c˜oesde tempo das legendas. A API do VLibras-V´ıdeoconta com alguns endpoints utilizados para acessar dife-

26 rentes funcionalidade da ferramenta. Entre as principais funcionalidades da API, pode-se destacar:

• V´ıdeo-Legenda: recebe um arquivo de v´ıdeoe um arquivo de legenda. Ap´oso t´erminoda tradu¸c˜aodo texto e a gera¸c˜aodos sinais, um novo v´ıdeo´eretornado com uma janela de Libras incorporada ao v´ıdeooriginal de forma sincronizado com os tempos da legenda;

• V´ıdeo: recebe apenas um arquivo de v´ıdeoe faz o reconhecimento de fala para gerar legendas. Ap´osa gera¸c˜aoda legenda, o processo ocorre como declarado no item supracitado;

• Legenda: recebe apenas um arquivo de legenda que ser´ausado para gerar uma janela de Libras sincronizada com os tempos da legenda. Um novo v´ıdeo´eretornado apenas com os sinais de Libras;

Nos testes realizados durante o desenvolvimento deste trabalho, apenas o primeiro endpoint est´arespondendo as requisi¸c˜oescorretamente como referenciado em sua docu- menta¸c˜ao[17]. Ainda assim, a ferramenta ´ea ´unicacom a funcionalidade de gerar janelas de Libras sincronizadas com arquivos de legendas. Esta funcionalidade pode ser utilizada em diversas aplica¸c˜oes como a aplica¸c˜aoproposta neste trabalho. Esta se¸c˜aodescreveu alguns trabalhos desenvolvidos correlatos com o tema e solu¸c˜ao proposta deste trabalho. A pr´oximase¸c˜aoir´adescrever a solu¸c˜aodesenvolvida e ir´ade- talhar a aplica¸c˜aocriada, denominada LibrasTube, que foi desenvolvida com o objetivo de provar os conceitos da proposta apresentada.

27 4 SOLUC¸ AO˜ PROPOSTA

Muitas ferramentas de tradu¸c˜aoautom´aticade portuguˆespara Libras tratam ape- nas a tradu¸c˜aode textos para l´ınguade sinais, n˜aodando a devida aten¸c˜ao`asincroniza¸c˜ao desses sinais com o texto ou ´audiooriginal. Dessa forma, legendas e textos com marca¸c˜oes de tempo acabam perdendo sua principal fun¸c˜aoque ´ea de sincronizar a l´ıngua,seja es- crita ou sinalizada, com a fala. Nossa solu¸c˜aoprop˜oeo uso de legendas para a cria¸c˜aode janelas de Libras que ser˜aoexibidas de forma conjunta e sincronizada com o v´ıdeooriginal. A aquisi¸c˜aoda legenda pode ser realizada atrav´esda adi¸c˜aodireta de um arquivo de legenda ou atrav´es do uso de ferramentas de convers˜aode fala para textos com marca¸c˜oesde tempo. Dessa forma, ser´aposs´ıvel gerar um novo v´ıdeoa partir do v´ıdeooriginal com a adi¸c˜aode uma janela de Libras sincronizada com as falas do v´ıdeooriginal. Como pode ser visto na Figura 6, caso o v´ıdeopossua uma legenda, o m´odulo de tradu¸c˜aoautom´aticapara l´ıngua de sinais pode gerar uma janela de Libras e adicion´a-loao v´ıdeooriginal de forma direta. Caso o v´ıdeon˜aopossua um arquivo de legenda pr´oprio,o sistema poder´aextrair as falas com seus respectivos tempos de dura¸c˜aoe inicia¸c˜aoa partir de softwares de reconhecimento autom´aticode fala (ASR). Com a obten¸c˜aoda legenda e a convers˜aoposterior para janela de Libras sincronizada, o usu´ariopoder´aassistir o v´ıdeo original e entender informa¸c˜oessonoras a partir da janela de Libras adicionada.

Figura 6: Arquitetura proposta

Dessa forma, espera-se que v´ıdeosoriundos de diferentes plataformas possam ser utilizados para a cria¸c˜aode janelas de Libras sincronizadas com o v´ıdeooriginal, gerando maior acessibilidade a pessoas surdas.

28 4.1 Aplicativo LibrasTube

Com o objetivo de construir uma prova de conceito da proposta, um aplicativo, denominado LibrasTube, foi desenvolvido para a plataforma mobile Android. A proposta do LibrasTube ´etraduzir automaticamente v´ıdeosdo YouTube para Libras, mantendo o sincronismo com o v´ıdeo. O aplicativo faz uso de trˆesitens: o v´ıdeoa ser traduzido, a API do YouTube que d´aacesso ao arquivo de legenda (seja enviado pelo usu´arioou autogerado) e a API do VLibras para fazer a gera¸c˜aodas janelas de Libras j´asincronizadas com a legenda. Dessa forma, ´eposs´ıvel recriar v´ıdeosdo YouTube com janelas de Libras adicionadas e sincronizadas com o ´audiooriginal. Como pode ser visto na Figura 7, o aplicativo exibe um componente do Android chamado WebView que ´ecapaz de apresentar o conte´udode um site (neste caso, o You- Tube) diretamente dentro de um aplicativo. Dessa forma, o usu´ariopode navegar pelo site do YouTube dentro do aplicativo LibrasTube e escolher o v´ıdeoque deseja realizar a tradu¸c˜ao. Como discutido na Se¸c˜ao2.3 deste trabalho, o YouTube, atrav´esde seu software de reconhecimento autom´aticode fala, ´ecapaz de gerar legendas em mais de 110 idiomas. Al´emdisso, a plataforma possui mais de 1 bilh˜aode legendas geradas automaticamente atrav´esdessa tecnologia. Assim, o LibrasTube pode utilizar as legendas geradas automa- ticamente pelo YouTube assim como arquivos de legenda adicionados na plataforma por usu´ariospara a gera¸c˜aode janelas de Libras. O principal fluxo de execu¸c˜aodo aplicativo pode ser visualizado na Figura 8. A execu¸c˜aodos eventos realizados nas trˆestelas ´edescrito da seguinte forma:

1. Com o v´ıdeo a ser convertido selecionado, o usu´ariopoder´aclicar no bot˜aoflutuante na parte inferior direita da tela para dar in´ıcioao processo de download e envio do v´ıdeoe da legenda extra´ıdapara fazer a tradu¸c˜ao;

2. Ap´osa primeira etapa ser realizada, o usu´ariopoder´avisualizar os status dos v´ıdeos selecionados atrav´esdo bot˜ao“V´ıdeos”(representado por um ´ıcone que remete a um diret´orio)localizado na parte superior direita da tela;

3. Na tela “V´ıdeos”, o usu´ariopoder´avisualizar todos os v´ıdeosque ele selecionou assim como seus status. E´ nesta tela que o usu´ariopoder´aselecionar o v´ıdeoa ser assistido j´acom a janela de Libras sincronizada.

E´ importante ressaltar que os v´ıdeos e legendas extra´ıdosdo YouTube precisam ser baixados para serem enviados ao servidor do VLibras devido a restri¸c˜oesda pr´opria API do VLibras. No entanto, esses arquivos s˜aoexclu´ıdos do dispositivo do usu´ario

29 Figura 7: Tela inicial do LibrasTube imediatamente ap´oso envio, de forma que o usu´arion˜aopossa ter acesso a eles para outros fins. Ap´osa execu¸c˜aodo fluxo principal do LibrasTube demonstrado na Figura 8, o usu´ariopode assistir o v´ıdeoatrav´esde streaming realizado a partir dos servidores do VLibras. Para isso, basta clicar em qualquer v´ıdeocom o status conclu´ıdoe o v´ıdeoser´a executado no dispositivo do usu´ario como demonstrado na Figura 9. O v´ıdeodemonstrado na Figura 9 possui ´audioe legenda original em Inglˆes. No entanto, a API do YouTube permite a tradu¸c˜aoda legenda para diversos idiomas caso seja necess´ario. Al´emdisso, o YouTube possui uma lista de poss´ıveis aquisi¸c˜oesde legendas como legendas adicionadas pelo usu´arioe legendas autogeradas a partir de softwares de reconhecimento de fala. A Figura 10 mostra um exemplo de uma lista resumida de legendas dispon´ıveis no YouTube para determinado v´ıdeo. Neste caso, existem duas legendas adicionadas pelo usu´ariodo YouTube que est˜aomarcadas pelo tag “track”. As demais legendas s˜aotradu¸c˜oesdas legendas originais. A lista pode, ainda, possuir uma legenda com o valor “kind=asr”que representa que a legenda foi gerada a partir de um software de reconhecimento autom´aticode fala. Devido `avariedade de op¸c˜oes de legendas dispon´ıveis no YouTube, o aplicativo

30 Figura 8: Fluxo principal do LibrasTube procura selecionar a legenda de maior qualidade. A sele¸c˜aodo tipo legenda para a cria¸c˜ao da janela de Libras obedece a ordem de prioridade que pode ser visualizada na Figura 11. Nota-se que legendas adicionadas pelo usu´arioem outros idiomas que podem ser traduzidas para o portuguˆespossuem maior prioridade que as legendas autogeradas a partir do ´audiooriginal em portuguˆes.A lista de prioridades foi criada a partir de an´alises emp´ıricasde variados v´ıdeos. Para adequa¸c˜aoa preferˆenciasdo usu´ario,a exibi¸c˜aoda janela de Libras pode ser personalizada antes da sele¸c˜aodo v´ıdeoatrav´esdo menu de ajustes. Como pode ser visto na Figura 12, o usu´ariopode escolher, atrav´es do bot˜aode ajuste na parte superior direita da tela, a posi¸c˜aoda janela de Libras assim como o tamanho que ela ir´aser exibida. Para avaliar a solu¸c˜aoproposta, no Cap´ıtulo5 ser´aapresentado e discutido os principais resultados encontrados. Os resultados discutidos est˜aorelacionados a qualidade e viabilidade da sincroniza¸c˜aocom o ´audiooriginal assim como a qualidade de legendas geradas por ferramentas de reconhecimento de voz.

31 Figura 9: Captura de tela da janela de Libras sincronizada com v´ıdeooriundo do YouTube

5 APRESENTAC¸ AO˜ E ANALISE´ DOS RESULTADOS

O aplicativo LibrasTube foi capaz de integrar tecnologias existentes como ferramen- tas de reconhecimento autom´aticode fala assim como ferramentas de tradu¸c˜aode texto em portuguˆespara Libras. As ferramentas utilizadas no desenvolvimento do LibrasTube foram, respectivamente, Cloud Speech-to-Text API da Google e VLibras API. Essas fer- ramentas foram avaliadas em trabalhos anteriores, e encontram-se em funcionamento h´a alguns anos. Assim, n˜ao´eo objetivo deste trabalho avali´a-lasindividualmente e de forma extensiva, mas sim, verificar seus desempenhos no cen´ariode cria¸c˜aoe sincroniza¸c˜aode janelas de Libras.

5.1 Resultados da gera¸c˜aoautom´aticade legendas no YouTube

Como explicado na Se¸c˜ao4, o YouTube ´ecapaz de exibir legendas a partir de arquivos adicionados por usu´ariosassim como arquivos gerados a partir de softwares de reconhecimento autom´aticode fala. Dessa forma, ser´abrevemente discutido o segundo caso onde a legenda fica a cargo do software de reconhecimento de fala do YouTube. Diferentemente de como ´efeito em tradu¸c˜oessimultˆaneasrealizada por pessoas, softwares de tradu¸c˜aode texto para Libras n˜aoconseguem corrigir falhas no texto original como frases mal formadas e oculta¸c˜aode palavras. Dessa forma, toda falha encontrada em uma legenda gerada a partir do reconhecimento de fala ser´apropagada para a janela de Libras.

32 Figura 10: Lista parcial de legendas dispon´ıveis no YouTube para um v´ıdeo

Figura 11: Prioridade da mais alta at´ea mais baixa na escolha da legenda.

A qualidade das legendas geradas por esses softwares depende diretamente da qua- lidade do ´audioal´emde outros fatores como a qualidade da articula¸c˜aoe pronuncia¸c˜aodas palavras e a clareza na forma¸c˜aode frases pelos falantes. Consequentemente, a qualidade da janela de Libras exibida pelo aplicativo LibrasTube pode variar bastante de acordo com o v´ıdeoselecionado para a tradu¸c˜ao,podendo, at´emesmo, ser incompreens´ıvel. Em casos de legendas geradas a partir de v´ıdeoscom boa qualidade de ´audio,a expectativa ´eque existam poucos erros. Como pode ser visto na Tabela 2, um trecho de uma reportagem do telejornal intitulado Jornal Nacional foi utilizado para comparar a legenda gerada pelo YouTube com a legenda esperada. Nesta situa¸c˜aoespec´ıfica, o software de reconhecimento de fala teve uma taxa de similaridade com o texto original de 95.5%, de acordo com o algoritmo de similaridade da ferramenta CopyLeaks [3]. Assim, houve falhas apenas no reconhecimento de um nome pr´oprio,“Marielle”, e na separa¸c˜ao das letras “e”e “a”. Al´emdisso, o software n˜aofoi capaz de aplicar regras de pontua¸c˜ao

33 Figura 12: Ajustes da janela de Libras de forma correta. No entanto, a quantidade de falhas n˜aoprejudicou o texto a ponto de torn´a-loincompreens´ıvel. Em casos de legendas geradas a partir de v´ıdeos com m´aqualidade de ´audio, espera-se, no entanto, que haja uma quantidade de erros maior. Como pode ser visto na Tabela 3, um trecho de uma aula de Libras no YouTube foi utilizado para comparar a gera¸c˜aode legendas. Nessa situa¸c˜ao,o v´ıdeoselecionado possui baixa qualidade de ´audio e o falante n˜aofala com tanta clareza e qualidade de pron´unciade um apresentador de telejornal. Assim, ´everificado que h´auma taxa de similaridade de apenas 46.9%, o que dificulta o entendimento e se caracteriza como uma legenda impr´opriapara a cria¸c˜aode uma janela de Libras. Dessa forma, existe a expectativa que o aplicativo LibrasTube tenha uma baixa qualidade na cria¸c˜aode janelas de Libras nas situa¸c˜oesem que o ´audiooriginal se apresenta com uma baixa qualidade. Por outro lado, em situa¸c˜oescom boa qualidade de ´audio, ´eesperado a cria¸c˜aode janelas de Libras com um bom n´ıvel de entendimento pelos usu´arios. No entanto, ser´anecess´ariauma avalia¸c˜aocom pessoas surdas para verificar se a quantidade de erros, mesmo que pequena, possa inviabilizar a compreens˜aodas

34 Tabela 2: Compara¸c˜aoda legenda gerada pelo YouTube atrav´esde um v´ıdeo com boa qualidade de ´audio

Legenda Esperada Legenda Gerada

Uma multid˜aose reuniu no centro para Uma multid˜aose reuniu no centro para pedir a investiga¸c˜aoe a puni¸c˜aodos pedir a investiga¸c˜ao ea puni¸c˜aodos autores do crime. autores do crime.

Em Belo Horizonte, manifestantes Em belo horizonte manifestantes levaram levaram faixas e cartazes para protestar faixas e cartazes para protestar contra a contra a violˆenciasofrida por jovens violˆenciasofrida por jovens negros e fazer negros e fazer uma homenagem a uma homenagem a vereadora mary l vereadora Marielle Franco. franco.

As rea¸c˜oesforam al´emdas fronteiras do As rea¸c˜oes foram al´em das fronteiras do pa´ıs.Em Portugal, as pessoas reuniram pa´ısem portugal as pessoas reuniram numa vig´ıliano centro de Lisboa para numa vig´ıliano centro de lisboa para homenagear a vereadora. homenagear a vereadora.

A ONG Redes da Mar´edeixou uma A ong redes da mar´edeixou uma homenagem `amulher que levou `avoz das homenagem `amulher que levou `avoz das minorias para muito al´emda favela onde minorias para muito al´emda favela onde ela nasceu. ela nasceu.

informa¸c˜oes.A verifica¸c˜aoe qualifica¸c˜aoda capacidade de entendimento de pessoas surdas ser´aproposto em trabalhos futuros. Esta an´aliseda gera¸c˜aode janelas de Libras em situa¸c˜oesque haja falhas nas anima¸c˜oesoriundas do texto original ´ede grande importˆancia haja visto que essas ferramentas est˜aofrequentemente sujeitas a este tipo de erro.

5.2 Resultados da gera¸c˜aoda janela de Libras atrav´esda su´ıteVLibras

A su´ıte VLibras foi selecionada neste trabalho por ser o ´unicosoftware capaz de receber arquivos de legenda para a gera¸c˜aode Libras sincronizadas com os tempos das falas. Apesar de atender os objetivos gerais deste trabalho, alguns problemas foram encontrados durante o seu uso e ser˜aoaqui discutidos. De acordo com a documenta¸c˜aoda API VLibras, uma das funcionalidades presentes ´ea de gera¸c˜aode um v´ıdeode Libras a partir, apenas, de um arquivo de legenda. No entanto, esta funcionalidade n˜aoest´afuncionando como documentada at´eo momento da publica¸c˜aodeste trabalho. Assim, torna-se necess´arioo envio do arquivo de v´ıdeo juntamente com o arquivo de legenda. Em consequˆenciadisso, o processo de gera¸c˜ao

35 Tabela 3: Compara¸c˜aoda legenda gerada pelo YouTube atrav´esde um v´ıdeo com m´aqualidade de ´audio

Legenda Esperada Legenda Gerada

Vou apresentar para vocˆeso alfabeto e os Vou apresentar para vocˆeso alfabeto e os n´umerosem datilologia: o alfabeto com n´umerosem da filologia o alfabeto as as m˜aos,o alfabeto manual. m˜aoso alfabeto manual.

Da´ıvocˆeent˜aotem primeiro o sinal do Da´ıvocˆeent˜aotem primeiro sinal do alfabeto manual. Ent˜ao,quando vocˆe alfabeto manual ent˜aoquando vocˆequiser quiser que algu´emfale uma palavra em que algu´em fala uma palavra em datilologia vocˆecoloca o “a”, “b”, “c”e tecnologia vocˆe colocou a, b c e trˆesdias treme os dedos assim. Dessa forma, vocˆe assim dessa forma vocˆeest´adizendo fa¸ca est´adizendo: fa¸caem datilologia. em tecnologia.

Geralmente quando n˜aotem um sinal Geralmente, quando n˜aotem um sinal para uma palavra ou ent˜aouma pessoa pra falar ent˜ao uma pessoao nome de ou nome de algu´em,a´ıvocˆecoloca. O algu´ema´ıvocˆecoloca o meu por exemplo meu por exemplo: “l”, “u”, “i”, “z”. ego e c.

Acontece que para vocˆememorizar, Acontece vocˆeanalisar e compreender decorar, compreender todo o alfabeto e os todo o alfabeto os n´umerostˆemsido n´umeros,tˆemsido muito cansativo, tˆem muito cansativo tem sido `asvezes dif´ıcil sido `asvezes dif´ıcilpara os alunos, at´e para os alunos at´epra mim. pra mim.

da janela de Libras tornava-se mais lento, em virtude da necessidade de envio do v´ıdeo. Al´emdisso, a necessidade de baixar o arquivo de v´ıdeodo YouTube para o dispositivo do usu´ariopode gerar problemas de direitos autorais. De forma an´aloga,a documenta¸c˜aoainda define que o v´ıdeooriginal poderia ser enviado atrav´esde sua URL. Assim, a API se encarregaria de fazer o download do v´ıdeo original para a eventual gera¸c˜aode um novo v´ıdeocom sua janela de Libras embutida. No entanto, essa funcionalidade n˜aoest´apresente, tornando-se necess´ariofazer o upload do v´ıdeooriginal que pode demorar v´ariosminutos e consumir pacote de dados do usu´ario, al´emde possivelmente comprometer a experiˆenciado usu´ario. Al´emdisso, muitos dos sinais apresentados na janela de Libras s˜aoexecutados em uma velocidade mais lenta que outros sistemas de tradu¸c˜aode texto para Libras, o que pode acabar comprometendo a sincroniza¸c˜aoda janela de Libras com as falas, uma vez que a sinaliza¸c˜aoem Libras ´egeralmente mais lenta que as falas em l´ınguasorais. Dessa

36 forma, isso pode resultar na perda de sincroniza¸c˜aodo v´ıdeocom a janela de Libras. Pode-se concluir, ent˜ao,que melhorias nessas ferramentas de tradu¸c˜aode portuguˆes para Libras s˜aonecess´ariase cruciais para aplica¸c˜oescomo o LibrasTube. Em especial, a melhoria da qualidade de sincroniza¸c˜aode forma a encontrar o limiar que define a velocidade m´aximade execu¸c˜aoda anima¸c˜aosem perder sua inteligibilidade. Al´emdisso, torna-se necess´aria a expans˜aode possibilidades de utiliza¸c˜aodesse tipo API, a exemplo, a possibilidade de enviar legendas sem a necessidade de enviar seus v´ıdeosoriginais assim como a aceita¸c˜aode legendas em diferentes formatos.

37 6 CONSIDERAC¸ OES˜ FINAIS E TRABALHOS FUTUROS

O estudo desenvolvido neste trabalho apresentou uma solu¸c˜aode acessibilidade para surdos a partir de v´ıdeosque pode ser utilizada em diversas plataformas multim´ıdia, especialmente as plataformas de streaming de v´ıdeos. Para construir uma prova de con- ceito da proposta, foi desenvolvido um aplicativo para Android chamado LibrasTube. O LibrasTube foi capaz de integrar legendas adicionadas ou geradas pelo YouTube com o sistema VLibras de tradu¸c˜aode texto para Libras. Assim, usu´ariossurdos poder˜ao assistir v´ıdeosdo YouTube e acompanhar o conte´udosonoro atrav´esde uma janela de Libras adicionada no canto do v´ıdeo. No entanto, alguns desafios precisam ser resolvidos para que esta solu¸c˜aoesteja em um n´ıvel aceit´avel de qualidade para ser utilizado por pessoas surdas. Dentre estes desafios, pode-se destacar:

• Ferramenta de resumo textual: um dos principais desafios na representa¸c˜ao de sinais de Libras em sincronia com legendas ´ea sua adequa¸c˜aoaos tempos de dura¸c˜ao. A exibi¸c˜aode sinais em Libras costuma ser mais lenta que as palavras faladas, o que dificulta muito a sincroniza¸c˜aodos sinais `asfalas. Assim, torna-se necess´arioferramentas capazes de resumir textos de legendas de forma a permitir a adequa¸c˜aotemporal desses sinais aos tempos das falas.

• Maior dicion´ariode Libras: apesar de softwares de tradu¸c˜aoj´apossu´ıremdi- cion´arioscom cerca de 15 mil sinais definidos, a l´ınguaportuguesa possui mais de 300 mil palavras. Dessa forma, ´enecess´ariaa cria¸c˜aode mais sinais, assim como mapeamento de sinˆonimose adi¸c˜aode g´ıriase express˜oesregionais.

• Melhor qualidade de anima¸c˜aodos sinais: devido a necessidade de acelerar as anima¸c˜oespara se ajustar aos tempos de fala, alguns sinais podem ficar t˜ao r´apidosa ponto de se tornarem incompreens´ıveis. Assim, torna-se necess´arioo aperfei¸coamento desses sinais para que o usu´ariopossa compreender o sinal mesmo que executado de forma mais acelerada.

Apesar deste trabalho ter conseguido abordar o tema e alcan¸cara realiza¸c˜aoda maior parte dos objetivos estabelecidos, h´aalguns trabalhos futuros importantes que devem ser realizados a fim de refinar a proposta apresentada. Entre os trabalhos futuros necess´arios,pode-se destacar:

• Realizar testes de usabilidade, experiˆenciade usu´arioe adapta¸c˜aoa le- gendas com falhas: ´eimportante que o software seja avaliado por usu´ariossurdos

38 para a identifica¸c˜aode falhas de usabilidade. Caso seja necess´ario,a p´aginaweb do YouTube poderia ser recriada atrav´esde API para melhor se adequar a usu´arios surdos. Al´emdisso, ´enecess´arioverificar como usu´ariossurdos se adaptam e com- preendem sinais gerados a partir de legendas que foram autogeradas com erros, o que frequentemente acontece com legendas criadas a partir de ferramentas de reco- nhecimento de fala.

• Cria¸c˜aode um sistema semiautom´aticode resumo de legendas: o uso de um sistema capaz de resumir legendas de forma semiautom´aticapoderia melhorar a qualidade de sincroniza¸c˜aode janelas de Libras de forma consider´avel. Este ´e um trabalho crucial para o sucesso de solu¸c˜oescom janelas de Libras sincronizadas como o LibrasTube.

• Expans˜aopara outras plataformas: o YouTube ´ea plataforma de v´ıdeomais utilizada atualmente, o que maximiza o n´umerode usu´ariosbeneficiados com a adi¸c˜aoda janela de Libras. Contudo, h´adiversas outras plataformas como Netflix, Udemy e Udacity que poderiam, notavelmente, se beneficiar de uma solu¸c˜aoseme- lhante e com uma qualidade possivelmente superior devido a facilidade de controle de qualidade dos seus v´ıdeose legendas.

39 REFERENCIASˆ

[1] CENSO DEMOGRAFICO´ 2010. Caracter´ısticas gerais da po- pula¸c˜ao, religi˜ao e pessoas com deficiˆencia. Dispon´ıvel em: . Acesso em: 15 mar 2018.

[2] CLOUD SPEECH API. Dispon´ıvel em: . Acesso em: 16 abr 2018.

[3] CopyLeaks. Dispon´ıvel em: , Acesso em: 16 jun 2018.

[4] Deafness and hearing loss. Dispon´ıvel em: , Acesso em: 15 mar 2018.

[5] eMAG - Modelo de Acessibilidade em Governo Eletrˆonico. Dispon´ıvel em: , Acesso em: 15 mar 2018.

[6] Hand Talk. Dispon´ıvel em: , Acesso em: 6 jun 2018.

[7] Lei N´umero 10.098 de dezembro de 2000. Dispon´ıvel em: , Acesso em: 15 mar 2018.

[8] Lei N´umero 10.436 de abril de 2002. Dispon´ıvel em: , . Acesso em: 16 mar 2018.

[9] One billion captioned videos. Dispon´ıvel em: , Acesso em: 15 abr 2018.

[10] Percep¸c˜aodo estado de sa´ude,estilos de vida e doen¸cascrˆonicas. Dispon´ıvel em: , Acesso em: 15 mar 2018.

[11] ProDeaf. Dispon´ıvel em: , Acesso em: 6 jun 2018.

[12] RyBena. Dispon´ıvel em: , Acesso em: 6 jun 2018.

40 [13] TREINO NAO˜ SUPERVISIONADO DE MODELOS ACUSTICOS´ PARA RECONHECIMENTO DE FALA. Dispon´ıvel em: , Acesso em: 05 jun 2018.

[14] Updates from VidCon: more users, more products, more shows and much more. Dispon´ıvel em:

[15] VLibras. Dispon´ıvel em: , Acesso em: 05 jun 2018.

[16] VLibras-V´ıdeo. Dispon´ıvel em: , Acesso em: 7 jun 2018.

[17] VLibras-V´ıdeoAPI. Dispon´ıvel em: , Acesso em: 7 jun 2018.

[18] L´oscioB. F. AMORIM M. L. C., Assad R. RyBen´aTV- Solu¸c˜aopara Acessi- bilidade de Surdos para TVDigital. 2010.

[19] Chigie B. ASR - Automatic speech recognition, 1997.

[20] CORADINE L. C. BRITO P. H. S., FRANCO N. FALIBRAS: uma Ferramenta Flex´ıvel para Promover Acessibilidade de Pessoas Surdas. 2012.

[21] Vanessa. CELESTE Let´ıcia CˆorreaCOSTA, Luanna Maria Oliveira. OLIVEIRA. Metodologias de an´aliseda velocidade de fala: um estudo piloto, 2016.

[22] WEST Darrell M. The Evolution of Video Streaming and Digi- tal Content Delivery. Dispon´ıvel em: , Acesso em: 3 mar. 2018.

[23] FALCAO˜ Eduardo de Lucena. Deaf Acessibility as a Service: uma Arquitetura Escal´avel e Tolerante a Falhas para o Sistema de Tradu¸c˜aoVLIBRAS, 2005.

[24] BAPTISTA F. F-Libras - Ambiente Integrado de Ensino-Aprendizagem para L´ınguaBrasileira de Sinais. 2007.

[25] PEREIRA Graciele Kerlen. LIBRAS (L´ınguaBrasileira de Sinais), 2010.

[26] KOGA M. L. JANUARIO J. F, LEITE L. A. F. POLI-LIBRAS - Um Tradutor de Portuguˆespara Libras. 2010.

41 [27] STUMPF Marianne Rossi. Aprendizagem de Escrita de L´ınguasde Sinais pelo Sistema SignWriting: Linguas de Sianis no Papel e no Computador. PhD thesis, Universidade Federal do Rio Grande do Sul, 2005.

[28] RONICE MULLER¨ QUADROS. O tradutor e int´erpretede l´ınguabrasileira de sinais e l´ınguaportuguesa, 2004.

[29] FURUI Sadaoki. Automatic Speech and Speaker Recognition, chapter Pattern Re- cognition Approach. Kluwer Academic Publishers, 2012.

[30] PEREIRA Simone Rodrigues. Os Processos de Alfabetiza¸c˜aoe Letramento em Libras: Um Percurso Semi´otico, 2009.

42