Universid Ade De Sã O Pa
Total Page:16
File Type:pdf, Size:1020Kb
Aspectos semânticos na representação de textos para classificação automática Roberta Akemi Sinoara Tese de Doutorado do Programa de Pós-Graduação em Ciências de Computação e Matemática Computacional (PPG-CCMC) UNIVERSIDADE DE SÃO PAULO DE SÃO UNIVERSIDADE Instituto de Ciências Matemáticas e de Computação Instituto Matemáticas de Ciências SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP Data de Depósito: Assinatura: ______________________ Roberta Akemi Sinoara Aspectos semânticos na representação de textos para classificação automática Tese apresentada ao Instituto de Ciências Matemáticas e de Computação – ICMC-USP, como parte dos requisitos para obtenção do título de Doutora em Ciências – Ciências de Computação e Matemática Computacional. VERSÃO REVISADA Área de Concentração: Ciências de Computação e Matemática Computacional Orientadora: Profa. Dra. Solange Oliveira Rezende USP – São Carlos Junho de 2018 Esse trabalho foi desenvolvido com o apoio da FAPESP: processos no. 2013/14757-6 e 2016/07620- 2, Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP). As opiniões, hipóteses e conclusões ou recomendações expressas neste material são de responsabilidade dos autores e não necessariamente refletem a visão da FAPESP. Ficha catalográfica elaborada pela Biblioteca Prof. Achille Bassi e Seção Técnica de Informática, ICMC/USP, com os dados inseridos pelo(a) autor(a) Sinoara, Roberta Akemi S617a Aspectos semânticos na representação de textos para classificação automática / Roberta Akemi Sinoara; orientador Solange Oliveira Rezende. -- São Carlos, 2018. 209 p. Tese (Doutorado - Programa de Pós-Graduação em Ciências de Computação e Matemática Computacional) -- Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, 2018. 1. Representação de textos. 2. Semântica. 3. Classificação de textos. 4. Mineração de textos. I. Rezende, Solange Oliveira, orient. II. Título. Bibliotecários responsáveis pela estrutura de catalogação da publicação de acordo com a AACR2: Gláucia Maria Saia Cristianini - CRB - 8/4938 Juliana de Souza Moraes - CRB - 8/6176 Roberta Akemi Sinoara Semantic aspects in the representation of texts for automatic classification Doctoral dissertation submitted to the Institute of Mathematics and Computer Sciences – ICMC-USP, in partial fulfillment of the requirements for the degree of the Doctorate Program in Computer Science and Computational Mathematics. FINAL VERSION Concentration Area: Computer Science and Computational Mathematics Advisor: Profa. Dra. Solange Oliveira Rezende USP – São Carlos June 2018 This work was supported by grants #2013/14757-6 and #2016/07620-2, São Paulo Research Foundation (FAPESP). The opinions, hypotheses and conclusions or recommendations expressed in this material are the authors’ own and do not necessarily reflect the views of FAPESP. AGRADECIMENTOS Agradeço por todas as oportunidades que tive e a todas as pessoas que conheci. Agradeço à minha família, em especial, meus pais Eliane e Mario, meus irmãos Fabio e Guilherme, e meu marido Nabil. Por todo amor, dedicação, apoio e compreensão! Agradeço à minha orientadora Solange Rezende, amiga e incentivadora. Pela orientação acadêmica, profissional e pessoal, pela atenção, e por sempre procurar entender as características individuais de cada um de seus alunos! Agradeço à Professora Maria Carolina Monard e aos amigos do LABIC, aqueles da minha primeira passagem pela pesquisa. Por deixarem uma marca especial na minha vida, que me fez querer voltar. E agradeço a todos os novos amigos do LABIC, aqueles que conheci nos últimos anos, pela troca de conhecimento e experiências, pelo companheirismo, e pelas conversas descontraídas na hora do café. Agradeço a gentil ajuda no início do doutorado, as parcerias, os trabalhos conjuntos e as revisões de Bruno Nogueira, Fabiano Fernandes, Marcos Domingues, Rafael Giusti, Ricardo Marcacini, Antonio Parmezan, Renan de Padua, Jorge Valverde-Rebaza, João Antunes, Ricardo Scheicher e Vitor Tonon. Agradecimentos especiais ao Rafael Rossi, pela parceria, várias dicas e toda a ajuda durante o desenvolvimento deste trabalho. E às meninas, Camila Sundermann, Ivone Matsuno e Jessica de Souza, pela amizade, apoio, carinho, carinhas e tudo mais! ;) :* :D Agradeço ao Professor Roberto Navigli, da Sapienza - Università di Roma, e aos integran- tes do seu grupo Linguistic Computing Laboratory, Alessandro Raganato, Claudio Delli Bovi, Francesco Cecconi, Ignacio Iacobacci, Tommaso Pasini e Valentina Pyatkin, que me receberam tão bem e tornaram minha visita muito proveitosa. Agradecimento especial ao José Camacho Collados, pela atenção e pelo trabalho conjunto. Grazie, ragazzi! I wish you a lot of pasticcini on your journey! Agradeço a todos que contribuíram, direta ou indiretamente, para o desenvolvimento deste trabalho. À Universidade de São Paulo, aos professores e funcionários do ICMC-USP, ao Anandsing Dwarkasing, à Martina Vizzani, aos membros das bancas do exame de qualificação e da defesa, e aos pesquisadores que disponibilizaram os resultados de seus trabalhos possibilitando o desenvolvimento deste. Agradeço à Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP), que por meio dos processos 2013/14757-6 e 2016/07620-2, apoiou financeiramente a realização desta pesquisa e a sua divulgação em conferências científicas internacionais. Agradeço também aos amici brasiliani, Bruna Brogin, Hieda Adriana, Rafael Garcia, Robson Vieira e Thyago Nepomuceno, minha família em Roma! Espero que nossos caminhos voltem a se cruzar, desse ou do outro lado do oceano! ;) Por fim, agradeço aos desconhecidos Malcolm Gladwell, Paul Hewson, David Evans, Larry Mullen Jr. e Adam Clayton, cujas obras me libertaram e me motivaram. RESUMO SINOARA, R. A. Aspectos semânticos na representação de textos para classificação auto- mática. 2018. 209 p. Tese (Doutorado em Ciências – Ciências de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos – SP, 2018. Dada a grande quantidade e diversidade de dados textuais sendo criados diariamente, as aplica- ções do processo de Mineração de Textos são inúmeras e variadas. Nesse processo, a qualidade da solução final depende, em parte, do modelo de representação de textos adotado. Por se tratar de textos em língua natural, relações sintáticas e semânticas influenciam o seu significado. No entanto, modelos tradicionais de representação de textos se limitam às palavras, não sendo possível diferenciar documentos que possuem o mesmo vocabulário, mas que apresentam visões diferentes sobre um mesmo assunto. Nesse contexto, este trabalho foi motivado pela diversidade das aplicações da tarefa de classificação automática de textos, pelo potencial das representações no modelo espaço-vetorial e pela lacuna referente ao tratamento da semântica inerente aos dados em língua natural. O seu desenvolvimento teve o propósito geral de avançar as pesquisas da área de Mineração de Textos em relação à incorporação de aspectos semânticos na representação de coleções de documentos. Um mapeamento sistemático da literatura da área foi realizado e os problemas de classificação foram categorizados em relação à complexidade semântica envolvida. Aspectos semânticos foram abordados com a proposta, bem como o desenvolvimento e a avalia- ção de sete modelos de representação de textos: (i) gBoED, modelo que incorpora a semântica obtida por meio de conhecimento do domínio; (ii) Uni-based, modelo que incorpora a semântica por meio da desambiguação lexical de sentidos e hiperônimos de conceitos; (iii) SR-based Terms e SR-based Sentences, modelos que incorporam a semântica por meio de anotações de papéis semânticos; (iv) NASARIdocs, Babel2Vec e NASARI+Babel2Vec, modelos que incorporam a semântica por meio de desambiguação lexical de sentidos e embeddings de palavras e concei- tos. Representações de coleções de documentos geradas com os modelos propostos e outros da literatura foram analisadas e avaliadas na classificação automática de textos, considerando datasets de diferentes níveis de complexidade semântica. As propostas gBoED, Uni-based, SR-based Terms e SR-based Sentences apresentam atributos mais expressivos e possibilitam uma melhor interpretação da representação dos documentos. Já as propostas NASARIdocs, Babel2Vec e NASARI+Babel2Vec incorporam, de maneira latente, a semântica obtida de embeddings geradas a partir de uma grande quantidade de documentos externos. Essa propriedade tem um impacto positivo na performance de classificação. Palavras-chave: Representação de textos, Semântica, Classificação de textos, Mineração de Textos. ABSTRACT SINOARA, R. A. Semantic aspects in the representation of texts for automatic classifica- tion. 2018. 209 p. Tese (Doutorado em Ciências – Ciências de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos – SP, 2018. Text Mining applications are numerous and varied since a huge amount of textual data are created daily. The quality of the final solution of a Text Mining process depends, among other factors, on the adopted text representation model. Despite the fact that syntactic and semantic relations influence natural language meaning, traditional text representation models are limited to words. The use of such models does not allow the differentiation of documents that use the same vocabulary but present different ideas about the same subject. The motivation of this work relies on the diversity of text classification applications, the potential of vector