Mestrado em Engenharia Informática Dissertação Relatório Final Extração de Informação Semântica de Conteúdo da Web 2.0 Ana Rita Bento Carvalheira [email protected] Orientador: Paulo Jorge de Sousa Gomes [email protected] Data: 1 de Julho de 2014 Agradecimentos Gostaria de começar por agradecer ao Professor Paulo Gomes pelo profissionalismo e apoio incondicional, pela sincera amizade e a total disponibilidade demonstrada ao longo do ano. O seu apoio, não só foi determinante para a elaboração desta tese, como me motivou sempre a querer saber mais e ter vontade de fazer melhor. À minha Avó Maria e Avô Francisco, por sempre estarem presentes quando eu precisei, pelo carinho e afeto, bem como todo o esforço que fizeram para que nunca me faltasse nada. Espero um dia poder retribuir de alguma forma tudo aquilo que fizeram por mim. Aos meus Pais, pelos ensinamentos e valores transmitidos, por tudo o que me proporcionaram e por toda a disponibilidade e dedicação que, constantemente, me oferecem. Tudo aquilo que sou, devo-o a vocês. Ao David agradeço toda a ajuda e compreensão ao longo do ano, todo o carinho e apoio demonstrado em todas as minhas decisões e por sempre me ter encorajado a seguir os meus sonhos. Admiro-te sobretudo pela tua competência e humildade, pela transmissão de força e confiança que me dás em todos os momentos. Resumo A massiva proliferação de blogues e redes sociais fez com que o conteúdo gerado pelos utilizadores, presente em plataformas como o Twitter ou Facebook, se tornasse bastante valioso pela quantidade de informação passível de ser extraída e explorada. No entanto, a análise de informação proveniente destas fontes apresenta bastantes desafios, devido, não só, ao curto tamanho das mensagens, mas também ao tipo de linguagem usada, que contém inúmeras abreviaturas, erros ortográficos e conteúdo específico da media social, o que dificulta significa- tivamente a tarefa de extração de informação a partir deste texto. A presente tese visa o desenvolvimento de um conjunto de ferramentas que permitem efetuar a análise e extração de conhecimento a partir de várias fontes da Web 2.0, recorrendo ao uso de diversas técnicas de Processamento de Lingua- gem Natural e representando esse conhecimento através de tecnologias da Web Semântica. De forma a realizar este objetivo foi desenvolvida uma biblioteca, constituída por vários módulos que possibilitam a extração de informação semântica a partir de notícias online, blogues e publicações provenientes de redes sociais. Foi tam- bém desenvolvido um sistema cujo principal objetivo é demonstrar as funcionali- dades providenciadas pela biblioteca, permitindo a realização de pesquisa e nave- gação sobre a informação extraída e representando-a através de tecnologias da Web Semântica. Importa ainda salientar que a biblioteca suporta unicamente a língua portuguesa (português de Portugal) o que, por si só, representa um desa- fio, visto existirem relativamente poucos recursos disponíveis para o português. Palavras-Chave Língua Portuguesa, Media Social, Pesquisa Semântica, Processamento de Linguagem Natural, Web 2.0, Web Semântica, Web Social Índice Capítulo 1 Introdução .......................................................................... 1! Capítulo 2 Estado da Arte ................................................................... 7! Capítulo 3 Especificação da Implementação ........................................ 11! 3.1! Casos de Uso ...................................................................................... 12! 3.2! Requisitos .......................................................................................... 12! 3.2.1! Requisitos Funcionais .................................................................................. 13! 3.2.2! Requisitos Não Funcionais ........................................................................... 14! 3.3! Arquitetura ........................................................................................ 15! 3.3.1! Cliente Web ................................................................................................. 16! 3.3.2! Servidor API ................................................................................................ 17! 3.3.3! Sistema ......................................................................................................... 17! 3.3.4! Biblioteca PLN-PT ...................................................................................... 18! 3.4! Protótipo da Interface ....................................................................... 19! Capítulo 4 Metodologia e Implementação ........................................... 23! 4.1! Metodologia de Desenvolvimento ...................................................... 23! 4.1.1! Product Backlog ........................................................................................... 24! 4.2! Trabalho Desenvolvido ...................................................................... 27! 4.2.1! Sprints Realizados ....................................................................................... 27! 4.3! Detalhes de Implementação da Biblioteca ......................................... 28! 4.3.1! Construção do Dataset ................................................................................. 29! 4.3.2! Módulo Extração de Metadados .................................................................. 31! 4.3.3! Módulo Pré-Processamento dos Dados ........................................................ 32! 4.3.4! Módulo Extração de Termos e Expressões Multipalavra ............................. 35! 4.3.5! Módulo Extração de Tópicos ....................................................................... 37! 4.3.6! Módulo Extração de Entidades .................................................................... 38! 4.3.7! Módulo Análise de Sentimentos ................................................................... 44! 4.3.8! Módulo Extração de Triplos ........................................................................ 46! 4.4! Detalhes de Implementação do Sistema ............................................. 49! 4.4.1! Descrição da Ontologia ................................................................................ 49! 4.4.2! Módulo Gestor de Dados ............................................................................. 50! 4.4.3! Módulo Extração de Informação .................................................................. 51! 4.4.4! Módulo Recomendação de Conteúdo ........................................................... 52! 4.4.5! Módulo Pesquisa Semântica ......................................................................... 53! 4.4.6! Módulo API ................................................................................................. 55! 4.5! Detalhes de Implementação dos Web Services .................................. 56! 4.6! Detalhes de Implementação do Cliente Web ..................................... 56 4.6.1! Interface do Cliente Web .............................................................................. 57! Capítulo 5 Experimentação ................................................................. 59! 5.1! Módulo Extração de Entidades - Texto Estruturado ......................... 59! 5.1.1! Descrição dos Testes Realizados ................................................................... 59! 5.1.2! Resultados .................................................................................................... 61! 5.1.3! Análise de Resultados ................................................................................... 63! 5.2! Módulo Extração de Entidades - Texto Não Estruturado (Redes Sociais) ....................................................................................................... 65! 5.2.1! Descrição do Teste Realizado ....................................................................... 65! 5.2.2! Resultados .................................................................................................... 67! 5.2.3! Análise de Resultados ................................................................................... 67! 5.3! Módulo Análise de Sentimentos ........................................................ 69! 5.3.1! Descrição do Teste Realizado ....................................................................... 69! 5.3.2! Resultados .................................................................................................... 69! 5.3.3! Análise de Resultados ................................................................................... 70! 5.4! Módulo Extração de Triplos .............................................................. 71! 5.4.1! Descrição do Teste Realizado ....................................................................... 72! 5.4.2! Resultados .................................................................................................... 73! 5.4.3! Análise de Resultados ................................................................................... 73! 5.5! Módulo Extração de Tópicos ............................................................. 75! 5.5.1! Descrição do Teste Realizado ....................................................................... 75! 5.5.2! Resultados .................................................................................................... 76! 5.5.3! Análise de Resultados ................................................................................... 78! 5.6! Módulo Pesquisa e Recomendação Semântica ................................... 81!
Details
-
File Typepdf
-
Upload Time-
-
Content LanguagesEnglish
-
Upload UserAnonymous/Not logged-in
-
File Pages191 Page
-
File Size-