Extração De Informação Semântica De Conteúdo Da Web 2.0

Extração De Informação Semântica De Conteúdo Da Web 2.0

Mestrado em Engenharia Informática Dissertação Relatório Final Extração de Informação Semântica de Conteúdo da Web 2.0 Ana Rita Bento Carvalheira [email protected] Orientador: Paulo Jorge de Sousa Gomes [email protected] Data: 1 de Julho de 2014 Agradecimentos Gostaria de começar por agradecer ao Professor Paulo Gomes pelo profissionalismo e apoio incondicional, pela sincera amizade e a total disponibilidade demonstrada ao longo do ano. O seu apoio, não só foi determinante para a elaboração desta tese, como me motivou sempre a querer saber mais e ter vontade de fazer melhor. À minha Avó Maria e Avô Francisco, por sempre estarem presentes quando eu precisei, pelo carinho e afeto, bem como todo o esforço que fizeram para que nunca me faltasse nada. Espero um dia poder retribuir de alguma forma tudo aquilo que fizeram por mim. Aos meus Pais, pelos ensinamentos e valores transmitidos, por tudo o que me proporcionaram e por toda a disponibilidade e dedicação que, constantemente, me oferecem. Tudo aquilo que sou, devo-o a vocês. Ao David agradeço toda a ajuda e compreensão ao longo do ano, todo o carinho e apoio demonstrado em todas as minhas decisões e por sempre me ter encorajado a seguir os meus sonhos. Admiro-te sobretudo pela tua competência e humildade, pela transmissão de força e confiança que me dás em todos os momentos. Resumo A massiva proliferação de blogues e redes sociais fez com que o conteúdo gerado pelos utilizadores, presente em plataformas como o Twitter ou Facebook, se tornasse bastante valioso pela quantidade de informação passível de ser extraída e explorada. No entanto, a análise de informação proveniente destas fontes apresenta bastantes desafios, devido, não só, ao curto tamanho das mensagens, mas também ao tipo de linguagem usada, que contém inúmeras abreviaturas, erros ortográficos e conteúdo específico da media social, o que dificulta significa- tivamente a tarefa de extração de informação a partir deste texto. A presente tese visa o desenvolvimento de um conjunto de ferramentas que permitem efetuar a análise e extração de conhecimento a partir de várias fontes da Web 2.0, recorrendo ao uso de diversas técnicas de Processamento de Lingua- gem Natural e representando esse conhecimento através de tecnologias da Web Semântica. De forma a realizar este objetivo foi desenvolvida uma biblioteca, constituída por vários módulos que possibilitam a extração de informação semântica a partir de notícias online, blogues e publicações provenientes de redes sociais. Foi tam- bém desenvolvido um sistema cujo principal objetivo é demonstrar as funcionali- dades providenciadas pela biblioteca, permitindo a realização de pesquisa e nave- gação sobre a informação extraída e representando-a através de tecnologias da Web Semântica. Importa ainda salientar que a biblioteca suporta unicamente a língua portuguesa (português de Portugal) o que, por si só, representa um desa- fio, visto existirem relativamente poucos recursos disponíveis para o português. Palavras-Chave Língua Portuguesa, Media Social, Pesquisa Semântica, Processamento de Linguagem Natural, Web 2.0, Web Semântica, Web Social Índice Capítulo 1 Introdução .......................................................................... 1! Capítulo 2 Estado da Arte ................................................................... 7! Capítulo 3 Especificação da Implementação ........................................ 11! 3.1! Casos de Uso ...................................................................................... 12! 3.2! Requisitos .......................................................................................... 12! 3.2.1! Requisitos Funcionais .................................................................................. 13! 3.2.2! Requisitos Não Funcionais ........................................................................... 14! 3.3! Arquitetura ........................................................................................ 15! 3.3.1! Cliente Web ................................................................................................. 16! 3.3.2! Servidor API ................................................................................................ 17! 3.3.3! Sistema ......................................................................................................... 17! 3.3.4! Biblioteca PLN-PT ...................................................................................... 18! 3.4! Protótipo da Interface ....................................................................... 19! Capítulo 4 Metodologia e Implementação ........................................... 23! 4.1! Metodologia de Desenvolvimento ...................................................... 23! 4.1.1! Product Backlog ........................................................................................... 24! 4.2! Trabalho Desenvolvido ...................................................................... 27! 4.2.1! Sprints Realizados ....................................................................................... 27! 4.3! Detalhes de Implementação da Biblioteca ......................................... 28! 4.3.1! Construção do Dataset ................................................................................. 29! 4.3.2! Módulo Extração de Metadados .................................................................. 31! 4.3.3! Módulo Pré-Processamento dos Dados ........................................................ 32! 4.3.4! Módulo Extração de Termos e Expressões Multipalavra ............................. 35! 4.3.5! Módulo Extração de Tópicos ....................................................................... 37! 4.3.6! Módulo Extração de Entidades .................................................................... 38! 4.3.7! Módulo Análise de Sentimentos ................................................................... 44! 4.3.8! Módulo Extração de Triplos ........................................................................ 46! 4.4! Detalhes de Implementação do Sistema ............................................. 49! 4.4.1! Descrição da Ontologia ................................................................................ 49! 4.4.2! Módulo Gestor de Dados ............................................................................. 50! 4.4.3! Módulo Extração de Informação .................................................................. 51! 4.4.4! Módulo Recomendação de Conteúdo ........................................................... 52! 4.4.5! Módulo Pesquisa Semântica ......................................................................... 53! 4.4.6! Módulo API ................................................................................................. 55! 4.5! Detalhes de Implementação dos Web Services .................................. 56! 4.6! Detalhes de Implementação do Cliente Web ..................................... 56 4.6.1! Interface do Cliente Web .............................................................................. 57! Capítulo 5 Experimentação ................................................................. 59! 5.1! Módulo Extração de Entidades - Texto Estruturado ......................... 59! 5.1.1! Descrição dos Testes Realizados ................................................................... 59! 5.1.2! Resultados .................................................................................................... 61! 5.1.3! Análise de Resultados ................................................................................... 63! 5.2! Módulo Extração de Entidades - Texto Não Estruturado (Redes Sociais) ....................................................................................................... 65! 5.2.1! Descrição do Teste Realizado ....................................................................... 65! 5.2.2! Resultados .................................................................................................... 67! 5.2.3! Análise de Resultados ................................................................................... 67! 5.3! Módulo Análise de Sentimentos ........................................................ 69! 5.3.1! Descrição do Teste Realizado ....................................................................... 69! 5.3.2! Resultados .................................................................................................... 69! 5.3.3! Análise de Resultados ................................................................................... 70! 5.4! Módulo Extração de Triplos .............................................................. 71! 5.4.1! Descrição do Teste Realizado ....................................................................... 72! 5.4.2! Resultados .................................................................................................... 73! 5.4.3! Análise de Resultados ................................................................................... 73! 5.5! Módulo Extração de Tópicos ............................................................. 75! 5.5.1! Descrição do Teste Realizado ....................................................................... 75! 5.5.2! Resultados .................................................................................................... 76! 5.5.3! Análise de Resultados ................................................................................... 78! 5.6! Módulo Pesquisa e Recomendação Semântica ................................... 81!

View Full Text

Details

  • File Type
    pdf
  • Upload Time
    -
  • Content Languages
    English
  • Upload User
    Anonymous/Not logged-in
  • File Pages
    191 Page
  • File Size
    -

Download

Channel Download Status
Express Download Enable

Copyright

We respect the copyrights and intellectual property rights of all users. All uploaded documents are either original works of the uploader or authorized works of the rightful owners.

  • Not to be reproduced or distributed without explicit permission.
  • Not used for commercial purposes outside of approved use cases.
  • Not used to infringe on the rights of the original creators.
  • If you believe any content infringes your copyright, please contact us immediately.

Support

For help with questions, suggestions, or problems, please contact us