Universidade Feevale Giovani Pozzo Junior Construção
Total Page:16
File Type:pdf, Size:1020Kb
UNIVERSIDADE FEEVALE GIOVANI POZZO JUNIOR CONSTRUÇÃO DE UM DATASET DE INFORMAÇÕES MUSICAIS EXTRAÍDAS DE POSTS EM REDES SOCIAIS ONLINE Novo Hamburgo 2019 GIOVANI POZZO JUNIOR CONSTRUÇÃO DE UM DATASET DE INFORMAÇÕES MUSICAIS EXTRAÍDAS DE POSTS EM REDES SOCIAIS ONLINE Trabalho de Conclusão de Curso apresentado como requisito parcial à obtenção do grau de Bacharel em Sistemas de Informação pela Universidade Feevale. Orientador: Me. Roberto Scheid Novo Hamburgo 2019 Giovani Pozzo Junior Construção de um Dataset de Informações Musicais Extraídas de Posts em Redes Sociais Online Trabalho de Conclusão de Curso apresentado como requisito parcial à obtenção do grau de Bacharel em Sistemas de Informação pela Universidade Feevale, sendo submetido à Banca Examinadora e considerado aprovado em __/__/2019. ___________________________________________ Prof. Me. Roberto Scheid Professor Orientador ___________________________________________ Membro da Banca Examinadora ___________________________________________ Membro da Banca Examinadora AGRADECIMENTOS À minha avó, Delvair, por ter presenciado e se emocionado com todas as conquistas que tive na vida até aqui; por ter acompanhado de perto estes meus 5 anos de graduação; e pela certeza de que, mesmo tendo partido poucos meses antes deste término, está assistindo à minha gradução do camarote mais alto que existe. À minha mãe, Silviah, pelo incondicional suporte e companheirismo, desde o dia em que eu nasci; à minha mãe, por absolutamente tudo. Ao meu pai, Giovani, pelos valores e pelos tantos e sempre disponíveis abraços, festivos ou de consolo. À minha irmã Danielle, por ser uma referência intelectual para mim, e por todo o suporte ao longo do curso e deste trabalho. À minha irmã Rafaella, pela parceria irrestrita dos momentos difíceis aos mais prazerosos e divertidos. Aos amigos que apoiaram e torceram por mim, todos; em especial aos de mais longa data, Ângelo, Dienifer e Hugo. Aos amigos que fiz na FEEVALE, sem os quais essa trajetória acâdemica faria muito menos sentido, em especial aos sempre presentes Kevin, Andriel, Carlos e Fidelix. Ao meu orientador, Prof. Me. Roberto Scheid, por todo o incentivo, compreensão e ensinamentos ao longo do curso e, especialmente, durante a construção deste trabalho. Aos meus ídolos na música, por manterem vivo para mim o colorido do mundo; à Amy Winehouse, Billie Holiday, Caetano Veloso, Elza Soares, Maria Bethânia e tantos, tantos outros. RESUMO O crescente uso de redes sociais online gerou, na última década, um fenômeno capaz de alterar a maneira como as pessoas se comunicam e compartilham suas opiniões, gostos ou interesses, gerando diariamente uma vasta massa de dados. O Global Digital Report divulgou que a marca de usuários ativos na Internet chegou a 4 bilhões no ano de 2018, sendo, destes, 75% ativos nas redes sociais online. Ao mesmo passo, de acordo com a Federação Internacional da Indústria Fonográfica, no ano de 2016, 50% da receita total da indústria da música proveio de serviços digitais de distribuição de música. À medida em que a Internet é cada vez mais priorizada enquanto meio de distribuição de música, maior é a quantidade de faixas (comerciais e não comerciais) disponíveis aos consumidores – com um catálogo que atualmente ultrapassa 20 milhões de faixas. Por este motivo, ao longo dos últimos anos, pesquisas e empresas têm dedicado esforços em desenvolver soluções para garantir aos usuários recomendações musicais cada vez mais precisas. Dentro desta perspectiva, o presente trabalho busca responder à seguinte pergunta: é possível extrair informações de posts em redes sociais online que possam servir de insumo para geração de recomendações musicais relevantes? Para isto, através de métodos de processamento de linguagem natural e análise de sentimentos, é construído um dataset de contexto musical baseado em informações extraídas de posts de redes sociais online (tweets) que podem ser potencialmente utilizadas como insumo para geração de recomendações musicais. Além da geração deste dataset, este estudo apresenta também o algoritmo desenvolvido e utilizado para a coleta, análise e geração do dataset e introduz uma revisão bibliográfica acerca de temas relativos a redes sociais e sistemas de recomendação musical. Palavras-chave: Sistemas de Recomendação. Música. Redes Sociais. Twitter. ABSTRACT The increasing use of online social networks has generated, in the last decade, a phenomenon capable of changing the way people communicate and share their opinions, tastes or interests, generating a vast mass of data daily. The Global Digital Report reported that the brand of active Internet users reached 4 billion in 2018, of which 75% are active in online social networks. At the same time, according the International Federation of the Phonographic Industry, in 2016, 50% of the total revenue of the music industry came from digital music distribution services. As the Internet is increasingly prioritized as a means of distributing music, the greater the number of (commercial and non-commercial) tracks available to consumers - with a catalog that currently exceeds 20 million tracks. For this reason, over the last few years, research and companies have dedicated efforts to develop solutions to ensure users with increasingly accurate music recommendations. From this perspective, this work seeks to answer the following question: is it possible to extract information from posts in online social networks that can serve as input for generating relevant musical recommendations? To answer this, through natural language processing methods and feelings analysis, a musical context dataset is constructed based on information extracted from online social networking posts (tweets) that can potentially be used as input for generating musical recommendations. In addition to the generation of this dataset, this study also presents the algorithm developed and used for the collection, analysis and generation of the dataset and introduces a bibliographic review about themes related to social networks and music recommendation systems. Keywords: Recommender System. Music. Social Networks. Twitter. LISTA DE ILUSTRAÇÕES Figura 1 – Estrutura de capítulos do trabalho............................................................ 11 Figura 2 – Representação gráfica de redes sociais online existentes ....................... 16 Figura 3 – Exemplo de um tweet ............................................................................... 17 Figura 4 – Representação dos métodos de filtragem ................................................ 20 Figura 5 – Tela de inicialização de novos usuários da plataforma YouTube Music .. 24 Figura 6 – Tela de inicialização de novos usuários da plataforma Spotify ................ 24 Figura 7 – Tela de inicialização de novos usuários da plataforma Deezer ................ 25 Figura 8 – Comparação de receita relativa a serviços de streaming ......................... 27 Figura 9 – Qualificação metodológica da pesquisa ................................................... 31 Figura 10 – Representação do fluxo de implementação ........................................... 34 Figura 11 – Formato do dataset de artistas musicais ................................................ 35 Figura 12 – Formato da função search_tweets ......................................................... 37 Figura 13 – Exemplo de texto original em tweet ........................................................ 40 Figura 14 – Trecho de código para pré-processamento textual ................................ 40 Figura 15 – Estrutura do léxico OptLexicon V3.0 ...................................................... 42 Figura 16 – Estrutura do léxico SentiLexPT02 .......................................................... 43 Figura 17 – Trecho de código para análise de polaridade de sentimentos ............... 44 Figura 18 – Trecho de código para obtenção de unigramas ..................................... 45 Quadro 1 – Estrutura dos datasets individuais por artista ......................................... 46 Quadro 2 – Estrutura do dataset de resultados gerais .............................................. 47 Quadro 3 – Artistas com maior quantidade de tweets analisados ............................. 49 Gráfico 1 – Distribuição de porcentagem de classificação por polaridade de sentimento .................................................................................................................................. 50 Gráfico 2 – Distribuição de porcentagem média de tweets classificados com polaridade de sentimento positiva por gênero musical ............................................................... 51 Gráfico 3 – Distribuição de porcentagem média de tweets classificados com polaridade de sentimento negativa por gênero musical .............................................................. 51 SUMÁRIO 1 INTRODUÇÃO ......................................................................................................... 9 1.1. OBJETIVOS ............................................................................................ 10 1.1.1. Objetivo Geral .............................................................................................. 10 1.1.2. Objetivos Específicos ................................................................................... 10 2 REFERENCIAL TEÓRICO ..................................................................................... 12 2.1 A INTERNET E A SOCIEDADE CONTEMPORÂNEA .............................. 12 2.2 REDES SOCIAIS ONLINE .......................................................................