Probabilistic Models for Learning from Crowdsourced Data
Total Page:16
File Type:pdf, Size:1020Kb
Probabilistic models for learning from crowdsourced data A thesis submitted to the University of Coimbra in partial fulfillment of the requirements for the Doctoral Program in Information Science and Technology by Filipe Manuel Pereira Duarte Rodrigues [email protected] Department of Informatics Engineering Faculty of Sciences and Technology University of Coimbra September 2015 Financial support by Fundação para a Ciência e a Tecnologia Ref.: SFRH/BD/78396/2011 Probabilistic models for learning from crowdsourced data ©2015 Filipe Rodrigues Cover image: © Guilherme Nicholas (http://www.flickr.com/photos/guinicholas/19768953491/in/faves-59695809@N06/) ******* ******* Advisors Prof. Francisco Câmara Pereira Full Professor Department of Transport Technical University of Denmark Prof. Bernardete Martins Ribeiro Associate Professor with Aggregation Department of Informatics Engineering Faculty of Sciences and Technology of University of Coimbra Dedicated to my parents Abstract This thesis leverages the general framework of probabilistic graphical models to de- velop probabilistic approaches for learning from crowdsourced data. This type of data is rapidly changing the way we approach many machine learning problems in different areas such as natural language processing, computer vision andmusic. By exploiting the wisdom of crowds, machine learning researchers and practitioners are able to develop approaches to perform complex tasks in a much more scalable manner. For instance, crowdsourcing platforms like Amazon mechanical turk pro- vide users with an inexpensive and accessible resource for labeling large datasets efficiently. However, the different biases and levels of expertise that are commonly found among different annotators in these platforms deem the development oftar- geted approaches necessary. With the issue of annotator heterogeneity in mind, we start by introducing a class of latent expertise models which are able to discern reliable annotators from random ones without access to the ground truth, while jointly learning a logistic re- gression classifier or a conditional random field. Then, a generalization of Gaussian process classifiers to multiple-annotator settings is developed, which makes it possi- ble to learn non-linear decision boundaries between classes and to develop an active learning methodology that is able to increase the efficiency of crowdsourcing while reducing its cost. Lastly, since the majority of the tasks for which crowdsourced data is commonly used involves complex high-dimensional data such as images or text, two supervised topic models are also proposed, one for classification and another for regression problems. Using real crowdsourced data from Mechanical Turk, we empirically demonstrate the superiority of the aforementioned models over state-of- the-art approaches in many different tasks such as classifying posts, news stories, images and music, or even predicting the sentiment of a text, the number of stars of a review or the rating of movie. But the concept of crowdsourcing is not limited to dedicated platforms such as Mechanical Turk. For example, if we consider the social aspects of the modern Web, we begin to perceive the true ubiquitous nature of crowdsourcing. This opened up an exciting new world of possibilities in artificial intelligence. For instance, from the perspective of intelligent transportation systems, the information shared online by crowds provides the context that allows us to better understand how people move in urban environments. In the second part of this thesis, we explore the use of data generated by crowds as additional inputs in order to improve machine learn- ing models. Namely, the problem of understanding public transport demand in the presence of special events such as concerts, sports games or festivals, is considered. First, a probabilistic model is developed for explaining non-habitual overcrowding using crowd-generated information mined from the Web. Then, a Bayesian additive model with Gaussian process components is proposed. Using real data from Sin- i gapore’s transport system and crowd-generated data regarding special events, this model is empirically shown to be able to outperform state-of-the-art approaches for predicting public transport demand. Furthermore, due to its additive formulation, the proposed model is able to breakdown an observed time-series of transport de- mand into a routine component corresponding to commuting and the contributions of individual special events. Overall, the models proposed in this thesis for learning from crowdsourced data are of wide applicability and can be of great value to a broad range of research communities. Keywords: probabilistic models, crowdsourcing, multiple annotators, transport demand, urban mobility, topic modeling, additive models, Bayesian inference ii Resumo A presente tese propõe um conjunto de modelos probabilísticos para aprendizagem a partir de dados gerados pela multidão (crowd). Este tipo de dados tem vindo rap- idamente a alterar a forma como muitos problemas de aprendizagem máquina são abordados em diferentes áreas do domínio científico, tais como o processamento de linguagem natural, a visão computacional e a música. Através da sabedoria e conhec- imento da crowd, foi possível na área de aprendizagem máquina o desenvolvimento de abordagens para realizar tarefas complexas de uma forma muito mais escalável. Por exemplo, as plataformas de crowdsourcing como o Amazon mechanical turk (AMT) colocam ao dispor dos seus utilizadores um recurso acessível e económico para etiquetar largos conjuntos de dados de forma eficiente. Contudo, os diferentes vieses e níveis de perícia individidual dos diversos anotadores que contribuem nes- tas plataformas tornam necessário o desenvolvimento de abordagens específicas e direcionadas para este tipo de dados multi-anotador. Tendo em mente o problema da heterogeneidade dos anotadores, começamos por introduzir uma classe de modelos de conhecimento latente. Estes modelos são ca- pazes de diferenciar anotadores confiáveis de anotadores cujas respostas são dadas de forma aleatória ou pouco premeditada, sem que para isso seja necessário ter acesso às respostas verdadeiras, ao mesmo tempo que é treinado um classificador de regressão logística ou um conditional random field. De seguida, são considerados modelos de crescente complexidade, desenvolvendo-se uma generalização dos classificadores baseados em processos Gaussianos para configurações multi-anotador. Estes mod- elos permitem aprender fronteiras de decisão não lineares entre classes, bem como o desenvolvimento de metodologias de aprendizagem activa, que são capazes de au- mentar a eficiência do crowdsourcing e reduzir os custos associados. Por último, tendo em conta que a grande maioria das tarefas para as quais o crowdsourcing é usado envolvem dados complexos e de elevada dimensionalidade tais como texto ou imagens, são propostos dois modelos de tópicos supervisionados: um, para proble- mas de classificação e, outro, para regressão. A superioridade das modelos acima mencionados sobre as abordagens do estado da arte é empiricamente demonstrada usando dados reais recolhidos do AMT para diferentes tarefas como a classificação de posts, notícias, imagens e música, ou até mesmo na previsão do sentimento la- tente num texto e da atribuição do número de estrelas a um restaurante ou a um filme. Contudo, o conceito de crowdsourcing não se limita a plataformas dedicadas como o AMT. Basta considerarmos os aspectos sociais da Web moderna, que rapi- damente começamos a compreender a verdadeira natureza ubíqua do crowdsourcing. Essa componente social da Web deu origem a um mundo de possibilidades estimu- lantes na área de inteligência artificial em geral. Por exemplo, da perspectiva dos sistemas inteligentes de transportes, a informação partilhada online por multidões iii fornece o contexto que nos dá a possibilidade de perceber melhor como as pessoas se movem em espaços urbanos. Na segunda parte desta tese, são usados dados gerados pela crowd como entradas adicionais de forma a melhorar modelos de aprendizagem máquina. Nomeadamente, é considerado o problema de compreender a procura em sistemas de transportes na presença de eventos, tais como concertos, eventos de- sportivos ou festivais. Inicialmente, é desenvolvido um modelo probabilístico para explicar sobrelotações anormais usando informação recolhida da Web. De seguida, é proposto um modelo Bayesiano aditivo cujas componentes são processos Gaussianos. Utilizando dados reais do sistema de transportes públicos de Singapura e dados ger- ados na Web sobre eventos, verificamos empiricamente a qualidade superior das previsões do modelo proposto em relação a abordagens do estado da arte. Além disso, devido à formulação aditiva do modelo proposto, verificamos que este é capaz de desagregar uma série temporal de procura de transportes numa componente de rotina (e.g. devido à mobilidade pendular) e nas componentes que correspondem às contribuições dos vários eventos individuais identificados. No geral, os modelos propostos nesta tese para aprender com base em dados gerados pela crowd são de vasta aplicabilidade e de grande valor para um amplo espectro de comunidades científicas. Palavras-chave: modelos probabilísticos, crowdsourcing, múltiplos anotadores, mobilidade urbana, modelos de tópicos, modelos aditivos, inferência Bayesiana iv Acknowledgements I wish to thank my advisors Francisco Pereira and Bernardete Ribeiro for inspir- ing and guiding me through this uncertain road,