Probabilistic Models for Learning from Crowdsourced Data
Total Page:16
File Type:pdf, Size:1020Kb
Probabilistic models for learning from crowdsourced data by Filipe Rodrigues Department of Informatics Engineering Faculty of Science and Technology University of Coimbra Thesis Advisors Francisco C^amara Pereira Bernardete Ribeiro September 2015 This is a \striped down" version of the PDF of my PhD thesis. For the original document go to: http://www.fprodrigues.com/publications/phd-thesis/ Chapter 0 iii Probabilistic models for learning from crowdsourced data iv Chapter 0 Abstract This thesis leverages the general framework of probabilistic graphical models to de- velop probabilistic approaches for learning from crowdsourced data. This type of data is rapidly changing the way we approach many machine learning problems in different areas such as natural language processing, computer vision and music. By exploit- ing the wisdom of crowds, machine learning researchers and practitioners are able to develop approaches to perform complex tasks in a much more scalable manner. For instance, crowdsourcing platforms like Amazon mechanical turk provide users with an inexpensive and accessible resource for labeling large datasets efficiently. However, the different biases and levels of expertise that are commonly found among different annotators in these platforms deem the development of targeted approaches necessary. With the issue of annotator heterogeneity in mind, we start by introducing a class of latent expertise models which are able to discern reliable annotators from random ones without access to the ground truth, while jointly learning a logistic regression classifier or a conditional random field. Then, a generalization of Gaussian process classifiers to multiple-annotator settings is developed, which makes it possible to learn non-linear decision boundaries between classes and to develop an active learning methodology that is able to increase the efficiency of crowdsourcing while reducing its cost. Lastly, since the majority of the tasks for which crowdsourced data is commonly used involves complex high-dimensional data such as images or text, two supervised topic models are also proposed, one for classification and another for regression problems. Using real crowdsourced data from Mechanical Turk, we empirically demonstrate the superiority of the aforementioned models over state-of-the-art approaches in many different tasks such as classifying posts, news stories, images and music, or even predicting the sentiment of a text, the number of stars of a review or the rating of movie. Chapter 0 v But the concept of crowdsourcing is not limited to dedicated platforms such as Mechanical Turk. For example, if we consider the social aspects of the modern Web, we begin to perceive the true ubiquitous nature of crowdsourcing. This opened up an exciting new world of possibilities in artificial intelligence. For instance, from the per- spective of intelligent transportation systems, the information shared online by crowds provides the context that allows us to better understand how people move in urban environments. In the second part of this thesis, we explore the use of data generated by crowds as additional inputs in order to improve machine learning models. Namely, the problem of understanding public transport demand in the presence of special events such as concerts, sports games or festivals, is considered. First, a probabilistic model is developed for explaining non-habitual overcrowding using crowd-generated information mined from the Web. Then, a Bayesian additive model with Gaussian process com- ponents is proposed. Using real data from Singapore's transport system and crowd- generated data regarding special events, this model is empirically shown to be able to outperform state-of-the-art approaches for predicting public transport demand. Fur- thermore, due to its additive formulation, the proposed model is able to breakdown an observed time-series of transport demand into a routine component corresponding to commuting and the contributions of individual special events. Overall, the models proposed in this thesis for learning from crowdsourced data are of wide applicability and can be of great value to a broad range of research communities. Keywords: probabilistic models, crowdsourcing, multiple annotators, transport de- mand, urban mobility, topic modeling, additive models, Bayesian inference vi Chapter 0 Resumo A presente tese prop~oeum conjunto de modelos probabil´ısticospara aprendizagem a partir de dados gerados pela multid~ao(crowd). Este tipo de dados tem vindo rap- idamente a alterar a forma como muitos problemas de aprendizagem m´aquinas~ao abordados em diferentes ´areasdo dom´ınio cient´ıfico, tais como o processamento de linguagem natural, a vis~aocomputacional e a m´usica.Atrav´esda sabedoria e conhec- imento da crowd, foi poss´ıvel na ´areade aprendizagem m´aquinao desenvolvimento de abordagens para realizar tarefas complexas de uma forma muito mais escal´avel. Por exemplo, as plataformas de crowdsourcing como o Amazon mechanical turk (AMT) colocam ao dispor dos seus utilizadores um recurso acess´ıvel e econ´omicopara etique- tar largos conjuntos de dados de forma eficiente. Contudo, os diferentes vieses e n´ıveis de per´ıciaindivididual dos diversos anotadores que contribuem nestas plataformas tor- nam necess´arioo desenvolvimento de abordagens espec´ıficase direcionadas para este tipo de dados multi-anotador. Tendo em mente o problema da heterogeneidade dos anotadores, come¸camospor introduzir uma classe de modelos de conhecimento latente. Estes modelos s~aoca- pazes de diferenciar anotadores confi´aveis de anotadores cujas respostas s~aodadas de forma aleat´oriaou pouco premeditada, sem que para isso seja necess´arioter acesso `as respostas verdadeiras, ao mesmo tempo que ´etreinado um classificador de regress~ao log´ısticaou um conditional random field. De seguida, s~aoconsiderados modelos de cres- cente complexidade, desenvolvendo-se uma generaliza¸c~aodos classificadores baseados em processos Gaussianos para configura¸c~oesmulti-anotador. Estes modelos permitem aprender fronteiras de decis~aon~aolineares entre classes, bem como o desenvolvimento de metodologias de aprendizagem activa, que s~aocapazes de aumentar a efici^enciado crowdsourcing e reduzir os custos associados. Por ´ultimo, tendo em conta que a grande maioria das tarefas para as quais o crowdsourcing ´eusado envolvem dados complexos e Chapter 0 vii Probabilistic models for learning from crowdsourced data de elevada dimensionalidade tais como texto ou imagens, s~aopropostos dois modelos de t´opicossupervisionados: um, para problemas de classifica¸c~aoe, outro, para regress~ao. A superioridade das modelos acima mencionados sobre as abordagens do estado da arte ´eempiricamente demonstrada usando dados reais recolhidos do AMT para diferentes tarefas como a classifica¸c~aode posts, not´ıcias, imagens e m´usica,ou at´emesmo na previs~aodo sentimento latente num texto e da atribui¸c~aodo n´umerode estrelas a um restaurante ou a um filme. Contudo, o conceito de crowdsourcing n~aose limita a plataformas dedicadas como o AMT. Basta considerarmos os aspectos sociais da Web moderna, que rapidamente come¸camosa compreender a verdadeira natureza ub´ıquado crowdsourcing. Essa com- ponente social da Web deu origem a um mundo de possibilidades estimulantes na ´area de intelig^enciaartificial em geral. Por exemplo, da perspectiva dos sistemas inteligentes de transportes, a informa¸c~aopartilhada online por multid~oes fornece o contexto que nos d´aa possibilidade de perceber melhor como as pessoas se movem em espa¸cosurbanos. Na segunda parte desta tese, s~aousados dados gerados pela crowd como entradas adi- cionais de forma a melhorar modelos de aprendizagem m´aquina. Nomeadamente, ´e considerado o problema de compreender a procura em sistemas de transportes na pre- sen¸cade eventos, tais como concertos, eventos desportivos ou festivais. Inicialmente, ´edesenvolvido um modelo probabil´ısticopara explicar sobrelota¸c~oesanormais usando informa¸c~aorecolhida da Web. De seguida, ´eproposto um modelo Bayesiano aditivo cujas componentes s~aoprocessos Gaussianos. Utilizando dados reais do sistema de transportes p´ublicosde Singapura e dados gerados na Web sobre eventos, verificamos empiricamente a qualidade superior das previs~oesdo modelo proposto em rela¸c~aoa abordagens do estado da arte. Al´emdisso, devido `aformula¸c~aoaditiva do modelo proposto, verificamos que este ´ecapaz de desagregar uma s´erie temporal de procura de transportes numa componente de rotina (e.g. devido `amobilidade pendular) e nas componentes que correspondem `ascontribui¸c~oesdos v´arioseventos individuais identi- ficados. No geral, os modelos propostos nesta tese para aprender com base em dados gerados pela crowd s~aode vasta aplicabilidade e de grande valor para um amplo espectro de viii Chapter 0 comunidades cient´ıficas. Palavras-chave: modelos probabil´ısticos,crowdsourcing, m´ultiplosanotadores, mo- bilidade urbana, modelos de t´opicos,modelos aditivos, infer^enciaBayesiana Chapter 0 ix Acknowledgements I wish to thank my advisors Francisco Pereira and Bernardete Ribeiro for inspiring and guiding me through this uncertain road, while giving me the freedom to satisfy my scientific curiosity. Francisco Pereira was the one who introduced me to the research world. Since then, he has been an exemplary teacher, mentor and friend. Bernardete Ribeiro joined us a little later but, since then, her guidance and mentorship have been precious and our discussions invaluable. I cannot thank them enough. I would also like to thank