Probabilistic Models for Learning from Crowdsourced Data

Probabilistic models for learning from crowdsourced data by Filipe Rodrigues Department of Informatics Engineering Faculty of Science and Technology University of Coimbra Thesis Advisors Francisco Câmara Pereira Bernardete Ribeiro September 2015 This is a \striped down" version of the PDF of my PhD thesis. For the original document go to: http://www.fprodrigues.com/publications/phd-thesis/ Chapter 0 iii Probabilistic models for learning from crowdsourced data iv Chapter 0 Abstract This thesis leverages the general framework of probabilistic graphical models to develop probabilistic approaches for learning from crowdsourced data. This type of data is rapidly changing the way we approach many machine learning problems in different areas such as natural language processing, computer vision and music. By exploit- ing the wisdom of crowds, machine learning researchers and practitioners are able to develop approaches to perform complex tasks in a much more scalable manner. For instance, crowdsourcing platforms like Amazon mechanical turk provide users with an inexpensive and accessible resource for labeling large datasets efficiently. However, the different biases and levels of expertise that are commonly found among different annotators in these platforms deem the development of targeted approaches necessary. With the issue of annotator heterogeneity in mind, we start by introducing a class of latent expertise models which are able to discern reliable annotators from random ones without access to the ground truth, while jointly learning a logistic regression classifier or a conditional random field. Then, a generalization of Gaussian process classifiers to multiple-annotator settings is developed, which makes it possible to learn non-linear decision boundaries between classes and to develop an active learning methodology that is able to increase the efficiency of crowdsourcing while reducing its cost. Lastly, since the majority of the tasks for which crowdsourced data is commonly used involves complex high-dimensional data such as images or text, two supervised topic models are also proposed, one for classification and another for regression problems. Using real crowdsourced data from Mechanical Turk, we empirically demonstrate the superiority of the aforementioned models over state-of-the-art approaches in many different tasks such as classifying posts, news stories, images and music, or even predicting the sentiment of a text, the number of stars of a review or the rating of movie. Chapter 0 v But the concept of crowdsourcing is not limited to dedicated platforms such as Mechanical Turk. For example, if we consider the social aspects of the modern Web, we begin to perceive the true ubiquitous nature of crowdsourcing. This opened up an exciting new world of possibilities in artificial intelligence. For instance, from the per- spective of intelligent transportation systems, the information shared online by crowds provides the context that allows us to better understand how people move in urban environments. In the second part of this thesis, we explore the use of data generated by crowds as additional inputs in order to improve machine learning models. Namely, the problem of understanding public transport demand in the presence of special events such as concerts, sports games or festivals, is considered. First, a probabilistic model is developed for explaining non-habitual overcrowding using crowd-generated information mined from the Web. Then, a Bayesian additive model with Gaussian process com- ponents is proposed. Using real data from Singapore's transport system and crowd- generated data regarding special events, this model is empirically shown to be able to outperform state-of-the-art approaches for predicting public transport demand. Fur- thermore, due to its additive formulation, the proposed model is able to breakdown an observed time-series of transport demand into a routine component corresponding to commuting and the contributions of individual special events. Overall, the models proposed in this thesis for learning from crowdsourced data are of wide applicability and can be of great value to a broad range of research communities. Keywords: probabilistic models, crowdsourcing, multiple annotators, transport demand, urban mobility, topic modeling, additive models, Bayesian inference vi Chapter 0 Resumo A presente tese prop~oeum conjunto de modelos probabil´ısticospara aprendizagem a partir de dados gerados pela multid~ao(crowd). Este tipo de dados tem vindo rapidamente a alterar a forma como muitos problemas de aprendizagem máquinas~ao abordados em diferentes áreasdo dom´ınio cient´ıfico, tais como o processamento de linguagem natural, a vis~aocomputacional e a música.Atravésda sabedoria e conhecimento da crowd, foi poss´ıvel na áreade aprendizagem máquinao desenvolvimento de abordagens para realizar tarefas complexas de uma forma muito mais escalável. Por exemplo, as plataformas de crowdsourcing como o Amazon mechanical turk (AMT) colocam ao dispor dos seus utilizadores um recurso acess´ıvel e económicopara etique- tar largos conjuntos de dados de forma eficiente. Contudo, os diferentes vieses e n´ıveis de per´ıciaindivididual dos diversos anotadores que contribuem nestas plataformas tor- nam necessárioo desenvolvimento de abordagens espec´ıficase direcionadas para este tipo de dados multi-anotador. Tendo em mente o problema da heterogeneidade dos anotadores, come¸camospor introduzir uma classe de modelos de conhecimento latente. Estes modelos s~aocapazes de diferenciar anotadores confiáveis de anotadores cujas respostas s~aodadas de forma aleatóriaou pouco premeditada, sem que para isso seja necessárioter acesso às respostas verdadeiras, ao mesmo tempo que étreinado um classificador de regress~ao log´ısticaou um conditional random field. De seguida, s~aoconsiderados modelos de cres- cente complexidade, desenvolvendo-se uma generaliza¸c~aodos classificadores baseados em processos Gaussianos para configura¸c~oesmulti-anotador. Estes modelos permitem aprender fronteiras de decis~aon~aolineares entre classes, bem como o desenvolvimento de metodologias de aprendizagem activa, que s~aocapazes de aumentar a eficiênciado crowdsourcing e reduzir os custos associados. Por último, tendo em conta que a grande maioria das tarefas para as quais o crowdsourcing éusado envolvem dados complexos e Chapter 0 vii Probabilistic models for learning from crowdsourced data de elevada dimensionalidade tais como texto ou imagens, s~aopropostos dois modelos de tópicossupervisionados: um, para problemas de classifica¸c~aoe, outro, para regress~ao. A superioridade das modelos acima mencionados sobre as abordagens do estado da arte éempiricamente demonstrada usando dados reais recolhidos do AMT para diferentes tarefas como a classifica¸c~aode posts, not´ıcias, imagens e música,ou atémesmo na previs~aodo sentimento latente num texto e da atribui¸c~aodo númerode estrelas a um restaurante ou a um filme. Contudo, o conceito de crowdsourcing n~aose limita a plataformas dedicadas como o AMT. Basta considerarmos os aspectos sociais da Web moderna, que rapidamente come¸camosa compreender a verdadeira natureza ub´ıquado crowdsourcing. Essa componente social da Web deu origem a um mundo de possibilidades estimulantes na área de inteligênciaartificial em geral. Por exemplo, da perspectiva dos sistemas inteligentes de transportes, a informa¸c~aopartilhada online por multid~oes fornece o contexto que nos dáa possibilidade de perceber melhor como as pessoas se movem em espa¸cosurbanos. Na segunda parte desta tese, s~aousados dados gerados pela crowd como entradas adi- cionais de forma a melhorar modelos de aprendizagem máquina. Nomeadamente, é considerado o problema de compreender a procura em sistemas de transportes na pre- sen¸cade eventos, tais como concertos, eventos desportivos ou festivais. Inicialmente, édesenvolvido um modelo probabil´ısticopara explicar sobrelota¸c~oesanormais usando informa¸c~aorecolhida da Web. De seguida, éproposto um modelo Bayesiano aditivo cujas componentes s~aoprocessos Gaussianos. Utilizando dados reais do sistema de transportes públicosde Singapura e dados gerados na Web sobre eventos, verificamos empiricamente a qualidade superior das previs~oesdo modelo proposto em rela¸c~aoa abordagens do estado da arte. Alémdisso, devido àformula¸c~aoaditiva do modelo proposto, verificamos que este écapaz de desagregar uma série temporal de procura de transportes numa componente de rotina (e.g. devido àmobilidade pendular) e nas componentes que correspondem àscontribui¸c~oesdos várioseventos individuais identi- ficados. No geral, os modelos propostos nesta tese para aprender com base em dados gerados pela crowd s~aode vasta aplicabilidade e de grande valor para um amplo espectro de viii Chapter 0 comunidades cient´ıficas. Palavras-chave: modelos probabil´ısticos,crowdsourcing, múltiplosanotadores, mobilidade urbana, modelos de tópicos,modelos aditivos, inferênciaBayesiana Chapter 0 ix Acknowledgements I wish to thank my advisors Francisco Pereira and Bernardete Ribeiro for inspiring and guiding me through this uncertain road, while giving me the freedom to satisfy my scientific curiosity. Francisco Pereira was the one who introduced me to the research world. Since then, he has been an exemplary teacher, mentor and friend. Bernardete Ribeiro joined us a little later but, since then, her guidance and mentorship have been precious and our discussions invaluable. I cannot thank them enough. I would also like to thank

Probabilistic Models for Learning from Crowdsourced Data

Lee Tao Dana

WHY WE DO WHAT WE DO Contents Chairman’S Note

‍Matthew‍Van‍Pelt

Probabilistic Models for Learning from Crowdsourced Data

BAB I PENDAHULUAN 1.1. Latar Belakang 1.1.1. Latar Belakang Pengadaan Proyek Olahraga Bola Basket Adalah Olahraga Bola Berkelom

Midweek Basketball Coupon 19/02/2020 09:45 1 / 1

Merlion Cup 2016

姓名參與身份日數項目名稱項目地點李永雄中立國際裁判2017-03-05 2017

Bangkok Storm V2.Indd

Self-Confessed Hitman Claims Duterte Sometimes Watched Slain Victims Get Chopped Up

Small City, Great Success

Duterte, Robredo Face Impeachment Complaints