Identifying Police Killings from News Text with Distant Supervision

Identifying police killings from news text with distant supervision

Brendan O’Connor College of Information and Computer Sciences University of Massachusetts Amherst http://brenocon.com

Talk at NYU Center for Data Science, 4/27/17

Joint work with: Katherine Keith, Abram Handler, Michael Pinkham, Cara Magliozzi, Joshua McDufﬁe

Thursday, April 27, 17 Computational Social Science

1900 2000

Thursday, April 27, 17 Computational Social Science

Ofﬁcial social data Semi-structured social data

Digitized behavior Data collection Data analysis Data computation Billions of users, messages/day

Digitized news Thousands of articles/day

Digitized archives 100 BCE 1829 1890 Millions of books/century

1900 2000

Thursday, April 27, 17 Computational Social Science

Ofﬁcial social data Semi-structured social data

Digitized behavior Data collection Data analysis Data computation Billions of users, messages/day

Digitized news Thousands of articles/day

Digitized archives 100 BCE 1829 1890 Millions of books/century

1900 2000

Thursday, April 27, 17 TextGenerator(SocialAttributes) → Text

Society (SocialAttributes) Writing (TextGenerator) Text Data (Text) Data generation process

2. Infer: social determinants of language use Inferences e.g. bias, inﬂuence... from text P(Generator | Text, SocialAttributes)

1. Infer: attributes of society (language for measurement) e.g. opinion, communities, events... P(SocialAttributes | Text, Generator) Language for social measurement P(SocAttr | Text, TextGen)

Thursday, April 27, 17 TextGenerator(SocialAttributes) → Text

Society (SocialAttributes) Writing (TextGenerator) Text Data (Text) Data generation process

2. Infer: social determinants of language use Inferences Social media usage Public opinion e.g. bias, inﬂuence... from text Model assumptionsP(Generator | Text, SocialAttributes)

1. Infer: attributes of society (language for measurement) e.g. opinion, communities, events... P(SocialAttributes | Text, Generator) Language for social measurement P(SocAttr | Text, TextGen)

[O’Connor et al., ICWSM 2010] 5

Thursday, April 27, 17 TextGenerator(SocialAttributes) → Text

Society (SocialAttributes) Writing (TextGenerator) Text Data (Text) Data generation process

Real-world News media2. Infer: process social determinants of language use Inferences e.g. bias, inﬂuence... from textpolitical events Model assumptionsP(Generator | Text, SocialAttributes)

1. Infer: attributes of society (language for measurement) e.g. opinion, communities, events... P(SocialAttributes | Text, Generator) Language for social measurement Israeli−Palestinian Diplomacy A: Israel-Jordan Peace C: U.S. Calls for West Bank P(SocAttr | Text, TextGen) Treaty Withdrawal B: Hebron Protocol D: Deadlines for Wye River Peace

0.8 Accord E: Negotiations in Mecca F: Annapolis Conference [meet with, sign with, praise, say with, arrive A B C D E F

in, host, tell, welcome, join, thank, meet, 0.4 travel to, criticize, leave, take to, begin to, begin with, summon, reach with, hold with...] 0.0 [O’Connor, Stewart, Smith ACL 2013] 1994 1997 2000 2002 2005 2007 6

Thursday, April 27, 17 TextGenerator(SocialAttributes) → Text

Society (SocialAttributes) Writing (TextGenerator) Text Data (Text) Data generation process What to analyze: How to analyze: Social phenomena in textual 2. Infer: social determinants of language use Inferences NLP capabilitiese.g. bias, we inﬂuence... need to do from textdatasets theseP(Generator better | Text, SocialAttributes) Dialects in social media • 1. Infer: attributes of society• (languagePart of forspeech measurement) tagging language e.g. opinion, communities, events... P(SocialAttributes• |Syntactic, Text, Generator) semantic parsing • Events in international relations • Event extraction • Identifying police killings in news

Thursday, April 27, 17 8

Thursday, April 27, 17 Police killings

July 17, 2014

Thursday, April 27, 17 Police killings

July 17, 2014

Aug 9, 2014

Thursday, April 27, 17 Police killings

July 17, 2014

Aug 9, 2014

July 5, 2016

Thursday, April 27, 17 Police killings

July 17, 2014

Aug 9, 2014

July 5, 2016

July 6, 2016