Annexe 5. Éléments D'interprétation Du Topic Model
Total Page:16
File Type:pdf, Size:1020Kb
Annexe 5 de l’article « Les influenceurs de la Silicon Valley. Entreprendre, promouvoir et guider la révolution numérique », Olivier Alexandre et Samuel Coavoux, Sociologie, vol. 12, no 2, 2021. Annexe 5. Éléments d’interprétation du topic model L’interprétation d’un topic model consiste à donner un titre, ou plutôt un sujet, à chaque thème produit. Pour cela, nous avons employé deux méthodes. D’abord, nous examinons la distribution des termes dans les thèmes. Chaque thème est en effet définit par la probabilité de présence de chacun des termes du corpus dans ce thème. Un thème définit par une forte surreprésentation de “Tesla”, “Uber”, “car” et “self-driving” peut ainsi être considéré comme portant sur l’automobile. Pour mesurer la représentation d’un terme dans un thème, nous avons utilisé la métrique suivante. Soit la probabilité postérieure d’appartenance du terme i au topic k et la fréquence d’apparition du terme i dans le corpus. Plus cette métrique est élevée et plus le terme est considéré comme représentatif du topic. Le paramètre a été fixé à 0,6. Compris entre 0 et 1, il permet de tempérer l’effet de l’inégale distribution des termes dans le corpus. Lorsqu’il vaut 0, la représentation du terme dans le thème est rapportée à sa représentation dans le corpus ; lorsqu’il vaut 1, la probabilité d’appartenance au thème est utilisée de façon brute. Plus lambda est élevé, et plus les termes les plus fréquents dans le corpus sont considérés comme représentatifs de chaque thème. Ensuite, pour interpréter les thèmes, nous examinons les documents les plus fortement associés à chaque thème. Cette méthode est peu utile dans le cas ou les topic models sont employés sur des corpus constitués de documents très longs, car chaque document peut alors être considéré comme un mélange d’un grand nombre de thèmes. Mais dans notre cas, la taille réduite des documents (moins de 140 caractères chacuns) associés à un paramètre alpha très faible tend à assigner à chaque document un thème fortement surreprésenté. En examinant les documents du corpus les plus typiques de chaque thème, on peut donc trouver des indices de sa signification. L’interprétation tient donc compte à la fois des mots les plus surreprésentés dans le thème et des tweets les plus fortement associés au thème. Or, les thèmes dégagés ne sont pas strictement homogènes : on aimerait bien entendu reconstituer précisément les modalités d’écriture des documents du corpus et identifier clairement quels termes évoquent l’intelligence artificielle et quels autres le cloud, mais nous ne disposons que d’une estimation imparfaite. De ce fait, nos interprétations ne sont pas parfaitement ajustées. Si nous nommons un thème, cela ne signifie pas que l’ensemble des messages dans lequel ce thème est majoritaire portent exclusivement, voire même principalement, sur ce thème. De même, certains des termes les plus fréquents ne vont pas forcément dans le sens de l’interprétation proposée. Notre interprétation signifie que nous avons considéré tous deux que la plupart des messages et la plupart des termes pouvaient être interprétés ainsi. Par souci de transparence, nous fournissons dans cette annexe l’ensemble des résultats employés pour l’interprétation. Il convient de garder à l’esprit que, comme nous le décrivons dans la section précédente, les messages présentés ici ont été transformé avant de passer à l’analyse, notamment par la suppression de la ponctuation, des chiffres, et des stopwords. Ainsi, le document « I wrote this a 1 Annexe 5 de l’article « Les influenceurs de la Silicon Valley. Entreprendre, promouvoir et guider la révolution numérique », Olivier Alexandre et Samuel Coavoux, Sociologie, vol. 12, no 2, 2021. year ago. Still relevant for 2017, I believe » est present dans le modèle sous la forme « wrote year ago still relevant believe ». Nous conservons la forme originale des messages dans ce document pour plus de lisibilité. Une fois les 60 thèmes interprétés, nous les avons rassemblés par catégories en procédant par rapprochement sémantique. Nous avons catégorisé ensemble les thèmes dont nous pouvions faire l’hypothèse, en regardant les messages les plus caractéristiques, que ces messages visaient à accomplir le même type d’action (informer sur la politique ; faire de la veille sur l’industrie du numérique ; mettre en scène son capital social…). La description de ces grandes catégories est présente dans le Tableau 1 de l’article. D’autres types de classification statistiques ont été tentés (ACP et CAH sur le tableau des probabilités postérieures, et algorithme de Louvain sur un réseau de coocurrence des thèmes) mais ne sont pas apparu probant. Cela ne préjuge pas de l’intérêt d’utiliser de telles classifications dans les approches par topic model, mais tient aux particularités de notre corpus (documents très courts). Nous présentons ci-dessous la liste détaillée des thèmes avec leurs interprétations. Le Tableau 1 donne la liste détaillée des 60 thèmes avec leur interprétation, ainsi que leur distribution en tant que thème majoritaire dans le corpus. Les thèmes sont numérotés de façon arbitraire par l’algorithme, et trié ici par grande catégorie. Tableau 1. Tri à plat des thèmes issus du topic model, avec leur interprétation Thème Messages Proportion t15 Business: Achievements 1110 1.81% t37 Business: Customer relationship, customer experience 886 1.44% t53 Business: Decisions, bad, good 915 1.49% t33 Business: Disruption, Innovation 855 1.39% t43 Business: Fundings, venture capital 1038 1.69% t16 Business: Hiring 1047 1.70% t07 Business: lawsuits 989 1.61% t48 Business: Leadership, empathy at work 947 1.54% t49 Business: Marketing, content, audience 758 1.23% t23 Business: Motivation, self, inspiration 1290 2.10% t12 Business: Rounds, Silicon Valley 1492 2.43% t31 Business: Social business, strategies 1005 1.63% t55 Business: Startup culture 940 1.53% t50 Business: Support, thanks, kuddos 882 1.43% t20 Business:Management, careers 1295 2.11% t27 Media: annoucements 791 1.29% t45 Media: Interview, keynote, presentation 1139 1.85% t35 Media: Interview, Podcasts , contents 917 1.49% t17 Media: News (Weather, movies) 1186 1.93% t34 Media: Questions, answers, audience community 812 1.32% t51 Media: Book release 890 1.45% t47 Media: interview annoucement 1050 1.71% 2 Annexe 5 de l’article « Les influenceurs de la Silicon Valley. Entreprendre, promouvoir et guider la révolution numérique », Olivier Alexandre et Samuel Coavoux, Sociologie, vol. 12, no 2, 2021. t41 Media: Thanks, followers, trips 851 1.38% t03 Media: TV, SharkTank 1363 2.22% t38 Media: events, talks, conferences 1020 1.66% t21 Personal: Celebrations, birthdays 1000 1.63% t18 Personal: Food, drinks, culture 1053 1.71% t08 Personal: Music, family 1225 1.99% t25 Personal: Sports, win 1015 1.65% t58 Personal: travels, airports 799 1.30% t06 Philo: Interesting piece (ideas, theories) 1338 2.18% t60 Philo: Lessons, learning, observations 768 1.25% t13 Philo: Normative words (congrats, tips) 1254 2.04% t32 Philo: Right or wrong, real or fake, filter 1152 1.87% t39 Philo: Setting goals 1006 1.64% t56 Philo: Stories (of great people) 731 1.19% t22 Politics: Diversity, gender, pay 1085 1.76% t14 Politics: Education, schools, institutions 1256 2.04% t46 Politics: Health care, public administration 848 1.38% t24 Politics: Income, inequalities 916 1.49% t04 Politics: Sexual harassement, rape 1187 1.93% t44 Politics: Trump, immigration, religion, tolerance 893 1.45% t10 Politics: Trump, russia 1390 2.26% t36 Politics: US election, Donald Trump , populism 1057 1.72% t57 Tech: Apps, platforms 815 1.33% t52 Tech: Big data, deep learning, Artificial intelligence 885 1.44% t54 Tech: Bitcoin 638 1.04% t42 Tech: cars (self-driving, Tesla) 899 1.46% t02 Tech: Devices, hardware, smartphones 1302 2.12% t26 Tech: future 980 1.59% t59 Tech: Health, biotech 723 1.18% t19 Tech: infrastructure, Cloud 933 1.52% t30 Tech: Intelligence, IA 927 1.51% t11 Tech: Retail, broadcast, Amazon 1157 1.88% t05 Tech: Security, privacy 1110 1.81% t09 Tech: Social media, FB 1290 2.10% t29 Tech: Space exploration, launch 957 1.56% t28 Time: Time markers 1103 1.79% t01 Time: Time passing 1430 2.33% t40 Time: Today, day 893 1.45% Total 61483 100.00% Enfin, la section suivante présente pour chaque thème les indicateurs employés pour son interprétation, à savoir les 20 termes ainsi que les 10 documents les plus représentatifs de ce thème. La réprésentativité des termes est mesurée par la métrique définie plus haut. Les thèmes sont présentés dans l’ordre arbitraire de leur numérotation. 3 Annexe 5 de l’article « Les influenceurs de la Silicon Valley. Entreprendre, promouvoir et guider la révolution numérique », Olivier Alexandre et Samuel Coavoux, Sociologie, vol. 12, no 2, 2021. Thème 1 : Time: Time passing Termes les plus fortement associés au thème 1 : years, ago, year, last, old, months, yrs, since, days, time, two, almost, three, past, month, took, next, decade, still, half, learned, hours, long, started, nearly, billion, changed, weeks, yr, five Documents les plus fortements associés au thème 1 Beta Message Usager 0.73 Alibaba+breaks+last+year+Singles+Day+record+in+half+the+time+ geoff_yang 0.72 Americans spent $70BB/year on lottery tickets (avg of $300 per adult per auren year) … and they get back 53% in winnings 0.72 Six years since I visited the West Bank/Israel last. So much has changed Joi but so much is the same. 0.70 Paralyzed from the neck down…He made half a million dollars in 9 jaltucher months… (writing). 0.70 Can’t believe that it is two years since #livewhatyoulove arrived in NaomiSimson bookstores … still… 0.67 I wrote this a year ago. Still relevant for 2017, I believe dylan20 0.67 if you really look closely most overnight successes took a long time - PeterGuber #stevejobs 0.67 We’ve come a long way since the first HIV test was invented 30 years ago: BillGates 0.67 Hard to remember those days! How many pictures you take on the average Bill_Gross day now? 0.67 Constitutional amendments are hard.