• il y a 2 ans

Catégorie

🤖
Technologie
Transcription
00:00 [Silence]
00:10 Pedro travaille à l'Institut de Systèmes Complexes de Paris, qui est situé à Sciences Po,
00:21 et Béatrice Botero-Arfila à Sciences Po Law School et à l'Université de Harvard. Merci.
00:31 [Silence]
00:34 Merci pour l'invitation à présenter notre travail.
00:37 Ce sera à propos de montrer quelques résultats empiriques que nous avons obtenus dans les études de données sur les médias sociaux.
00:43 Nous allons essayer de faire une discussion autour des spécifications de données nécessaires pour réduire certaines questions concernant le risque systémique,
00:54 en particulier sur les questions de polarisation, de ségrégation et de malinformation.
00:59 Nous allons structurer cette présentation en trois parties.
01:02 Dans la première partie, je vais essayer de déterminer la nécessité d'un analyse politique dans les données des médias sociaux,
01:07 en particulier avec des frameworks européens, en comparaison avec ceux qui viennent de l'United States pour faire de la recherche.
01:14 Ensuite, je reviendrai à la question des deux études empiriques.
01:18 La première sera concernant la mesure de la ségrégation sur les plateformes sociales,
01:22 et la deuxième sera concernant la mesure de la polarisation et de la malinformation,
01:26 pour terminer cette discussion sur ce qui l'amène en termes de spécifications de données pour la mesure et le monitoring des risques sociaux.
01:35 Je voudrais donc argumenter que, quand un étudiant s'intéresse à un phénomène qui est lié à la politique,
01:43 comme la polarisation, la ségrégation, la concentration et même la question de la malinformation,
01:47 comme je le montrerai plus tard,
01:49 ce qui va se passer dans les études est que vous devriez gérer une variable
01:55 qui compte pour la direction politique des individus et des contenus circulant sur les plateformes.
02:01 Par exemple, quand vous mesurez la ségrégation politique, vous devez comprendre
02:05 à quel point les utilisateurs de stances politiques sont connectés ou déconnectés,
02:09 ou ne lisent pas le même contenu.
02:11 Et même en termes de réglementations, certaines réglementations
02:14 demandent des provisions pour les choses que les plateformes peuvent ou ne peuvent pas faire
02:19 avec le connaissement politique sur les parties des individus,
02:23 ce qu'ils savent sur les stances des individus.
02:26 Et comment nous allons mesurer cela, et les plateformes qui permettront de moniter cela
02:31 sont le sujet de ces études empiriques.
02:33 Donc, quand nous pensons maintenant à la façon dont nous traitons ces stances politiques en recherche,
02:39 beaucoup de la recherche a été dominée par les études qui sont basées aux Etats-Unis,
02:46 les meilleurs sujets pour cet environnement politique.
02:48 Et nous aurons dans notre esprit un genre de phénomène comme celui-ci,
02:51 dans lequel la recherche commence par la catégorisation des individus et des contenus,
02:55 et ensuite les études en cours, connectées par exemple aux questions des risques systémiques.
03:00 Et les études plus récentes, par exemple les dernières quatre grandes études sur les élections,
03:06 posent par exemple les utilisateurs et les contenus sur une seule dimension,
03:10 qui va de la plus libérale à la plus conservatrice,
03:13 pour ensuite conduire une étude sur comment ils sont connectés
03:17 ou comment l'algorithme les présente,
03:19 en les proposant des contenus qui peuvent être ou non, par exemple dans ce cas,
03:22 des informations de fauteuil, appelés "information de fauteuil".
03:25 Donc, ils apportent de nouvelles évidences avec cette étude
03:28 sur cette hypothèse d'asymétrie et d'idéologie de la ségrégation,
03:31 dans laquelle, aux Etats-Unis, il est plus conservateur
03:34 que l'information de fauteuil circule, par exemple.
03:36 Et tout cela est bien et bien dans les Etats-Unis,
03:39 mais il s'agit d'une forte assumption idéologique,
03:42 dans laquelle on suppose que ceci est la manière dont le data observé
03:48 est sous-estimé par une forte division idéologique,
03:53 libérale et conservatrice.
03:54 On positionne les individus et leurs contenus,
03:57 et ensuite on procède à l'étude.
03:59 Mais nous savons, d'une tradition dans la science politique,
04:03 que ce n'est pas le cas dans des enjeux plus généraux,
04:05 en particulier en Europe.
04:07 Par exemple, en utilisant des données de surveillement,
04:09 les recherches en ont intérêt,
04:11 et on a une question de dimensionnalité.
04:13 Combien d'éléments d'idéologie ou d'idéologie sont nécessaires
04:16 pour compter sur les phénomènes politiques
04:18 dans les pays différents ?
04:19 C'est un étude dans laquelle les chercheurs proposent
04:22 un index de complexité dimensionnel.
04:24 Combien d'éléments seraient au moins nécessaires ?
04:26 Certains pays se rendraient à une analyse de dimension
04:31 comme c'est le cas de la Grande-Bretagne.
04:33 En Suède, par exemple, d'autres pays auraient au moins
04:37 trois éléments nécessaires.
04:39 La France est à un point de deux.
04:42 Qu'avons-nous fait dans les études que nous allons présenter
04:46 pour gérer la question d'analyser les données de la média sociale
04:50 sur les dimensions qui sont plus rélevantes
04:52 pour le cas particulier national ?
04:54 C'est un méthode que nous appelons
04:55 l'embedding de l'attitude de la réseau indépendant
04:57 et de la langue,
04:58 et nous avons séparé deux processus.
05:00 Le premier est d'accepter les données,
05:02 et en particulier les données interactuelles,
05:04 nous avons pu les faire dans différents contextes
05:08 de langue autour de l'Europe,
05:10 dans une première représentation spatiale
05:12 qui s'applique aux mécanismes de la psychologie sociale,
05:15 par exemple, l'homophilie politique,
05:18 et ensuite nous avons mappé ces données
05:20 sur les dimensions qui sont données
05:22 par ces instruments de recherche en sciences politiques
05:25 qui sont particulièrement conçus pour capturer
05:28 les dimensions importantes dans différents pays.
05:31 Dans le résultat que je vais vous montrer,
05:34 nous avons un nombre de personnes sur Twitter
05:37 de plus de 1/3 des millions
05:39 de les utilisateurs les plus politiquement connectés
05:42 dans deux dimensions qui sont très structurées
05:44 pour cet écosystème.
05:45 Les deux dimensions sont le positionnement gauche-droite
05:48 et le positionnement vers les élites et les institutions
05:50 dans le pays,
05:51 et en bleu léger,
05:52 vous voyez la densité spatiale
05:54 de cette grande population
05:56 avec quelques points de référence
05:58 qui sont apportés par l'instrument politique
06:00 avec lequel nous construisons notre étude.
06:02 Vous voyez qu'il y a des références spatiales,
06:06 par exemple, 0 est le positionnement gauche-droite
06:09 pour les parties,
06:11 10 est le positionnement droit pour les parties,
06:13 et les parties existent dans le espace comme référence.
06:17 Toutes ces méthodologies que nous construisons
06:21 dans ce que nous appelons
06:23 l'Observatoire de la polarisation européenne
06:25 que nous construisons entre Sciences Post-Sénérées
06:27 de l'École de l'Économie de Londres,
06:29 à la Université de Vienne et à la Université de Bocconi à Milan,
06:31 permettent aussi d'obtenir des insights comparatifs
06:35 sur les choses que nous observons en France
06:37 et qui se passent aussi dans d'autres pays,
06:39 comment ils se comparent.
06:41 En essence, c'est la proposition
06:44 et la computation des données
06:46 de différents plateformes et de pays
06:48 dans des espaces politiques comparables
06:50 qui sont les plus réels
06:51 pour ces spécificités nationales.
06:53 Alors, je vais maintenant
06:55 vous parler des résultats principaux
06:57 de ces deux études.
06:58 La première est une question
07:00 de la mesure de la ségrégation politique.
07:02 Quand on pense à la ségrégation politique,
07:04 cela est normalement opérationalisé
07:06 comme connecter ou déconnecter.
07:08 Nous prenons donc
07:10 la réseau de suivants sur Twitter
07:12 sous-tenu par cette grande population
07:14 et nous essayons d'identifier des clusters
07:16 ou des communautés d'individus
07:18 qui sont en étroite connexion.
07:20 Ils sont donc plus exposés
07:21 aux membres de la même communauté.
07:23 Et parce que nous savons
07:24 comment ils sont positionnés
07:26 et les échelons politiques
07:27 qui sont réellement réels pour la France,
07:28 nous pouvons mesurer à quel point
07:30 ces différentes dimensions
07:32 ségregent la réseau.
07:34 Nous faisons cela en séparant
07:36 les communautés de réseau,
07:38 qui sont les bubbles bleus.
07:40 Dans ce graphique,
07:41 il s'agit de plus de 1000 communautés.
07:44 Et parce que nous savons
07:45 la position des membres,
07:46 nous pouvons positionner
07:47 la position de la communauté.
07:49 C'est l'axe X.
07:51 Et le déplacement
07:52 dans la dimension
07:53 des membres de la communauté,
07:54 c'est l'axe Y.
07:55 Et nous avons fait cela
07:56 pour quatre dimensions.
07:58 Donc, l'axe gauche,
07:59 les attitudes vers l'intégration européenne,
08:01 les attitudes vers les élites
08:03 et les institutions au pays,
08:04 et les attitudes vers
08:05 la protection environnementale.
08:07 Nous avons donc maintenant
08:08 une façon de produire
08:09 une métrique pour le niveau
08:10 auquel chaque dimension différente
08:13 produit la ségrégation
08:14 dans différents environnements en ligne.
08:16 Et il se trouve que,
08:17 bien, avec différents niveaux,
08:19 mais surtout l'axe gauche
08:21 possède un pouvoir plus fort
08:22 pour ségréger ces réseaux en France.
08:25 Donc, un étude très différent
08:27 qui parle aussi
08:28 de la question du risque systémique
08:30 est la polarisation
08:31 qui est conduite à la malinformation.
08:33 Et je dis polarisation conduite
08:34 parce que je dirais que
08:36 deux mains et des thèmes très intéressants
08:38 de la recherche concernant
08:39 les conduits de la malinformation
08:41 sont, d'un côté,
08:42 une hypothèse cognitiviste
08:44 qui met l'emphasis
08:45 sur la littératie des données,
08:46 la réflectivité,
08:48 le savoir avec lequel les gens
08:50 approchent les contenus en ligne,
08:51 tandis que d'autres approches
08:53 plus systémiques
08:55 mettent l'emphasis
08:57 sur des choses systémiques
08:58 comme la polarisation,
08:59 qui montre que, par exemple,
09:00 c'est dans les fringes politiques
09:01 que la plupart de la polarisation,
09:03 la malinformation est partagée.
09:05 Et quand on essaie de contrôler
09:07 des variables, par exemple,
09:08 en se connectant
09:09 avec des variables cognitivistes,
09:11 il se trouve que,
09:12 parfois, c'est le cas
09:13 que la polarisation
09:14 est toujours la variable
09:15 la plus explicative
09:16 pour essayer d'entendre
09:18 si un utilisateur partage
09:20 ou non la malinformation.
09:22 Et c'est, bien sûr,
09:23 encore une fois,
09:24 ce que je trouve
09:25 aux Etats-Unis,
09:26 où les découvertes viennent.
09:27 Et nous essayons d'utiliser
09:29 nos méthodologies
09:30 pour traduire cette hypothèse
09:32 dans le cadre européen.
09:34 Donc, ce que nous avons fait,
09:35 c'est utiliser le programme
09:36 METAS,
09:37 le Programme de vérification
09:38 des facts internationaux,
09:39 pour identifier les URLs
09:40 qui ont été marquées
09:41 comme des malinformations,
09:42 pour vérifier comment
09:43 elles ont été circulées
09:44 sur Twitter,
09:45 et pour comprendre,
09:46 dans les dimensions,
09:47 la proportion des utilisateurs
09:48 qui ont partagé
09:49 ces URLs de malinformation.
09:52 Donc, c'est le cas,
09:53 par exemple,
09:54 si nous regardons
09:55 la taille de gauche-droite,
09:56 que, comme aux Etats-Unis,
09:58 la gauche-droite a été partagée,
10:00 a une probabilité plus forte
10:02 d'apparaître dans nos données
10:04 comme partage de malinformation,
10:05 mais la gauche-droite aussi.
10:07 Donc, contradictant un peu
10:09 cette hypothèse asymétrique
10:10 qui a été mise en avant
10:11 aux Etats-Unis,
10:12 et si nous regardons
10:13 d'autres dimensions très importantes
10:14 qui structurent cet écosystème,
10:16 nous voyons, par exemple,
10:17 une dimension des attitudes
10:19 vers les institutions élites,
10:21 c'est très important
10:22 pour essayer de décrire
10:23 la politique des gens
10:25 qui ont plus de propensité
10:27 pour partager de la malinformation.
10:29 Et si nous regardons
10:30 la distribution jointe
10:31 de ces deux,
10:32 l'image devient encore plus complexe
10:34 parce que vous pouvez être
10:35 très polarisé dans le sens gauche-droite,
10:37 mais si vous ne gardez pas
10:39 de sentiments d'antélite,
10:41 d'antiestablishment fort,
10:42 peut-être que vous ne vous trouverez pas
10:44 avec une haute propensité
10:45 pour partager de la malinformation.
10:47 Comment cela se connecte
10:49 avec une discussion
10:50 des risques systémiques
10:51 et des spécifications d'informations?
10:53 Pour moniter cela,
10:54 je vais demander à mon collègue
10:56 de présenter cela,
10:57 et je vais juste mentionner
10:58 par exemple,
10:59 si dans 5 ou 10 ans,
11:02 un pays a un grand niveau
11:06 de ségrégation politique,
11:07 une façon de mesurer
11:08 ce genre d'approche,
11:10 si à un moment donné,
11:12 la malinformation est mesurée
11:14 comme un niveau endémique
11:15 de la polarisation,
11:19 c'est une façon,
11:20 un chemin pour gérer
11:21 ce genre de recherche.
11:22 Et comme une autre présentation
11:23 va s'adresser cet après-midi,
11:25 si nous devons mesurer
11:26 les algorithmes,
11:27 si ils agissent
11:28 en fonction des individus
11:30 dans leur position politique,
11:32 c'est aussi un chemin
11:33 vers ce genre de recherche.
11:35 Je laisse la parole
11:36 à mon collègue.
11:37 Merci.
11:38 Merci beaucoup.
11:40 Qu'est-ce que cela signifie
11:41 en termes de l'ADSA
11:43 et de l'enforcement de l'ADSA ?
11:45 La principale idée,
11:47 comme déjà mentionné
11:48 et bien présenté,
11:49 de l'ADSA,
11:50 c'est d'améliorer les mécanismes
11:51 pour la détection
11:52 d'informations illégales
11:53 et d'adresser
11:54 certains des phénomènes
11:55 plus systémiques et complexes
11:57 qui se produisent en ligne
11:58 en journalisant
12:00 les coûts
12:01 de ces informations
12:02 sur les plateformes
12:03 et en conduisant
12:04 des examens systémiques.
12:05 Cela a une définition
12:08 plus élargie des risques systémiques,
12:10 qui inclut les informations illégales,
12:12 mais aussi les contenus
12:13 qui ne peuvent pas être illégaux,
12:14 qui ne peuvent pas être
12:15 concernant d'abord,
12:16 mais qui conduisent
12:17 à une forme
12:18 d'économie démocratique
12:19 concernant la dynamique
12:20 et peut-être le changement climatique,
12:21 pourquoi pas ?
12:22 Une des choses
12:24 que cela fait
12:25 est qu'il crée
12:26 des mécanismes d'adaptation,
12:27 il crée des obligations
12:28 de transparence,
12:29 desquelles nous avons vu
12:30 dans les rapports d'avant
12:31 déjà publiés
12:32 il y a quelques semaines.
12:33 Et, important pour nos purposes,
12:34 comme déjà mentionné par Ilaria,
12:35 il donne aux régulateurs
12:36 le pouvoir
12:37 de faire des recherches
12:38 sur les données
12:39 qui sont dédiées
12:40 à des informations
12:41 et qui permettent
12:42 de demander
12:43 aux chercheurs
12:44 dédiés
12:45 des données
12:46 pour que les chercheurs
12:47 puissent faire
12:48 le type d'analyse
12:49 que mon collègue
12:50 a décrit
12:51 et participer
12:52 au réchauffement,
12:53 mais aussi vraiment
12:54 comprendre
12:55 les dynamiques
12:56 qui sous-estiment
12:57 ce phénomène
12:58 sur les médias sociaux.
12:59 Donc, en gros,
13:00 la DSA a besoin
13:01 de VLOGs et de VLCs
13:04 pour publier
13:05 des rapports de transparence.
13:06 Et c'est un exemple
13:09 que je dessine
13:10 ce que nous avons vu
13:11 dans les dernières semaines
13:12 avec les rapports de transparence
13:13 parce que nous pensons
13:14 que le problème
13:15 ou les défis
13:16 que nous verrons
13:17 avec l'accès aux données
13:18 par les chercheurs
13:19 seront similaires.
13:20 Les médias,
13:21 qui ont déjà
13:22 regardé ces rapports
13:24 et aussi certains académiques,
13:26 disent que les rapports
13:28 sont, par exemple,
13:29 difficiles à comparer
13:30 avec les autres.
13:31 Que signifie-t-il
13:32 que Facebook
13:33 enlève
13:34 X quantité de contenu
13:36 contre,
13:37 bien,
13:38 Twitter,
13:39 où X est clairement
13:40 anonymisé,
13:41 mais, par exemple,
13:42 Youtube ou TikTok?
13:43 Que signifie-t-il?
13:44 Comment comparer
13:45 leurs différentes actions?
13:46 Ou que signifie-t-il
13:47 qu'il y a
13:48 un type particulier
13:49 de détachement
13:50 ou de mécanisme
13:51 dont ils répondent
13:52 à des demandes
13:53 dans X nombre d'heures
13:54 ou jours?
13:55 Donc, un des défis
13:56 que nous vivons déjà
13:57 en regardant
13:58 les rapports de transparence
13:59 uniquement,
14:00 c'est que c'est de l'information
14:01 difficile à mettre en contexte.
14:03 C'est difficile à mettre
14:04 dans le système plus large
14:05 de ce que nous voyons.
14:07 Et c'est, en fait,
14:09 un problème
14:10 d'inconnus et d'inconnus.
14:11 Nous ne savons pas vraiment
14:12 ce que c'est le système
14:13 que nous regardons,
14:14 et, donc, même
14:15 quand l'information
14:16 est si proche,
14:17 c'est difficile à comprendre
14:18 les dynamiques plus élevées.
14:20 Un défi accentué, peut-être,
14:22 comme l'a décrit mon collègue,
14:24 c'est que beaucoup
14:25 de la recherche que nous connaissons
14:26 a été produite
14:27 aux Etats-Unis.
14:28 Donc, certaines des métriques
14:29 que nous pourrions avoir
14:30 en priorité
14:31 concernant la polarisation
14:33 ou la désinformation
14:34 sont influencées ou non
14:36 par le contenu social,
14:37 sont décrits
14:38 dans un contexte politique différent
14:40 où les dynamiques
14:41 peuvent être simplement
14:42 très différentes.
14:44 Cela signifie,
14:46 de notre point de vue,
14:47 que c'est important
14:49 de créer des données
14:50 auxquelles les chercheurs
14:51 sont invités,
14:52 et que les agences d'enforcement
14:54 demandent des données
14:56 aux chercheurs.
14:58 C'est important
14:59 de demander des données
15:00 qui sont étroites
15:02 pour que les chercheurs
15:04 puissent développer lentement
15:06 ces frameworks
15:07 pour situer leurs demandes
15:08 et leurs découvertes
15:10 dans le contexte spécifique.
15:12 Cela va être difficile
15:15 car, comme je vous montrerai
15:16 dans la prochaine vidéo,
15:18 les demandes doivent être
15:19 récentes et proportionnelles.
15:21 Pour terminer rapidement,
15:23 ce sont quelques exemples
15:25 de la désinformation.
15:28 Un exemple très rapide
15:31 est que
15:32 il peut y avoir des attaques
15:34 coordonnées, par exemple,
15:35 qui sont politiquement correctes.
15:37 C'est quelque chose
15:38 qui a été en fait
15:39 plus souvent
15:40 dans la conversation
15:41 de la génération de l'IA,
15:42 mais la CGPT est très bonne
15:44 à être poli
15:45 et antisémite
15:46 en même temps.
15:47 Cela le fait
15:49 à travers le règle
15:50 de la modération du contenu.
15:51 C'est donc le contenu
15:52 qui n'est pas identifié
15:53 par l'outil
15:54 comme antisémite,
15:55 alors que si c'est très blanc,
15:56 c'est le cas.
15:57 C'est ce contenu
15:58 qui fait la différence.
15:59 Vous pouvez avoir
16:00 beaucoup de contenu
16:01 qui est très viral
16:02 et qui ne fait pas la différence.
16:04 C'est quelque chose
16:05 qui va être très difficile
16:06 de voir,
16:07 pour lequel nous discutons.
16:08 Nous devons avoir
16:09 des frameworks plus brésiliens
16:10 d'accès à l'information,
16:11 parce que sinon,
16:12 nous allons
16:13 faire des tests
16:14 sur des choses
16:15 que nous ne mettons pas
16:16 en contexte, comme je disais.
16:17 Nous aurons entendu dire
16:18 par Twitter,
16:19 par NowX,
16:20 qu'ils enlèvent
16:21 autant de contenu antisémite
16:22 que le threshold
16:23 de l'analyse.
16:24 Je vais conclure ici.
16:25 Ce que nous disons
16:26 est que
16:27 le contenu
16:28 est un threshold
16:29 qui demande aux chercheurs
16:30 de raisonner
16:31 leurs demandes.
16:32 Ce que nous
16:33 nous advocons pour,
16:34 finalement,
16:35 c'est que cette raison,
16:36 surtout au début,
16:37 va devoir être élevée
16:38 et nous allons devoir
16:39 pousser les limites
16:40 de ce qui va être
16:41 considéré
16:42 de manière proportionnelle.
16:43 Il y aura des problèmes
16:44 sur le secret de l'exchange,
16:45 comme mes collègues
16:46 l'expliquaient avant.
16:47 Mais surtout,
16:48 pour que ce type de demande
16:49 soit significatif
16:50 pour la recherche,
16:51 nous aurons
16:52 besoin
16:53 d'un threshold
16:54 qui est plus large
16:55 et plus large
16:56 que le threshold
16:57 de l'analyse.
16:58 Nous devons expander
16:59 ce qui sera
17:00 un threshold
17:01 de ce type
17:02 de accès proportionnel
17:03 et limité
17:04 que les plateformes
17:05 pourraient être
17:06 advocatées pour.
17:07 Nous allons laisser
17:08 le reste pour la Q&A.
17:09 Merci.
17:10 [Applaudissements]

Recommandations