Sous le capot : comment ChatGPT crawle un site média (et comment ce dernier peut s'y opposer) - Vidéo Dailymotion

Passer au player Passer au contenu principal

il y a 10 mois

Nouvel épisode de notre rubrique “Sous le capot”, une rubrique qui a vocation à vous éclairer sur quelques-unes des pratiques structurantes du marché de la publicité digitale. Cette semaine, Paul Ripart, directeur commercial programmatique de Prisma Media Solutions, nous explique comment un site média peut décider ou non de nourrir ChatGPT.

Catégorie

Transcription

Afficher la transcription complète de la vidéo

00:00Les actions en justice d'éditeurs se multiplient contre OpenAI, que cela soit au Danemark,

00:12aux Etats-Unis ou même en France. Il faut dire que les éditeurs de contenu reprochent

00:18à l'éditeur de ChatGPT de violer le droit d'auteur en leur volant l'intégralité de

00:25leur contenu. Comment est-ce que ChatGPT fait ça techniquement ? C'est assez simple, ChatGPT

00:31va crawler un contenu, donc mettre des robots et aspirer l'ensemble du contenu qui a été

00:36publié par ses éditeurs, souvent à leur insu. Comment savoir quels sont les éditeurs

00:41qui veulent bien travailler avec ChatGPT et donc avec OpenAI ? Certains sont bien d'accord

00:44et d'autres qui refusent. Pour cela, c'est assez simple techniquement. Vous allez prendre

00:49l'éditeur que vous voulez du coup observer. Je vais vous prendre le cas par exemple du

00:54Figaro. Donc je vais prendre le figaro.fr, vous écrivez le figaro.fr, vous mettez

01:00slash robot.txt. Un fichier va s'ouvrir et vous allez voir l'ensemble des robots, l'ensemble

01:08des crawlers qui sont autorisés et ceux qui sont refusés par la société Le Figaro.

01:12Pour les autoriser, c'est assez simple, vous écrivez le nom du crawler et vous écrivez

01:16Hello. Et pour les refusés, c'est assez simple, vous écrivez le nom du crawler et vous écrivez

01:20Disalo. Si vous n'écrivez rien, on va dire c'est le qui ne dit rien consent. Si vous

01:25n'écrivez rien, le robot va dire ok j'ai le droit. On va regarder ce que Le Figaro

01:29fait pour ChatGPT. Alors sur ChatGPT, en fait en vrai ChatGPT ce n'est pas un crawler, mais

01:37c'est trois crawlers qui sont mis en place par OpenAI. Il y a un crawler qui s'appelle

01:42le GPTBoot qui va être lui le bot d'entraînement. C'est celui qui va stocker, il va crawler

01:45et il va prendre, il va stocker. Et ensuite, deux autres crawlers qui vont plutôt servir

01:50à faire des recherches sur le web. Quand vous faites une recherche plutôt en temps réel,

01:54qui est le leader du classement de Libyen par exemple, le GPT va avoir besoin de faire

01:58cette recherche sur Internet. Et donc là, c'est deux autres crawlers qui s'appellent

02:01ChatGPTUser et OpenAI SearchBot qui vont être utilisés. Ce qu'on peut voir ici, c'est

02:07que la société Le Figaro refuse ChatGPTUser. Vous voyez bien ChatGPTUser et vous voyez

02:14bien qu'il est en diselo. Donc refuse ChatGPTUser le soin de faire des recherches

02:19sur le web pour avoir des actualités. Pareil sur la fonction GPTBoot qui est refusée

02:24également par la société Le Figaro, c'est-à-dire que OpenAI n'a pas le droit d'extraire

02:30le contenu, de prendre le contenu et de le stocker. D'autres éditeurs ont des approches

02:34un peu différentes. Je vais vous prendre le cas par exemple ici de Capital. Capital, ce

02:39que vous voyez, c'est que les bots, les deux bots qui vont servir du coup à faire des

02:43recherches web, pas à stocker, on ne parle pas ici de GPTBoot, les bots qui vont faire

02:47de la recherche sur le web pour avoir de l'actualité mais sans la stocker, sans servir de modèle

02:50d'entraînement, sont ici en Hello par exemple par la société Capital qui va autoriser

02:57du coup ces bots pour de la recherche sur le web. Et il y a d'autres sociétés que vous

03:02pouvez voir, je vais prendre ici le cas de Numéramin, donc numéramin.com.com.txt

03:06qui lui va avoir en tout cas une politique assez différente et que vous pouvez voir

03:12ici. Donc le bot d'entraînement de chat GPT que vous voyez ici, GPTBoot, qui va servir

03:17du coup à collecter la donnée, à servir de modèle d'entraînement et lui autoriser.

03:22Et les deux autres bots de chat GPT, celui qui est ici, vous pouvez voir les deux bots

03:27ici qui vont servir plutôt pour la partie web et faire des recherches plutôt comme

03:31un peu vous pourrez faire en moteur de recherche, sont eux des bots qui sont également

03:36acceptés. Donc Numérama va utiliser l'ensemble des trois bots de chat GPT.

03:40Et ceci est valable du coup pour tous les robots, les robots que ce soit un robot de

03:43Google, vous pouvez donc du coup via votre robot.txt, en tant qu'éditeur de site, les

03:50allow, les accepter ou les disallow et donc les refuser.

03:54Merci.

03:54Merci.

03:55Merci.

03:56Merci.

03:57Merci.

03:58Merci.

03:59Merci.

04:00Merci.

04:01Merci.

Commentaires

Ajoute ton commentaire

Recommandations

Sous le capot : comment voir quelles adtech exploitent vos données de consentement

il y a 10 mois

Sous le capot #3 : Comment booster son taux d’attention sur l’Open Internet

il y a 1 an

Prisma Media s'offre Groupe Cerise et se renforce dans le numérique - 30/05

il y a 10 ans

Media Buyers Club #9 : Comment investir plus (et mieux) l'Open Internet avec Julien Lamb (Nestlé)

il y a 9 mois

Media Buyers CLub #8 : L’IA au service de la création et du média avec France Cresson (Club Med)

il y a 9 mois

L'interview de Geoffroy Martin, CEO d'Ogury

il y a 1 an

Cannes Lions #4 : retour sur une semaine placée sous le signe de l'IA et de la CTV

il y a 1 an

Cannes Lions Daily #3 : le deal TF1 - Netflix, l'adaptative identity d'ID5 et la vague AI agentique

il y a 1 an

Cannes Lions Daily #2 : L’arrivée de la pub sur WhatsApp, une plateforme commune pour les broadcasters anglais, la vague IA agentique

il y a 1 an

Cannes Lions Daily #1 : Amazon et Roku, Paypal Ads, Agent IA et agences médias

il y a 1 an

L'interview d'Odine van den Broeke, retail media lead chez Hema

il y a 1 an

Media Buyers Club #7 : faut-il faire confiance aux algos d'automatisation de Google et Meta ?

il y a 1 an

CTV Innovators, l'édition 2025 comme si vous y étiez

il y a 1 an

Media Buyers Club #6 : Pourquoi on vous parle d'unified marketing measurement (MMM)

il y a 1 an

Sous le capot #4 : Comment mesurer (gratuitement) le trafic que vous apportent les LLM

il y a 1 an

Media buyers club #5 : Comment toucher les 15-34 ans en (C)TV avec Mickael Delinotte (KFC)

il y a 1 an

Media Buyers Club #4 : Comment Ollivier Monferran (Essity) optimise ses budgets médias à l'aune de l'attention

il y a 1 an

Media Buyers Club #3 : ce que la fragmentation du search change pour les marques

il y a 1 an

Sous le capot #2 : Comment brancher une CDP composable en 6 minutes chrono

il y a 1 an

Media Buyers Club #2 : Ce que change l’arrivée de Meridian, le MMM open source de Google

il y a 1 an

Sous le capot #1 : Comment un éditeur partage ses données à des tiers

il y a 1 an

Media Buyers Club #1 : Tout comprendre à la mesure cross-media vidéo

il y a 1 an

If You Only Knew: Danny Pudi

Larry King Now on Ora.TV

il y a 6 ans

'Get Out' (Universal Pictures) — In Theaters Now!

il y a 9 ans

How To Carve a Turkey Like A Pro

il y a 6 ans