Passer au playerPasser au contenu principal
  • il y a 2 semaines
Nouvel épisode de notre rubrique “Sous le capot”, une rubrique qui a vocation à vous éclairer sur quelques-unes des pratiques structurantes du marché de la publicité digitale. Cette semaine, Paul Ripart, directeur commercial programmatique de Prisma Media Solutions, nous explique comment un site média peut décider ou non de nourrir ChatGPT.

Catégorie

🤖
Technologie
Transcription
00:00Les actions en justice d'éditeurs se multiplient contre OpenAI, que cela soit au Danemark,
00:12aux Etats-Unis ou même en France. Il faut dire que les éditeurs de contenu reprochent
00:18à l'éditeur de ChatGPT de violer le droit d'auteur en leur volant l'intégralité de
00:25leur contenu. Comment est-ce que ChatGPT fait ça techniquement ? C'est assez simple, ChatGPT
00:31va crawler un contenu, donc mettre des robots et aspirer l'ensemble du contenu qui a été
00:36publié par ses éditeurs, souvent à leur insu. Comment savoir quels sont les éditeurs
00:41qui veulent bien travailler avec ChatGPT et donc avec OpenAI ? Certains sont bien d'accord
00:44et d'autres qui refusent. Pour cela, c'est assez simple techniquement. Vous allez prendre
00:49l'éditeur que vous voulez du coup observer. Je vais vous prendre le cas par exemple du
00:54Figaro. Donc je vais prendre le figaro.fr, vous écrivez le figaro.fr, vous mettez
01:00slash robot.txt. Un fichier va s'ouvrir et vous allez voir l'ensemble des robots, l'ensemble
01:08des crawlers qui sont autorisés et ceux qui sont refusés par la société Le Figaro.
01:12Pour les autoriser, c'est assez simple, vous écrivez le nom du crawler et vous écrivez
01:16Hello. Et pour les refusés, c'est assez simple, vous écrivez le nom du crawler et vous écrivez
01:20Disalo. Si vous n'écrivez rien, on va dire c'est le qui ne dit rien consent. Si vous
01:25n'écrivez rien, le robot va dire ok j'ai le droit. On va regarder ce que Le Figaro
01:29fait pour ChatGPT. Alors sur ChatGPT, en fait en vrai ChatGPT ce n'est pas un crawler, mais
01:37c'est trois crawlers qui sont mis en place par OpenAI. Il y a un crawler qui s'appelle
01:42le GPTBoot qui va être lui le bot d'entraînement. C'est celui qui va stocker, il va crawler
01:45et il va prendre, il va stocker. Et ensuite, deux autres crawlers qui vont plutôt servir
01:50à faire des recherches sur le web. Quand vous faites une recherche plutôt en temps réel,
01:54qui est le leader du classement de Libyen par exemple, le GPT va avoir besoin de faire
01:58cette recherche sur Internet. Et donc là, c'est deux autres crawlers qui s'appellent
02:01ChatGPTUser et OpenAI SearchBot qui vont être utilisés. Ce qu'on peut voir ici, c'est
02:07que la société Le Figaro refuse ChatGPTUser. Vous voyez bien ChatGPTUser et vous voyez
02:14bien qu'il est en diselo. Donc refuse ChatGPTUser le soin de faire des recherches
02:19sur le web pour avoir des actualités. Pareil sur la fonction GPTBoot qui est refusée
02:24également par la société Le Figaro, c'est-à-dire que OpenAI n'a pas le droit d'extraire
02:30le contenu, de prendre le contenu et de le stocker. D'autres éditeurs ont des approches
02:34un peu différentes. Je vais vous prendre le cas par exemple ici de Capital. Capital, ce
02:39que vous voyez, c'est que les bots, les deux bots qui vont servir du coup à faire des
02:43recherches web, pas à stocker, on ne parle pas ici de GPTBoot, les bots qui vont faire
02:47de la recherche sur le web pour avoir de l'actualité mais sans la stocker, sans servir de modèle
02:50d'entraînement, sont ici en Hello par exemple par la société Capital qui va autoriser
02:57du coup ces bots pour de la recherche sur le web. Et il y a d'autres sociétés que vous
03:02pouvez voir, je vais prendre ici le cas de Numéramin, donc numéramin.com.com.txt
03:06qui lui va avoir en tout cas une politique assez différente et que vous pouvez voir
03:12ici. Donc le bot d'entraînement de chat GPT que vous voyez ici, GPTBoot, qui va servir
03:17du coup à collecter la donnée, à servir de modèle d'entraînement et lui autoriser.
03:22Et les deux autres bots de chat GPT, celui qui est ici, vous pouvez voir les deux bots
03:27ici qui vont servir plutôt pour la partie web et faire des recherches plutôt comme
03:31un peu vous pourrez faire en moteur de recherche, sont eux des bots qui sont également
03:36acceptés. Donc Numérama va utiliser l'ensemble des trois bots de chat GPT.
03:40Et ceci est valable du coup pour tous les robots, les robots que ce soit un robot de
03:43Google, vous pouvez donc du coup via votre robot.txt, en tant qu'éditeur de site, les
03:50allow, les accepter ou les disallow et donc les refuser.
03:54Merci.
03:54Merci.
03:55Merci.
03:56Merci.
03:57Merci.
03:58Merci.
03:59Merci.
04:00Merci.
04:01Merci.
Écris le tout premier commentaire
Ajoute ton commentaire

Recommandations