00:00Les actions en justice d'éditeurs se multiplient contre OpenAI, que cela soit au Danemark,
00:12aux Etats-Unis ou même en France. Il faut dire que les éditeurs de contenu reprochent
00:18à l'éditeur de ChatGPT de violer le droit d'auteur en leur volant l'intégralité de
00:25leur contenu. Comment est-ce que ChatGPT fait ça techniquement ? C'est assez simple, ChatGPT
00:31va crawler un contenu, donc mettre des robots et aspirer l'ensemble du contenu qui a été
00:36publié par ses éditeurs, souvent à leur insu. Comment savoir quels sont les éditeurs
00:41qui veulent bien travailler avec ChatGPT et donc avec OpenAI ? Certains sont bien d'accord
00:44et d'autres qui refusent. Pour cela, c'est assez simple techniquement. Vous allez prendre
00:49l'éditeur que vous voulez du coup observer. Je vais vous prendre le cas par exemple du
00:54Figaro. Donc je vais prendre le figaro.fr, vous écrivez le figaro.fr, vous mettez
01:00slash robot.txt. Un fichier va s'ouvrir et vous allez voir l'ensemble des robots, l'ensemble
01:08des crawlers qui sont autorisés et ceux qui sont refusés par la société Le Figaro.
01:12Pour les autoriser, c'est assez simple, vous écrivez le nom du crawler et vous écrivez
01:16Hello. Et pour les refusés, c'est assez simple, vous écrivez le nom du crawler et vous écrivez
01:20Disalo. Si vous n'écrivez rien, on va dire c'est le qui ne dit rien consent. Si vous
01:25n'écrivez rien, le robot va dire ok j'ai le droit. On va regarder ce que Le Figaro
01:29fait pour ChatGPT. Alors sur ChatGPT, en fait en vrai ChatGPT ce n'est pas un crawler, mais
01:37c'est trois crawlers qui sont mis en place par OpenAI. Il y a un crawler qui s'appelle
01:42le GPTBoot qui va être lui le bot d'entraînement. C'est celui qui va stocker, il va crawler
01:45et il va prendre, il va stocker. Et ensuite, deux autres crawlers qui vont plutôt servir
01:50à faire des recherches sur le web. Quand vous faites une recherche plutôt en temps réel,
01:54qui est le leader du classement de Libyen par exemple, le GPT va avoir besoin de faire
01:58cette recherche sur Internet. Et donc là, c'est deux autres crawlers qui s'appellent
02:01ChatGPTUser et OpenAI SearchBot qui vont être utilisés. Ce qu'on peut voir ici, c'est
02:07que la société Le Figaro refuse ChatGPTUser. Vous voyez bien ChatGPTUser et vous voyez
02:14bien qu'il est en diselo. Donc refuse ChatGPTUser le soin de faire des recherches
02:19sur le web pour avoir des actualités. Pareil sur la fonction GPTBoot qui est refusée
02:24également par la société Le Figaro, c'est-à-dire que OpenAI n'a pas le droit d'extraire
02:30le contenu, de prendre le contenu et de le stocker. D'autres éditeurs ont des approches
02:34un peu différentes. Je vais vous prendre le cas par exemple ici de Capital. Capital, ce
02:39que vous voyez, c'est que les bots, les deux bots qui vont servir du coup à faire des
02:43recherches web, pas à stocker, on ne parle pas ici de GPTBoot, les bots qui vont faire
02:47de la recherche sur le web pour avoir de l'actualité mais sans la stocker, sans servir de modèle
02:50d'entraînement, sont ici en Hello par exemple par la société Capital qui va autoriser
02:57du coup ces bots pour de la recherche sur le web. Et il y a d'autres sociétés que vous
03:02pouvez voir, je vais prendre ici le cas de Numéramin, donc numéramin.com.com.txt
03:06qui lui va avoir en tout cas une politique assez différente et que vous pouvez voir
03:12ici. Donc le bot d'entraînement de chat GPT que vous voyez ici, GPTBoot, qui va servir
03:17du coup à collecter la donnée, à servir de modèle d'entraînement et lui autoriser.
03:22Et les deux autres bots de chat GPT, celui qui est ici, vous pouvez voir les deux bots
03:27ici qui vont servir plutôt pour la partie web et faire des recherches plutôt comme
03:31un peu vous pourrez faire en moteur de recherche, sont eux des bots qui sont également
03:36acceptés. Donc Numérama va utiliser l'ensemble des trois bots de chat GPT.
03:40Et ceci est valable du coup pour tous les robots, les robots que ce soit un robot de
03:43Google, vous pouvez donc du coup via votre robot.txt, en tant qu'éditeur de site, les
03:50allow, les accepter ou les disallow et donc les refuser.
03:54Merci.
03:54Merci.
03:55Merci.
03:56Merci.
03:57Merci.
03:58Merci.
03:59Merci.
04:00Merci.
04:01Merci.
Commentaires