Pular para o playerIr para o conteúdo principal
  • há 6 minutos
Transcrição
00:00E falando em chat GPT, o nosso colunista Roberto Pena Spinelli, físico pela Universidade de São Paulo,
00:08com especialidade em Machine Learning por Stanford, testou o novo modelo GPT 5.2.
00:16Lembram que falamos com ele sobre isso? Pois é, ele testou. Vamos acompanhar agora as primeiras impressões.
00:24Então, boa noite e seja muito bem-vindo, Pena.
00:27E aí, Marisa, tudo bem? Vim aqui invadir, fora do meu dia normal, para dar notícias sobre o GPT 5.2, que sim, chegou.
00:37A gente falou que viria essa semana e veio mesmo a pressão ali de liberar aquela coisa que a gente falou da corrida,
00:43a UPNEI sentindo pressionada, alerta vermelho, liberou. E o que a gente viu?
00:48Olha, as impressões iniciais são excelentes, tá?
00:53Claro que a gente está no dia do lançamento, ainda tem que baixar um pouco esse hype,
00:58deixar um pouco aí a galera usar um pouco mais.
01:00Eu já usei, já testei, vou contar um pouco também do que eu testei.
01:03Mas, aparentemente, a gente está vendo uma coisa muito boa e a UPNEI conseguiu bater de frente com os concorrentes,
01:13que estavam vindo, principalmente com a Google, que veio a todo vapor.
01:16Então, o que a gente pode falar sobre o GPT 5.2?
01:20Ele está ali, ele é um dos modelos que está concorrendo ali, pau a pau com os outros,
01:24mas se a gente olhar na questão, num dos benchmarks, num desses testes de software, o SWE,
01:31que basicamente é de código, quem ainda está na frente é o Cloud.
01:36O que faz sentido, porque a Anthrop, que é a fabricante do Cloud,
01:40ela colocou todas as fichas nesse mercado, porque eles atendem principalmente empresas na questão de programação.
01:47Só que eu vou te falar, Marisa, que o GPT 5.2 ficou ali, ó, um degrauzinho para baixo,
01:53então, digamos que é quase um empate técnico.
01:56Está entregando aí, basicamente, a mesma qualidade.
01:58O Gemini ficou um pouquinho atrás nesse quesito, mas, normalmente, estão todos ali muito próximos.
02:04Quando a gente vai olhar no outro teste, que é o Humanities Last Exam,
02:08basicamente um teste sobre perguntas muito difíceis, sobre várias áreas de conhecimento,
02:14quem está na frente é o Gemini.
02:16O Gemini ali, o 3 está, o Pro está melhor,
02:20aí a gente vê depois o 5.2, o GPT 5.2 e, por final, o Cloud.
02:27Agora, o benchmark que realmente salta os olhos é o Arc AGI 2,
02:33que é um sobre raciocínio abstrato.
02:36É um desses benchmarks que você não consegue,
02:39que exige muito um pensamento, assim, você não consegue memorizar dados.
02:43É uma coisa mais, precisa ali de uma abstração.
02:46E nesse, por alguns critérios, porque também tem muitos critérios como definir isso,
02:51mas em algum dos critérios ali, o GPT 5.2 disparou ali, ficou mais em evidência.
02:57Então, beleza, a gente está vendo aí que estão todos ali no mesmo par,
03:01alguns um pouco para frente, para trás.
03:03Mas o que a gente pode falar?
03:04Taxa de alucinação, que é um dos problemas que a gente tem nos nossos LLMs, nos nossos modelos.
03:09A UPNA reportou isso, eu não consegui testar, porque precisa de muitos testes,
03:12mas reportou que baixou bastante comparado ao GPT 5.1 e o 5.
03:18Então, os modelos estão ficando mais inteligentes e inventando menos coisas,
03:23que é ótimo para a gente.
03:24Mas então, a gente tem mais coisas interessantes,
03:26porque a OpenAI, quando ela anunciou esse modelo,
03:30está dizendo que qual que é a grande questão, o que ele é melhor aí,
03:35é nas tarefas de valor, com valor econômico real.
03:39Ou seja, tarefas de verdade que as pessoas vão fazer nos seus trabalhos,
03:43planilha de Excel, porque muitos desses benchmarks são coisas,
03:49pergunta do Enem, sei lá, várias coisas, coisas muito variadas.
03:55E não necessariamente quando você chega na vida real, na prática ali,
03:58você vai colocar ele para usar no seu trabalho, aí ele não entrega nada daquilo.
04:02Então, a OpenAI está dizendo que para essas tarefas é o maior salto que eles deram.
04:07Então, tem um dos benchmarks, que é o GDP Evol,
04:12que basicamente mede isso, são tarefas meio que do dia a dia,
04:15escolheram 14 profissões e pegam várias tarefas dessas profissões.
04:20E esse modelo, o GPT 5.2, tecnicamente é o melhor resultado.
04:27Só que eles não mostraram os concorrentes.
04:29Então, eles compararam só com os modelos anteriores,
04:32realmente tem um salto muito grande ali.
04:34Mas a gente queria de verdade ver como é que o Gemini 3 está também performando ali.
04:40Até porque tem um dos testes que eles colocaram, que é o teste de visão.
04:44Colocaram lá o placa-mãe para o GPT 5.2 identificar os componentes.
04:49Mostrou que ele está identificando muito bem já a versão anterior, 5.1.
04:53Meio que não entendia direito ali os componentes.
04:56Só que quando a gente vai olhar o Gemini nessa mesma tarefa,
04:59o Gemini, ele identifica basicamente certinho cada componente.
05:04Então, na visão, na questão visual, o Gemini ainda está na frente.
05:09E aí eu fiz os meus próprios testes, Marisa.
05:12Resolvi fazer meus testes.
05:14Um dos testes que eu gosto de fazer é,
05:15crie uma caneca 3D, assim, mostra para mim, faz aí do jeito que você quiser.
05:19E o tanto, eu testei o Gemini 3 e o GPT 5.2.
05:26E os dois foram bem, tá?
05:28No primeiro prompt, os dois deram uma erradinha.
05:31A caneca veio sem alça num, depois a alça acertou, no outro veio...
05:36Mas os dois conseguiram atender.
05:39Então, beleza.
05:40Aí um outro teste que eu fiz é um teste de gerar uma simulação de um monte de bolinhas
05:45dentro de um hexágono maluco girando.
05:47E os dois também foram bem.
05:49O Gemini entregou um pouco mais rápido.
05:51O 5.2, tive que dar um segundo prompt porque ele tinha errado alguma coisa.
05:56Enfim, não compilou.
05:57E aí ele entregou também muito bem.
05:59Então, do que eu posso avaliar, Marisa?
06:01O que está todo mundo meio que...
06:03As outras pessoas que estão fazendo é que o GPT 5.2 está entregando no mesmo nível.
06:07Um pouquinho maior, um pouquinho menor, depende da avaliação.
06:11Mas está lá.
06:12A corrida segue franca.
06:14A OpenAI, digamos, conseguiu rever esse posto
06:17que ela tinha talvez perdido nas últimas semanas
06:20e ela conseguiu estar ali cravando de novo.
06:23O que a gente tem que saber é os próximos, Marisa,
06:25porque agora a corrida se acelera.
06:28Não sei se para bem ou para mal.
06:30A gente está vivendo esse mundo maluco.
06:31Mas é isso, então.
06:33Essa foi a avaliação do GPT 5.2.
06:35Até mais!
06:38Tá aí!
06:39Até mais, Pena!
06:40Super obrigada por essa participação especial aqui hoje,
06:45dando essa visão sobre o chat GPT 5.2.
06:50Como você mesmo disse,
06:51vamos aguardar os próximos capítulos dessa corrida
06:55para ver o que acontece.
06:57Muito obrigada e um excelente fim de semana para você, Pena!
07:00E aí
Seja a primeira pessoa a comentar
Adicionar seu comentário

Recomendado