GPT‑5.2 quais são as primeiras impressões sobre o novo modelo de IA

Name: GPT‑5.2 quais são as primeiras impressões sobre o novo modelo de IA
Uploaded: 2025-12-13T00:06:33+00:00
Duration: 7 min 1 s
Channel: Olhar Digital
Description: Veja GPT‑5.2 quais são as primeiras impressões sobre o novo modelo de IA - Olhar Digital no Dailymotion

Olhar Digital

há 6 meses

Categoria

🤖

Tecnologia

Transcrição

Exibir transcrição completa do vídeo

00:00E falando em chat GPT, o nosso colunista Roberto Pena Spinelli, físico pela Universidade de São Paulo,

00:08com especialidade em Machine Learning por Stanford, testou o novo modelo GPT 5.2.

00:16Lembram que falamos com ele sobre isso? Pois é, ele testou. Vamos acompanhar agora as primeiras impressões.

00:24Então, boa noite e seja muito bem-vindo, Pena.

00:27E aí, Marisa, tudo bem? Vim aqui invadir, fora do meu dia normal, para dar notícias sobre o GPT 5.2, que sim, chegou.

00:37A gente falou que viria essa semana e veio mesmo a pressão ali de liberar aquela coisa que a gente falou da corrida,

00:43a UPNEI sentindo pressionada, alerta vermelho, liberou. E o que a gente viu?

00:48Olha, as impressões iniciais são excelentes, tá?

00:53Claro que a gente está no dia do lançamento, ainda tem que baixar um pouco esse hype,

00:58deixar um pouco aí a galera usar um pouco mais.

01:00Eu já usei, já testei, vou contar um pouco também do que eu testei.

01:03Mas, aparentemente, a gente está vendo uma coisa muito boa e a UPNEI conseguiu bater de frente com os concorrentes,

01:13que estavam vindo, principalmente com a Google, que veio a todo vapor.

01:16Então, o que a gente pode falar sobre o GPT 5.2?

01:20Ele está ali, ele é um dos modelos que está concorrendo ali, pau a pau com os outros,

01:24mas se a gente olhar na questão, num dos benchmarks, num desses testes de software, o SWE,

01:31que basicamente é de código, quem ainda está na frente é o Cloud.

01:36O que faz sentido, porque a Anthrop, que é a fabricante do Cloud,

01:40ela colocou todas as fichas nesse mercado, porque eles atendem principalmente empresas na questão de programação.

01:47Só que eu vou te falar, Marisa, que o GPT 5.2 ficou ali, ó, um degrauzinho para baixo,

01:53então, digamos que é quase um empate técnico.

01:56Está entregando aí, basicamente, a mesma qualidade.

01:58O Gemini ficou um pouquinho atrás nesse quesito, mas, normalmente, estão todos ali muito próximos.

02:04Quando a gente vai olhar no outro teste, que é o Humanities Last Exam,

02:08basicamente um teste sobre perguntas muito difíceis, sobre várias áreas de conhecimento,

02:14quem está na frente é o Gemini.

02:16O Gemini ali, o 3 está, o Pro está melhor,

02:20aí a gente vê depois o 5.2, o GPT 5.2 e, por final, o Cloud.

02:27Agora, o benchmark que realmente salta os olhos é o Arc AGI 2,

02:33que é um sobre raciocínio abstrato.

02:36É um desses benchmarks que você não consegue,

02:39que exige muito um pensamento, assim, você não consegue memorizar dados.

02:43É uma coisa mais, precisa ali de uma abstração.

02:46E nesse, por alguns critérios, porque também tem muitos critérios como definir isso,

02:51mas em algum dos critérios ali, o GPT 5.2 disparou ali, ficou mais em evidência.

02:57Então, beleza, a gente está vendo aí que estão todos ali no mesmo par,

03:01alguns um pouco para frente, para trás.

03:03Mas o que a gente pode falar?

03:04Taxa de alucinação, que é um dos problemas que a gente tem nos nossos LLMs, nos nossos modelos.

03:09A UPNA reportou isso, eu não consegui testar, porque precisa de muitos testes,

03:12mas reportou que baixou bastante comparado ao GPT 5.1 e o 5.

03:18Então, os modelos estão ficando mais inteligentes e inventando menos coisas,

03:23que é ótimo para a gente.

03:24Mas então, a gente tem mais coisas interessantes,

03:26porque a OpenAI, quando ela anunciou esse modelo,

03:30está dizendo que qual que é a grande questão, o que ele é melhor aí,

03:35é nas tarefas de valor, com valor econômico real.

03:39Ou seja, tarefas de verdade que as pessoas vão fazer nos seus trabalhos,

03:43planilha de Excel, porque muitos desses benchmarks são coisas,

03:49pergunta do Enem, sei lá, várias coisas, coisas muito variadas.

03:55E não necessariamente quando você chega na vida real, na prática ali,

03:58você vai colocar ele para usar no seu trabalho, aí ele não entrega nada daquilo.

04:02Então, a OpenAI está dizendo que para essas tarefas é o maior salto que eles deram.

04:07Então, tem um dos benchmarks, que é o GDP Evol,

04:12que basicamente mede isso, são tarefas meio que do dia a dia,

04:15escolheram 14 profissões e pegam várias tarefas dessas profissões.

04:20E esse modelo, o GPT 5.2, tecnicamente é o melhor resultado.

04:27Só que eles não mostraram os concorrentes.

04:29Então, eles compararam só com os modelos anteriores,

04:32realmente tem um salto muito grande ali.

04:34Mas a gente queria de verdade ver como é que o Gemini 3 está também performando ali.

04:40Até porque tem um dos testes que eles colocaram, que é o teste de visão.

04:44Colocaram lá o placa-mãe para o GPT 5.2 identificar os componentes.

04:49Mostrou que ele está identificando muito bem já a versão anterior, 5.1.

04:53Meio que não entendia direito ali os componentes.

04:56Só que quando a gente vai olhar o Gemini nessa mesma tarefa,

04:59o Gemini, ele identifica basicamente certinho cada componente.

05:04Então, na visão, na questão visual, o Gemini ainda está na frente.

05:09E aí eu fiz os meus próprios testes, Marisa.

05:12Resolvi fazer meus testes.

05:14Um dos testes que eu gosto de fazer é,

05:15crie uma caneca 3D, assim, mostra para mim, faz aí do jeito que você quiser.

05:19E o tanto, eu testei o Gemini 3 e o GPT 5.2.

05:26E os dois foram bem, tá?

05:28No primeiro prompt, os dois deram uma erradinha.

05:31A caneca veio sem alça num, depois a alça acertou, no outro veio...

05:36Mas os dois conseguiram atender.

05:39Então, beleza.

05:40Aí um outro teste que eu fiz é um teste de gerar uma simulação de um monte de bolinhas

05:45dentro de um hexágono maluco girando.

05:47E os dois também foram bem.

05:49O Gemini entregou um pouco mais rápido.

05:51O 5.2, tive que dar um segundo prompt porque ele tinha errado alguma coisa.

05:56Enfim, não compilou.

05:57E aí ele entregou também muito bem.

05:59Então, do que eu posso avaliar, Marisa?

06:01O que está todo mundo meio que...

06:03As outras pessoas que estão fazendo é que o GPT 5.2 está entregando no mesmo nível.

06:07Um pouquinho maior, um pouquinho menor, depende da avaliação.

06:11Mas está lá.

06:12A corrida segue franca.

06:14A OpenAI, digamos, conseguiu rever esse posto

06:17que ela tinha talvez perdido nas últimas semanas

06:20e ela conseguiu estar ali cravando de novo.

06:23O que a gente tem que saber é os próximos, Marisa,

06:25porque agora a corrida se acelera.

06:28Não sei se para bem ou para mal.

06:30A gente está vivendo esse mundo maluco.

06:31Mas é isso, então.

06:33Essa foi a avaliação do GPT 5.2.

06:35Até mais!

06:38Tá aí!

06:39Até mais, Pena!

06:40Super obrigada por essa participação especial aqui hoje,

06:45dando essa visão sobre o chat GPT 5.2.

06:50Como você mesmo disse,

06:51vamos aguardar os próximos capítulos dessa corrida

06:55para ver o que acontece.

06:57Muito obrigada e um excelente fim de semana para você, Pena!

07:00E aí

Comentários

Adicionar seu comentário

GPT‑5.2 quais são as primeiras impressões sobre o novo modelo de IA

Categoria

Transcrição

Comentários

Recomendado