OpenAI. Image: Shutterstock/Decrypt

Em resumo

  • A OpenAI lançou o GPT-5.4 em meio à crescente reação negativa do QuitGPT sobre seu contrato de IA do Pentágono.
  • GPT-5.4 adiciona uma janela de contexto de 1 milhão de tokens, raciocínio mais forte e recursos de agência.
  • Os usuários corporativos se beneficiam mais, pois o GPT-5.4 oferece agentes de IA mais rápidos e com menos tokens.

A OpenAI começou a lançar o GPT-5.4 – seu modelo mais capaz até o momento – na quinta-feira, enquanto a empresa luta para conter uma crise de relações públicas que viu cerca de 2,5 milhões de usuários tomarem medidas contra a empresa, seja cancelando sua assinatura ou compartilhando o boicote nas redes sociais.

O chamado movimento QuitGPT explodiu depois que a OpenAI revelou um acordo com o Departamento de Defesa dos EUA horas depois que a Anthropic desistiu publicamente do mesmo contrato – rendendo ao fabricante Claude o desprezo público do presidente Trump e de outros funcionários do governo.

O ponto crítico da Antrópico: O DoD recusou-se a incluir linguagem que proibisse explicitamente a utilização de armas autónomas e a vigilância em massa de cidadãos dos EUA.

A OpenAI aceitou o acordo de qualquer maneira. O CEO Sam Altman, que tem respondido a perguntas sobre a aparente lacuna entre as linhas vermelhas de segurança declaradas pela sua empresa e a linguagem real do contrato, precisa desses usuários de volta.

Digite GPT-5.4… apenas dois dias após a introdução do GPT-5.3.

O novo modelo consolida raciocínio, codificação e capacidades de agente em uma única versão. Ele também possui um milhão de tokens de capacidade de contexto, o que significa que os usuários têm mais liberdade para lidar com grandes quantidades de informações em uma única sessão.

No papel, os números parecem promissores. No GDPval – um benchmark que testa o trabalho de conhecimento em 44 ocupações – o GPT-5.4 iguala ou supera os profissionais da indústria em 83,0% das comparações, acima dos 70,9% do GPT-5.2. O uso do computador é o maior salto: no OSWorld-Verified, que mede a capacidade de um modelo de operar um desktop por meio de capturas de tela e ações de teclado/mouse, o GPT-5.4 atinge uma taxa de sucesso de 75,0% contra 47,3% do GPT-5.2 – e limpa a linha de base humana de 72,4%.

No BrowseComp, um teste de pesquisa profunda na web, ele salta 17 pontos percentuais sobre o GPT-5.2. A janela de contexto de 1 milhão de tokens e um recurso de direção de resposta intermediária – permitindo que os usuários redirecionem o modelo enquanto ele ainda está pensando – completam os recursos do título.

O recurso economiza tempo e cálculo, evitando a necessidade de descartar todos os tokens gerados anteriormente quando um erro é detectado.

Quem se beneficiará do GPT 5.4?

É importante observar que alguns benchmarks comparam principalmente o GPT-5.4 – e na maioria das vezes, o raciocínio foi definido para um esforço extra alto, que os usuários gratuitos e Plus não conseguem aproveitar – ao GPT-5.2, ignorando totalmente o GPT-5.3.

Para usuários que já usam GPT-5.3, vários ganhos podem parecer mais incrementais do que os gráficos sugerem.

Os codificadores têm mais motivos para moderar as expectativas: no SWE-Bench Pro, a melhoria do GPT-5.3-Codex (56,8%) para o GPT-5.4 (57,7%) é apenas um erro de arredondamento. O modelo também afirma que são necessários significativamente menos tokens para concluir tarefas em comparação com GPT-5.2.

“GPT‑5.4 é nosso modelo de raciocínio mais eficiente em termos de tokens, usando significativamente menos tokens para resolver problemas quando comparado ao GPT‑5.2”, disse OpenAI.

Dito isso, qualquer melhoria neste campo é positiva para desenvolvedores que usam modelos OpenAI via API e são cobrados por token usado. Um modelo com uma cadeia de pensamento eficiente pode fornecer os mesmos resultados por uma fração do custo, em comparação com um modelo que tende a pensar demais para garantir que chega à conclusão adequada.

Há outro problema para quem deseja usar o novo modelo agora: OpenAI diz que o GPT-5.4 será lançado hoje, mas ainda não estava disponível no momento em que este livro foi escrito, então provavelmente está sendo implementado lentamente. Para a maioria dos usuários, o melhor modelo é o GPT 5.3, e só pode ser usado para respostas instantâneas, o que significa que fornece respostas que não exigem muito esforço.

Os usuários que dependem do pensamento – a terminologia da OpenAI para raciocínio de cadeia estendida de pensamento em tarefas complexas – ainda estão no GPT-5.2. Em outras palavras, os usuários com maior probabilidade de ultrapassar os limites do modelo são os últimos a consegui-lo.

Os beneficiários mais claros são os usuários corporativos que realizam trabalhos que envolvem muitos documentos. Em um benchmark de modelagem de planilha interna, o GPT-5.4 obteve 87,3% contra 68,4% do GPT-5.2. A empresa de pesquisa jurídica Harvey disse que obteve 91% de pontuação em sua avaliação do BigLaw Bench. A Mainstay, que administra agentes em 30.000 portais de impostos sobre a propriedade, relatou uma taxa de sucesso de 95% na primeira tentativa e sessões rodando “cerca de 3x mais rápido enquanto usa cerca de 70% menos tokens”.

Esse é o tipo de argumento de eficiência que pode ser importante para as equipes de compras empresariais – mas é mais difícil de vender para o usuário individual que está reconsiderando se deve excluir sua conta.

Resumo Diário Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.

Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *