Em resumo
- O benchmark GDPVAL da OpenAI testou empregos reais – cuecas legais, código, relatórios – e encontraram especialistas em humanos correspondentes à IA em velocidade vertiginosa.
- Claude e GPT-5 superaram profissionais experientes em 44 ocupações, melhorando três vezes em pouco mais de um ano.
- O estudo mostrou que a primeira onda de interrupção atingirá empregos no escritório, de codificadores a advogados e jornalistas.
O Openai apresentou o GDPVAL na quinta -feira – uma referência que tenta avaliar qualitativamente se a IA pode fazer seu trabalho real.
Essas não são questões hipotéticas do exame, mas entregas reais: resumos legais, projetos de engenharia, planos de cuidados de enfermagem, relatórios financeiros – o tipo de trabalho, ou seja, que paga hipotecas. Os pesquisadores deliberadamente se concentraram em ocupações, onde pelo menos 60% das tarefas são baseadas em computador-raica que descrevem como “predominantemente digital”.
Esse escopo abrange serviços profissionais, como desenvolvedores de software, advogados, contadores e gerentes de projeto; Finanças e posições de seguro, como analistas e representantes de atendimento ao cliente; e empregos no setor de informação que variam de jornalistas e editores a produtores e técnicos de AV. Administração de assistência médica, funções de fabricação de colarinho branco e vendas ou gerentes imobiliários também aparecem com destaque.
Dentro desse conjunto, o trabalho mais exposto à IA se sobrepõe aos tipos de atividades digitais e intensivas em conhecimento que grandes modelos de idiomas já lidam bem:
- O desenvolvimento de software, que representa o maior pool de salários do conjunto de dados, se destaca como especialmente vulnerável.
- O trabalho legal e contábil, com sua forte dependência de documentos e raciocínio estruturado, também está no topo da lista, assim como analistas financeiros e representantes de atendimento ao cliente.
- Funções de produção de conteúdo – editores, jornalistas e outros trabalhadores da mídia – face pressões semelhantes, dada a crescente fluência da IA na linguagem e na geração multimídia.
A ausência de empregos manuais e físicos no estudo destaca seus limites: o GDPVAL não foi projetado para medir a exposição em campos como construção, manutenção ou agricultura. Em vez disso, ressalta o ponto de que a primeira onda de interrupção provavelmente atingirá empregos de colarinho branco e de escritório-os tipos de trabalho que antes assumem ser mais isolados da automação.
O relatório baseia-se em um estudo de dois anos de idade/Universidade da Pensilvânia que alegou que até 80% dos trabalhadores dos EUA podiam ver pelo menos 10% de suas tarefas afetadas pelo LLMS, e cerca de 19% dos trabalhadores podiam ver pelo menos 50% de suas tarefas afetadas. Os trabalhos mais perilosos (ou transformados) são de colarinho branco, pesados de conhecimento-especialmente em direito, escrita, análise e interação com o cliente.
Mas a parte perturbadora não é os números de hoje. É a trajetória. Nesse ritmo, as estatísticas sugerem que a IA poderia corresponder a especialistas humanos em todos os aspectos até 2027. Isso é realmente próximo dos padrões da AGI e pode significar que mesmo tarefas consideradas inseguras ou muito especializadas para automação podem em breve se tornar acessível a máquinas, ameaçando as rápidas transformações no local de trabalho.
O OpenAI testou 1.320 tarefas em 44 ocupações – não trabalhos aleatórios, mas papéis nos nove setores que impulsionam a maior parte do PIB da América. Desenvolvedores de software, advogados, enfermeiros, analistas financeiros, jornalistas, engenheiros: as pessoas que pensavam que seus diplomas os protegeriam da automação.
Cada tarefa veio de profissionais com uma média de 14 anos de experiência – não estagiários ou graduados recentes, mas especialistas experientes que conhecem seu ofício. As tarefas também não eram simples, com média de sete horas de trabalho com algumas esticadas a várias semanas de esforço.
Segundo o OpenAI, os modelos concluíram essas tarefas até 100 vezes mais rápidas e significativamente mais baratas que os seres humanos em algumas tarefas específicas da API-o que é de se esperar e tem sido o caso há décadas. Em tarefas mais especializadas, a melhoria foi mais lenta, mas ainda perceptível.
Mesmo contabilizando o tempo de revisão e o ocasional renovação quando a IA alucinou algo bizarro, a economia se inclina duro para a automação.
Mas Cheer Up: Só porque um trabalho é exposto não significa que ele desaparece. Pode ser aumentado (por exemplo, advogados e jornalistas que usam LLMs para escrever mais rápido) em vez de serem substituídos.
E no que diz respeito à IA, as alucinações ainda são uma dor para as empresas. A pesquisa mostra que a IA falhando com mais frequência em seguidores de instruções-35% das perdas do GPT-5 vieram de não entender completamente o que foi solicitado. Os erros de formatação atormentaram outros 40% das falhas.
Os modelos também lutaram com a colaboração, a interação do cliente e qualquer coisa que exige responsabilidade genuína, que o OpenAI deixou de fora do estudo. Ninguém está processando uma IA por negligência ainda. Mas para entregas digitais solo – os relatórios, apresentações e análises que preenchem a maioria dos dias dos trabalhadores do conhecimento – a lacuna está fechando rapidamente.
O Openai admite que o GDPVAL hoje abrange um número muito limitado de tarefas que as pessoas realizam em seus empregos reais. O benchmark não pode medir habilidades interpessoais, presença física ou as mil micro-decisões que tornam alguém valioso além de suas entregas.
Ainda assim, quando os bancos de investimento começam a comparar análises de concorrentes geradas pela IA com os de analistas humanos, quando os hospitais avaliam os planos de assistência de enfermagem de IA contra os de enfermeiros experientes e quando os escritórios de advocacia testam as resumos da IA contra o trabalho associado-isso não é mais especulação. Isso é medição.
Geralmente inteligente Boletim informativo
Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.
Fontedecrypt