O mais recente modelo ERNIE do Baidu, uma IA multimodal supereficiente, está superando o GPT e o Gemini nos principais benchmarks e tem como alvo dados empresariais frequentemente ignorados por modelos focados em texto.
Para muitas empresas, insights valiosos estão contidos em esquemas de engenharia, feeds de vídeo de chão de fábrica, exames médicos e painéis de logística. O novo modelo do Baidu, ERNIE-4.5-VL-28B-A3B-Thinking, foi projetado para preencher essa lacuna.
O que é interessante para os arquitetos empresariais não é apenas a sua capacidade multimodal, mas também a sua arquitetura. É descrito como um modelo “leve”, ativando apenas três bilhões de parâmetros durante a operação. Esta abordagem visa os elevados custos de inferência que muitas vezes paralisam os projetos de expansão da IA. A Baidu está apostando na eficiência como caminho para a adoção, treinando o sistema como base para “agentes multimodais” que possam raciocinar e agir, e não apenas perceber.
Capacidades complexas de análise de dados visuais suportadas por benchmarks de IA
O modelo multimodal ERNIE AI do Baidu é excelente no tratamento de dados densos e não textuais. Por exemplo, ele pode interpretar um gráfico de “Lembrete de horário de pico” para encontrar horários de visita ideais, uma tarefa que reflete os desafios de agendamento de recursos em logística ou varejo.
O ERNIE 4.5 também mostra capacidade em domínios técnicos, como resolver um diagrama de circuito de ponte aplicando as leis de Ohm e Kirchhoff. Para os ramos de P&D e engenharia, um futuro assistente poderia validar projetos ou explicar esquemas complexos para novos contratados.
Esta capacidade é apoiada pelos benchmarks do Baidu, que mostram que o ERNIE-4.5-VL-28B-A3B-Thinking supera concorrentes como GPT-5-High e Gemini 2.5 Pro em alguns testes importantes:
- MathVista: ERNIE (82,5) vs Gemini (82,3) e GPT (81,3)
- ChartQA: ERNIE (87,1) vs Gêmeos (76,3) e GPT (78,2)
- VLMs são cegos: ERNIE (77,3) vs Gemini (76,5) e GPT (69,6)
É importante notar, é claro, que os benchmarks de IA fornecem um guia, mas podem apresentar falhas. Sempre realize testes internos de acordo com suas necessidades antes de implantar qualquer modelo de IA para aplicativos de missão crítica.
Baidu muda da percepção para a automação com seu mais recente modelo ERNIE AI
O principal obstáculo para a IA empresarial é passar da percepção (“o que é isso?”) para a automação (“e agora?”). ERNIE 4.5 pretende resolver isso integrando a base visual com o uso de ferramentas.
Pedir à IA multimodal para encontrar todas as pessoas vestindo ternos em uma imagem e retornar suas coordenadas no formato JSON funciona. O modelo gera os dados estruturados, uma função facilmente transferível para uma linha de produção para inspeção visual ou para um sistema de auditoria de imagens do local para conformidade com a segurança.
O modelo também gerencia ferramentas externas e pode ampliar uma fotografia de forma autônoma para ler pequenos textos. Se estiver de frente com um objeto desconhecido, pode acionar uma busca de imagens para identificá-lo. Isso representa uma forma menos passiva de IA que poderia capacitar um agente não apenas a sinalizar um erro no data center, mas também a ampliar o código, pesquisar a base de conhecimento interna e sugerir a correção.
Desbloqueando a inteligência de negócios com IA multimodal
O mais recente modelo ERNIE AI do Baidu também tem como alvo arquivos de vídeo corporativos, desde sessões de treinamento e reuniões até imagens de segurança. Ele pode extrair todas as legendas da tela e mapeá-las com seus carimbos de data e hora precisos.
Também demonstra consciência temporal, encontrando cenas específicas (como aquelas “filmadas em uma ponte”) por meio da análise de pistas visuais. O objetivo final claro é tornar pesquisáveis vastas videotecas, permitindo que um funcionário encontre o momento exato em que um tópico específico foi discutido em um webinar de duas horas, durante o qual ele pode ter cochilado algumas vezes.
O Baidu fornece orientação de implantação para vários caminhos, incluindo transformadores, vLLM e FastDeploy. No entanto, os requisitos de hardware são uma grande barreira. Uma implantação de placa única precisa de 80 GB de memória GPU. Esta não é uma ferramenta para experimentação casual, mas para organizações com infraestrutura de IA existente e de alto desempenho.
Para aqueles com hardware, o kit de ferramentas ERNIEKit do Baidu permite o ajuste fino de dados proprietários; uma necessidade para a maioria dos casos de uso de alto valor. A Baidu está fornecendo ao seu mais recente modelo ERNIE AI uma licença Apache 2.0 que permite o uso comercial, o que é essencial para adoção.
O mercado está finalmente a avançar para a IA multimodal que pode ver, ler e agir num contexto empresarial específico, e os benchmarks sugerem que o está a fazer com uma capacidade impressionante. A tarefa imediata é identificar tarefas de raciocínio visual de alto valor em sua própria operação e compará-las com os custos substanciais de hardware e governança.
Veja também: Wiz: Lapsos de segurança surgem em meio à corrida global pela IA
Quer saber mais sobre IA e big data dos líderes do setor? Confira a AI & Big Data Expo que acontece em Amsterdã, Califórnia e Londres. O evento abrangente faz parte da TechEx e está localizado junto com outros eventos de tecnologia líderes, incluindo a Cyber Security Expo. Clique aqui para mais informações.
AI News é desenvolvido pela TechForge Media. Explore outros eventos e webinars de tecnologia empresarial futuros aqui.
Fontesartificialintelligence



