A estratégia por trás do chip OpenAI Jalapeño

A trajetória financeira da OpenAI depende fortemente dos custos de infraestrutura, uma realidade que impulsionou o desenvolvimento do novo chip OpenAI Jalapeño personalizado. Desenvolvido em colaboração com a Broadcom, o circuito integrado de aplicação específica (ASIC) representa uma tentativa direta de mitigar as pesadas despesas de capital associadas a hardware de terceiros.

Embora a Nvidia atualmente tenha uma margem de lucro estimada em 75% em seus processadores de última geração, a OpenAI opera com margens mais estreitas, mantendo cerca de 33 centavos de lucro por cada dólar gerado após contabilizar suas enormes despesas operacionais. O encargo financeiro de administrar grandes modelos linguísticos em escala é severo.

No ano passado, manter a capacidade de resposta dos servidores ChatGPT custou à OpenAI impressionantes US$ 8,4 bilhões. Com a plataforma atraindo agora 900 milhões de utilizadores semanais, esse custo operacional deverá atingir aproximadamente 14 mil milhões de dólares este ano. Nos próximos oito anos, a OpenAI comprometeu cerca de 1,4 biliões de dólares em poder computacional, uma aposta enorme para uma empresa que gera actualmente 25 mil milhões de dólares em receitas anuais.

Projetando Hardware para Inferência LLM

O chip OpenAI Jalapeño, apelidado de o primeiro “Processador de Inteligência” da empresa, foi construído especificamente para inferência de modelo de linguagem grande (LLM), em vez de cargas de trabalho de IA de uso geral. A OpenAI forneceu o projeto arquitetônico central com base em seus roteiros de modelos específicos e sistemas de serviço, enquanto a Broadcom gerenciava a engenharia de silício e a integração de redes de alto desempenho.

A TSMC cuida da fabricação física em Taiwan, e a Celestica é encarregada de construir os sistemas de placas e racks. De acordo com a OpenAI, as primeiras amostras de laboratório já estão executando cargas de trabalho de fronteira, incluindo um modelo GPT-5.3-Codex-Spark não lançado, na frequência e potência de produção alvo.

Richard Ho, chefe do programa de hardware da OpenAI, observou que a arquitetura minimiza a movimentação de dados para aproximar a utilização realizada de seu desempenho máximo teórico. Ao contrário dos aceleradores de uso geral adaptados de cargas de trabalho de IA herdadas, essa arquitetura equilibra especificamente recursos de computação, memória e rede para resolver os gargalos de movimentação de dados nativos do serviço LLM interativo.

Para conseguir isso em escala, a plataforma integra o silício de rede Tomahawk da Broadcom diretamente no design, permitindo que os processadores personalizados se comuniquem em ambientes massivos de data center em cluster.

O volante da integração vertical

Ao migrar para o silício personalizado, a OpenAI deixa de ser uma mera camada de software para se tornar uma empresa de infraestrutura verticalmente integrada^{. Essa estratégia full-stack abrange todo o pipeline: arquitetura do chip, kernels de software, sistemas de memória, agendamento de rede e a camada final do aplicativo^{. Muito parecido com o forte acoplamento de hardware proprietário e iOS da Apple, a OpenAI agora pode otimizar sua infraestrutura em torno de seus roteiros de modelos internos exatos^.}}

Esta integração alimenta um volante operacional contínuo^{. A eficiência aprimorada da infraestrutura reduz o custo dos modelos de treinamento e serviço^{. Um serviço mais acessível leva a produtos melhores e mais responsivos, o que faz com que o volume de usuários e a receita sejam reinvestidos na próxima geração de infraestrutura personalizada^.}}

Superando a vantagem do retardatário

Ao introduzir seu próprio silício, a OpenAI entra em um cenário onde seus principais concorrentes passaram quase uma década desenvolvendo hardware proprietário. O Google começou a implantar suas Unidades de Processamento Tensor (TPUs) em 2015 e agora controla cerca de um quarto da capacidade global de computação de IA fora da cadeia de suprimentos da Nvidia.

A Amazon já vendeu mais de um milhão de seus chips personalizados, enquanto a Meta e a Microsoft continuam a dimensionar sua própria infraestrutura.

“Jalapeño faz parte de nossa estratégia de infraestrutura full-stack de longo prazo para tornar a computação mais abundante”, disse Greg Brockman, presidente e cofundador da OpenAI. “Ao projetarmos nós mesmos mais pilhas, podemos servir mais inteligência com maior eficiência.”

Para preencher essa lacuna no cronograma, a OpenAI acelerou a fase de desenvolvimento. O chip OpenAI Jalapeño passou de um design em branco para a fabricação de fita adesiva – a etapa final antes da produção física – em apenas nove meses. As equipes de engenharia alcançaram esse cronograma utilizando modelos de linguagem próprios da OpenAI para automatizar e otimizar partes do processo de design de hardware.

Isso cria um ciclo de feedback exclusivo onde os modelos servidos aos usuários são ativamente aproveitados para construir a infraestrutura física que executará futuras iterações. A implantação inicial do hardware em data centers está programada para começar no final de 2026.

O CEO da Broadcom, Hock Tan, confirmou que a implementação será dimensionada junto com parceiros de infraestrutura, incluindo a Microsoft, para se preparar para a integração do data center em escala de gigawatts.

(Foto de OpenAI)

Veja também: Omio dimensiona desenvolvimento de produtos de viagens usando modelos OpenAI

Quer saber mais sobre IA e big data dos líderes do setor? Confira a AI & Big Data Expo que acontece em Amsterdã, Califórnia e Londres. O evento abrangente faz parte da TechEx e é realizado junto com outros eventos líderes de tecnologia. Clique aqui para obter mais informações.

AI News é desenvolvido pela TechForge Media. Explore outros eventos e webinars de tecnologia empresarial futuros aqui.

Fontesartificialintelligence

A estratégia por trás do chip OpenAI Jalapeño

ByDashveenjit Kaur

Projetando Hardware para Inferência LLM

O volante da integração vertical

Superando a vantagem do retardatário

By Dashveenjit Kaur

Leia Também

Anthropic lança ‘agentes de IA no local de trabalho’ diretamente dentro do Slack

Samsung abre acesso ChatGPT Enterprise e Codex após restrições de IA

SAP alinha dados comerciais para personalização de IA

Deixe um comentário Cancelar resposta

Leia Também:

Anthropic lança ‘agentes de IA no local de trabalho’ diretamente dentro do Slack

Samsung abre acesso ChatGPT Enterprise e Codex após restrições de IA

A estratégia por trás do chip OpenAI Jalapeño

SAP alinha dados comerciais para personalização de IA