Decrypt logoSource: Decrypt

Em resumo

  • A Perplexity anunciou a “inferência de agente híbrido” na Computex 2026, um sistema que divide automaticamente as cargas de trabalho de IA entre o dispositivo local de um usuário e modelos de fronteira baseados em nuvem – sem necessidade de configuração manual.
  • O recurso chegará ao Perplexity Computer em julho, demonstrado em processadores Intel Core Ultra Series 3 e atualmente exclusivo para o aplicativo Windows PC.
  • O CEO Aravind Srinivas enquadrou a mudança em torno da eficiência de custos: a receita da Perplexity cresceu cinco vezes, para US$ 500 milhões, enquanto o número de funcionários aumentou apenas 34%, e transferir a inferência para o hardware do usuário mantém essa proporção funcionando.

O CEO da Perplexity, Aravind Srinivas, subiu ao palco da Computex 2026 em Taipei em 2 de junho ao lado do CEO da Intel, Lip-Bu Tan, para anunciar o que a empresa chama de primeiro orquestrador de inferência de servidor local híbrido. O sistema, que chegará à Perplexity Computer em julho, decide automaticamente quais partes de uma tarefa de IA serão executadas em sua máquina e quais partes serão roteadas para modelos mais poderosos na nuvem – sem solicitar que você escolha.

“Hoje estamos anunciando o próximo passo para o Personal Computer: o primeiro orquestrador de inferência híbrido de servidor local”, anunciou a Perplexity. “Ele decide qual trabalho deve ser executado no seu dispositivo e qual trabalho deve ir para os agentes de nuvem, roteando automaticamente cada parte de uma tarefa para o lugar certo”

“O objetivo certo para um sistema de IA é fornecer o maior valor simbólico por watt, para cada usuário”, escreveu Perplexity no anúncio oficial. Três pressões concorrentes tornam isso difícil: a precisão exige os modelos mais capazes, a privacidade exige que alguns dados nunca saiam da sua máquina e o custo exige que você não gaste os recursos computacionais de um modelo de fronteira em uma tarefa que um modelo menor possa realizar.

A solução que a Perplexity chama de “inferência agente híbrida” aborda todos os três de uma vez. Um modelo compacto é executado localmente no seu dispositivo e atua como guarda de trânsito, descobrindo quais informações são confidenciais o suficiente para permanecerem locais e quais tarefas precisam de todo o poder de um modelo de fronteira baseado em nuvem.

“A inferência híbrida é para trabalhos que incluem dados confidenciais, mas precisam de IA poderosa. Coisas como registros financeiros, informações de saúde e arquivos pessoais”, explicou a empresa. “O modelo compacto é executado localmente em seu dispositivo para determinar quando os dados confidenciais também devem ser mantidos localmente. Enquanto isso, o trabalho que precisa da capacidade total de um modelo de fronteira é executado no servidor.”

Você deveria se preocupar com isso?

Inferência – o processo de execução de um modelo de IA treinado para gerar uma resposta – é o trabalho computacional que acontece sempre que você envia um prompt a um chatbot. No momento, quase tudo acontece em servidores remotos pertencentes a empresas de IA. Isso significa que seus documentos financeiros, dúvidas de saúde e notas particulares viajam para o computador de outra pessoa antes de você receber uma resposta.

É por isso que você vê os modos “Auto” ou “low thinking” em seu chatbot. As empresas de IA sempre tentarão forçar os usuários a rotear as interações da maneira mais barata possível para eles.

Srinivas foi direto sobre isso. Numa entrevista à Bloomberg Television na Computex, ele disse em voz alta a parte silenciosa: “Você não quer toda a sua computação centralizada em servidores e tudo rodando através dos maiores modelos. Algumas pessoas estão gastando meio bilhão de dólares por mês. O que você realmente quer é um valor eficiente por watt por usuário.” Transferir o trabalho de inferência para o hardware do usuário reduz essas contas – para o Perplexity.

A inferência local é a melhor para essas empresas, pois reduz muitos custos, mas tem um ponto importante a favor dos usuários de IA: mantém esses dados em sua máquina. A compensação sempre foi o poder: modelos menores executados localmente são menos capazes do que os grandes que vivem em data centers.

O orquestrador do Perplexity tenta conseguir os dois. Tarefas simples – resumir um documento que você já escreveu, formatar texto, classificação leve – são executadas localmente. O raciocínio complexo é encaminhado para a nuvem, de preferência sem as partes sensíveis da sua tarefa anexadas. A empresa afirma que isso acontece automaticamente, no meio da tarefa, invisível para o usuário. Se o roteamento é tão confiável na prática quanto parece em uma demonstração da Computex é uma questão que o lançamento de julho responderá.

Um esclarecimento que vale a pena fazer: não se trata do Perplexity cedendo um modelo local de código aberto que você controla. O componente local é um modelo compacto que o Perplexity implanta como parte de seu aplicativo. O componente de nuvem ainda passa pelos servidores do Perplexity. Os usuários que desejam uma configuração totalmente offline e auto-hospedada – o tipo de projetos como o MiniCPM5-1B oferecem – não encontrarão isso aqui.

Os números fornecem esse contexto de enquadramento. A receita da Perplexity cresceu de US$ 100 milhões para US$ 500 milhões, enquanto o número de funcionários aumentou apenas 34%, anunciou Srinivas em abril. Uma empresa que encaminha consultas através de modelos que não treina tem fortes incentivos para manter os custos de computação tão baixos quanto possível. Transferir parte da carga de inferência para os dispositivos dos utilizadores – milhares de milhões de PCs já em circulação – é uma forma eficiente de o fazer. A proposta de privacidade é real, mas se alinha convenientemente com a questão financeira.

Quem mais está fazendo isso

Todos os principais participantes da IA ​​​​estão avançando em direção à inferência híbrida ou no dispositivo agora. A Apple Intelligence executa seu processamento mais sensível localmente em chips da série M. O Foundry Local da Microsoft atingiu disponibilidade geral em abril de 2026, permitindo inferência completa de IA no Windows, macOS e Linux sem dependência da nuvem.

A Nvidia anunciou o RTX Spark na mesma Computex onde a Perplexity fez seu anúncio, visando inferência LLM local em laptops e desktops. A abordagem do Google, como Descriptografar relatadotem sido mais controverso – o Chrome estava instalando silenciosamente um modelo Gemini Nano de 4 GB sem o consentimento do usuário, e o botão “Modo AI” que a maioria dos usuários realmente vê nem mesmo o usa.

A diferenciação do Perplexity é a camada de orquestração. Em vez de pedir aos usuários que escolham local ou nuvem antecipadamente, o sistema decide por tarefa, em tempo real. Srinivas disse que a abordagem é “independente de chip” – a demonstração da Computex foi executada no Intel Core Ultra Series 3, mas os processadores Nvidia também são suportados. O recurso é atualmente exclusivo do aplicativo Perplexity para Windows PC, com um cronograma de implementação mais amplo ainda não confirmado.

Resumo Diário Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.

Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *