<span class="image__credit--f62c527bbdd8413eb6b6fa545d044c69">Stephanie Arnett/MIT Technology Review | Adobe Stock, Deepseek</span>

Atualmente, a maioria dos grandes modelos de linguagem divide o texto em milhares de pequenas unidades chamadas tokens. Isso transforma o texto em representações que os modelos podem compreender. No entanto, esses tokens rapidamente se tornam caros para armazenar e computar à medida que as conversas com os usuários finais ficam mais longas. Quando um usuário conversa com uma IA por longos períodos, esse desafio pode fazer com que a IA esqueça coisas que o usuário já lhe disse e confunda as informações, um problema que alguns chamam de “apodrecimento do contexto”.

Os novos métodos desenvolvidos pela DeepSeek (e publicados no seu último artigo) podem ajudar a superar este problema. Em vez de armazenar palavras como tokens, seu sistema agrupa informações escritas em forma de imagem, quase como se estivesse tirando fotos de páginas de um livro. Isso permite que o modelo retenha quase as mesmas informações enquanto usa muito menos tokens, descobriram os pesquisadores.

Essencialmente, o modelo OCR é um teste para esses novos métodos que permitem que mais informações sejam agrupadas em modelos de IA de forma mais eficiente.

Além de usar tokens visuais em vez de apenas texto, o modelo é construído em um tipo de compactação em camadas que não é diferente de como as memórias humanas desaparecem: o conteúdo mais antigo ou menos crítico é armazenado de uma forma um pouco mais borrada para economizar espaço. Apesar disso, os autores do artigo argumentam que este conteúdo comprimido ainda pode permanecer acessível em segundo plano, mantendo ao mesmo tempo um alto nível de eficiência do sistema.

Os tokens de texto têm sido o alicerce padrão nos sistemas de IA. Em vez disso, usar tokens visuais não é convencional e, como resultado, o modelo do DeepSeek está rapidamente captando a atenção dos pesquisadores. Andrej Karpathy, ex-chefe da Tesla AI e membro fundador da OpenAI, elogiou o artigo sobre X, dizendo que as imagens podem ser melhores do que o texto como entradas para LLMs. Os tokens de texto podem ser “um desperdício e simplesmente terríveis na entrada”, escreveu ele.

Manling Li, professor assistente de ciência da computação na Northwestern University, diz que o artigo oferece uma nova estrutura para enfrentar os desafios existentes na memória de IA. “Embora a ideia de usar tokens baseados em imagens para armazenamento de contexto não seja totalmente nova, este é o primeiro estudo que vi que leva isso tão longe e mostra que pode realmente funcionar”, diz Li.

technologyreview

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *