Quando um modelo é treinado, cada palavra em seu vocabulário recebe um valor numérico que captura o significado dessa palavra em relação a todas as outras palavras, com base em como a palavra aparece em inúmeros exemplos nos dados de treinamento do modelo.
Cada palavra é substituída por uma espécie de código?
Sim. Mas há um pouco mais nisso. O valor numérico – a incorporação – que representa cada palavra é na verdade um lista de números, com cada número na lista representando uma faceta diferente de significado que o modelo extraiu de seus dados de treinamento. O comprimento dessa lista de números é outra coisa que os projetistas de LLM podem especificar antes de um LLM ser treinado. Um tamanho comum é 4.096.
Cada palavra dentro de um LLM é representada por uma lista de 4.096 números?
Sim, isso é uma incorporação. E cada um desses números é ajustado durante o treinamento. Diz-se que um LLM com embeddings com 4.096 números tem 4.096 dimensões.
Por que 4.096?
Pode parecer um número estranho. Mas os LLMs (como qualquer coisa que rode em um chip de computador) funcionam melhor com potências de dois – 2, 4, 8, 16, 32, 64 e assim por diante. Os engenheiros do LLM descobriram que 4.096 é uma potência de dois que atinge o ponto ideal entre capacidade e eficiência. Modelos com menos dimensões são menos capazes; modelos com mais dimensões são muito caros ou lentos para treinar e operar.
Usar mais números permite que o LLM capture informações muito refinadas sobre como uma palavra é usada em muitos contextos diferentes, quais conotações sutis ela pode ter, como se relaciona com outras palavras e assim por diante.
Em fevereiro, a OpenAI lançou o GPT-4.5, o maior LLM da empresa até agora (algumas estimativas colocam sua contagem de parâmetros em mais de 10 trilhões). Nick Ryder, um cientista pesquisador da OpenAI que trabalhou no modelo, disse-me na época que modelos maiores podem trabalhar com informações extras, como sinais emocionais, como quando as palavras de um locutor sinalizam hostilidade: “Todos esses padrões sutis que surgem em uma conversa humana – essas são as partes que esses modelos cada vez maiores irão captar”.
O resultado é que todas as palavras dentro de um LLM são codificadas em um espaço de alta dimensão. Imagine milhares de palavras flutuando no ar ao seu redor. Palavras mais próximas têm significados semelhantes. Por exemplo, “mesa” e “cadeira” estarão mais próximos um do outro do que “astronauta”, que está próximo de “lua” e “almíscar”. Ao longe você pode ver “prestidigitação”. É um pouco assim, mas em vez de estarem relacionadas entre si em três dimensões, as palavras dentro de um LLM estão relacionadas em 4.096 dimensões.
Caramba.
É uma coisa vertiginosa. Na verdade, um LLM comprime toda a Internet em uma única estrutura matemática monumental que codifica uma quantidade insondável de informações interconectadas. É por isso que os LLMs podem fazer coisas surpreendentes e porque são impossíveis de compreender completamente.




