O SubQ não substituirá os principais modelos existentes, mas poderá oferecer grandes aumentos de velocidade por uma fração do custo normal para determinadas tarefas. A Subquadratic insiste que, no longo prazo, porém, o seu avanço poderá mudar a forma como os LLMs são construídos. “Esperamos estar iniciando uma nova era de eficiência”, afirma Justin Dangel, cofundador e CEO da empresa. “Não achamos que alguém construirá transformadores dentro de alguns anos.”
Atenção!
Para entender por que as afirmações do Subquadratic são importantes, vamos nos aprofundar em como funciona a maioria dos LLMs. O mecanismo chave dentro de um LLM é um tipo de rede neural chamada transformador, que executa um processo conhecido como atenção densa. Os LLMs de hoje normalmente encadeiam vários transformadores. (O artigo fundamental da era LLM, publicado por pesquisadores do Google em 2017, foi intitulado “Atenção é tudo que você precisa”.)
A atenção densa funciona assim: quando um transformador processa um pedaço de texto, ele primeiro codifica cada palavra (ou parte de uma palavra, conhecida como token) com um número. Para capturar o significado do texto completo, ele multiplica cada um desses números por todos os outros números desse texto. Por exemplo, um pedaço de texto com 10.000 palavras daria início a quase 50 milhões de multiplicações individuais. Isso é muita computação e a principal razão pela qual os LLMs são notórios consumidores de energia.
“Se você quiser resumir O Grande Gatsbyvocê tem que olhar para a primeira e a última palavra juntas, e então você tem que olhar para todas as outras combinações”, diz Dangel.
À medida que o comprimento do texto aumenta, o número de cálculos dispara. Isso porque cada número adicional deve ser multiplicado por todos os outros números anteriores. Dobre o número de palavras e você aproximadamente quadruplicará o número de cálculos, uma taxa de aumento conhecida como expansão quadrática.
(Você mesmo pode imaginar isso: desenhe um círculo e marque pontos ao redor de sua borda. Cada ponto é uma ficha. Em seguida, desenhe linhas entre pares de pontos para representar a multiplicação dessas duas fichas. Um círculo com cinco pontos terá 10 linhas cruzando-o. Faça 10 pontos e você terá 45 linhas, 20 pontos e você terá 190 linhas e assim por diante.)
Redução de custos
A solução da Subquadratic é abandonar a atenção densa, a operação central de um transformador, em favor do que é conhecido como atenção esparsa, que reduz o número de cálculos necessários. Em vez de multiplicar o número atribuído a cada token por todos os outros números, a atenção esparsa seleciona apenas alguns dos números para multiplicar. A ideia é que nem todas as relações entre palavras em um trecho de texto são importantes.


