Os saltos evolutivos na inteligência artificial dependem de um aumento exponencial na capacidade de processamento de dados sem a perda significativa de informações. 

Isso exige uma enorme capacidade computacional e chips cada dia mais potentes – como os produzidos pela Nvidia, que estão no sistema nervoso dos principais modelos de inteligência artificial generativa e elevaram a empresa californiana ao posto de mais valiosa desenvolvedora de semicondutores do mundo.

Agora, pesquisadores da Microsoft acabaram de apresentar uma arquitetura de software inédita que poderá abrir uma nova fronteira para a inteligência artificial. O modelo, que por enquanto apareceu apenas em um artigo acadêmico, potencializa brutalmente o processamento de informações, poupando o uso de hardware.

Atualmente, os modelos de linguagem de grande escala, como o ChatGPT, precisam ter a habilidade de lidar com sequências cada vez mais longas.

Os dados são interpretados e trabalhados por modelos chamados transformadores. 

As informações, para serem “digeridas”, são quebradas em pequenas unidades, os tokens. Os transformadores em uso hoje possuem uma capacidade restrita de leitura, porque, se tentarem assimilar todos os tokens de uma única vez, há perda de informação ou de velocidade. 

A arquitetura desenvolvida pelo time da Microsoft, que ganhou o nome de LongNet, traz uma nova lógica neural para os sistemas. Se ela se mostrar comercialmente viável, o avanço será abissal.

O ChatGPT processa 4.096 tokens por vez – algo em torno de 3.000 palavras. O LongNet multiplica esse número por 250.000, elevando para 1 bilhão de tokens a capacidade de leitura – aproximadamente 750 milhões de palavras absorvidas simultaneamente. 

“É como se tivéssemos a capacidade de ler toda uma biblioteca de uma única vez, em vez de apenas um livro infantil,” compara Thiago Kapulskis, analista de tecnologia do Itaú BBA. 

O paper “LongNet: Scaling Transformers to 1.000.000.000 Tokens” foi publicado como pre-print em um site da Cornell University.

“Nosso trabalho abre novas possibilidades para a modelagem de sequências muito longas – por exemplo, tratar toda a internet como uma única sequência,” afirmam os pesquisadores. 

Toda a indústria vem procurando maneiras de otimizar o uso da capacidade computacional e encontrar meios de superar as limitações físicas do hardware. 

Inovações como a LongNet poderão ter um impacto significativo no mercado. Se houver de fato uma menor necessidade de capacidade computacional no futuro, os desenvolvedores de chips de última geração e de outros equipamentos de hardware usados nos sistemas de inteligência artificial poderão sair perdendo. 

“Não é algo que vai ameaçar a liderança da Nvidia nos próximos trimestres. A demanda por chips de inteligência artificial permanece em alta,” afirma Kapulskis. “Mas essa é uma área em que as inovações acontecem em uma velocidade enorme. É difícil fazer conclusões muito assertivas.”