Pela primeira vez, modelos do Google e da OpenAI conquistaram medalha de ouro na Olimpíada Internacional de Matemática (International Math Olympiad – IMO), uma das competições acadêmicas mais desafiadoras do planeta.

O feito – relatado pela Bridgewater Associates, uma das maiores gestoras de hedge funds do mundo – é um marco inédito no desenvolvimento da inteligência artificial, porque a prova da IMO exige raciocínio estruturado em problemas inéditos, o que a torna um teste real de capacidade de pensamento lógico, e não apenas de cálculo.

Para Greg Jensen, o co-CIO da Bridgewater, e Jas Sekhon, o chief scientist e head de AI e machine learning da gestora, o resultado surpreendeu. 

Pesquisadores esperavam que demorasse até 18 anos para que uma AI alcançasse esse nível.  Bastaram quatro.

O salto reforça a hipótese de que a capacidade de raciocínio da AI – antes restrita a ferramentas matemáticas específicas (math-specific tools) – está se aproximando dos métodos gerais de raciocínio (general reasoning methods), abrindo caminhos para aplicações em áreas complexas como finanças, macroeconomia e formulação de políticas públicas.

Este avanço reacendeu um intenso debate sobre a real capacidade de modelos de AI raciocinarem em contextos novos.

Yann LeCun, cientista-chefe de AI da Meta e ganhador do Prêmio Turing – o “Nobel” da computação – é um dos céticos mais conhecidos. Para ele, os Large Language Models (LLMs) atuais, por serem treinados para prever a próxima palavra (token), acumulam erros que se propagam e distorcem conclusões, tornando-se inviáveis para tarefas longas e complexas. Com 95% de acerto na previsão de cada token, após 100 tokens a probabilidade de não haver erro é inferior a 1%.

Essa limitação, argumenta LeCun, é estrutural: enquanto a arquitetura se basear apenas em previsão de tokens, o raciocínio permanecerá vulnerável à propagação de pequenos erros. Isso é muito ruim quando é preciso raciocinar de forma sistemática, quando “quase certo” não é um resultado suficiente.

Segundo a Bridgewater, dois avanços técnicos foram decisivos:  o aprendizado por reforço com recompensas verificáveis (reinforcement learning with verifiable rewards – RLVR), que permite avaliar a qualidade de cada passo do raciocínio e criar dados sintéticos de alta qualidade para novos ciclos de treino, e o test-time compute, que amplia o tempo de processamento no momento da execução; ou seja, em vez de responder imediatamente, o modelo “pensa” por alguns minutos ou até uma hora, no caso mais específico da IMO.   

Para entender o contexto, é preciso conhecer as três fases principais do desenvolvimento de um modelo de AI:

-Pre-training: quando o modelo é exposto a volumes massivos de texto, aprendendo padrões da linguagem, gramática, estilo e informações gerais. É caro, intensivo em capacidade computacional (compute), mas relativamente padronizado entre laboratórios.

-Post-training: fase de refinamento após o pre-training, que ajusta o comportamento do modelo para torná-lo mais útil, seguro e alinhado. Aqui executa-se o SFT (supervised fine-tuning), no qual humanos ensinam respostas corretas, e o RL (reinforcement learning), em que o modelo aprende com feedback humano   ou com verificações objetivas (RLVR). Essa etapa é mais proprietária, variando de laboratório para laboratório.

-Test-time compute: a computação usada quando o modelo responde. Tradicionalmente, essa etapa é rápida, mas no novo paradigma ela pode se estender por longos minutos, como mencionei anteriormente nesse artigo.

Na IMO, essa combinação foi determinante para que modelos de RLVR de alta qualidade com mais test-time compute conseguissem manter respostas coerentes e aprofundadas por longos períodos, superando um desafio até então restrito a poucos humanos.

O valor estratégico para os negócios

O salto técnico também reposiciona o valor dos chamados reasoning traces — registros detalhados de processos de decisão que, por sua raridade e alta qualidade, tornaram-se ativos estratégicos disputados pelos principais laboratórios de AI.

Alguns estão dispostos a treinar modelos gratuitamente em troca desse tipo de dado, a menos que o fornecedor queira manter o ganho de performance como exclusivo.

Empresas que acumulam décadas de investimentos sistemáticos podem estar particularmente bem-posicionadas para aproveitar essa nova dinâmica.

O histórico de raciocínios de alta qualidade dessas companhias – cada vez mais valorizado como ativo estratégico – pode ser usado para treinar modelos capazes de operar em domínios complexos e ambíguos, como os mercados globais, onde decisões exigem tanto interpretação quanto análise de dados.

Para o mercado, a vitória na IMO não é apenas um marco técnico, mas um indicativo de que a curva de evolução da AI é mais inclinada do que se imaginava. Se essas capacidades de raciocínio se generalizarem, poderão gerar um salto de produtividade e redefinir a competitividade entre empresas e países.

“O que parecia distante já está acontecendo,” diz Jensen. A velocidade das inovações pode surpreender até os mais otimistas, e compreender, explorar e direcionar essas capacidades será determinante para definir os vencedores e os perdedores na economia da inteligência artificial.

Rosiane Pecora é Executive Vice Chair LatAm no UBS Global Wealth Management.