O Lensa vai mudar muita coisa; os avatares são só o começo

CHAPEL HILL, North Carolina — Se você frequenta as redes sociais, tem grande chance de já ter visto amigos usando os ‘magic avatars’ do Lensa AI.

Em menos de duas semanas, o app saiu da obscuridade para figurar entre os mais baixados do mundo, tornando-se um dos maiores lançamentos da história do mundo mobile.

O app existe desde 2018, mas saltou da casa dos US$ 5 milhões de receita por ano para mais de US$ 1 milhão de receita por dia na primeira semana de dezembro.

A consultoria Sensor Tower, especializada em apps, estima que entre 6 e 10 de dezembro o Lensa tenha sido o app com maior receita diária dentre todos os apps da App Store nos EUA.

Mas o Lensa é apenas um prenúncio do que está por vir.

Por trás de seu sucesso está um algoritmo chamado Stable Diffusion, do qual os magic avatars são apenas a primeira aplicação bem-sucedida.

O Stable Diffusion é um exemplo de ‘text-to-image AI’, ou seja, softwares de inteligência artificial que geram uma imagem em resposta a uma requisição por escrito do usuário. (Em outras palavras: o software lê o que você escreveu – digamos, “um astronauta na Lua tocando guitarra” – e desenha exatamente aquilo para você.)

A maneira como estes AIs funcionam parece ficção científica.

O software recebe dois inputs: um prompt de texto (“um astronauta na Lua tocando guitarra”), e uma imagem aleatória de ruído que servirá de imagem inicial.

O algoritmo então retira da imagem tudo que não faz sentido com o prompt – um Michelângelo cibernético tirando do mármore tudo que não era Davi.

Para fazer isso, o modelo precisou antes ser treinado a entender o que faz e não faz sentido com os conceitos escritos no prompt. O Stable Diffusion fez esse treinamento usando uma base de dados com mais de 5 bilhões de imagens com suas respectivas legendas, que permitiram ao AI entender os conceitos associados à imagens em si.

O Stable Diffusion não é o primeiro AI desse tipo.

O DALL-E, da OpenAI, foi lançado em 2021, seguido este ano pelo Imagen do Google e do Midjourney – este último fazendo bastante estardalhaço ao ter sido usado para ganhar uma competição de arte, sem o conhecimento dos organizadores. Já existem, inclusive, versões iniciais dessas tecnologias aplicadas à geração de imagens em 3D, como o DreamFusion do Google ou a Point-E da OpenAI.

O que torna o Stable Diffusion revolucionário é o fato de ser o primeiro AI do gênero lançado completamente em código livre.

Em contraste com seus competidores – que rodam seus AIs em servidores na nuvem e impõem restrições aos resultados por questões de privacidade e segurança – a Stability AI (a startup por trás do Stable Diffusion) licenciou o algoritmo para uso geral e conseguiu empacotá-lo em um formato capaz de ser rodado em qualquer PC com uma placa de vídeo decente.

O resultado foi uma explosão de interesse e engajamento da comunidade de desenvolvedores e entusiastas de AI.

Lançado há quatro meses, o repositório contendo o código-fonte do Stable Diffusion acumula 37.800 “likes” no Github, o maior site de compartilhamento de códigos-fonte do mundo, algo que o ethereum e bitcoin (dois dos maiores projetos open source do mundo) demoraram mais de 7 anos para alcançar.

Não à toa, a Stability AI atingiu US$ 1 bilhão de valuation em outubro em um round liderado pela Coatue e Lightspeed Venture Partners.

Há quem diga que ao lançar o Stable Diffusion em código livre a Stability AI abriu uma verdadeira caixa de Pandora. Afinal, estes algoritmos podem ser usados para fomentar fake news, plagiar artistas ou gerar pornografia sem consentimento; a única forma de evitar este destino seria se os desenvolvedores tivessem mantido o controle dos algoritmos.

Já os entusiastas do lançamento preferem focar nas oportunidades em vez dos riscos: graças ao lançamento open source, estamos prestes a ver uma avalanche de startups como a Lensa AI explorando essa tecnologia nos mais diferentes setores e aplicações.

A criatividade dos fundadores é o único limite para o uso dessa tecnologia – afinal, o olho é a principal fonte de informação do ser humano, e qualquer setor que utilize imagens como fonte de dados pode ser profundamente alterado por esta tecnologia.

Em outras palavras: depois do Lensa, a expressão “Não entendeu? Quer que eu desenhe?” ganhou um novo significado.

Foi dada a largada para um novo segmento da indústria de tecnologia.

A imagem acima foi gerada pelo Stable Diffusion.

Felipe Infante de Castro