EconomiaInternacionalTecnologia

Startup norte-americana lança modelo de IA com 12 milhões de tokens de contexto e promete romper a barreira que limita os transformers desde 2017

A Subquadratic, sediada em Miami, apresentou esta terça-feira o SubQ, um modelo de linguagem que diz processar volumes de informação até cinquenta vezes superiores aos da concorrência ao mesmo custo. O anúncio chega acompanhado de uma ronda de financiamento de 29 milhões de dólares e da promessa de uma arquitetura inteiramente nova para a inteligência artificial.

Startup norte-americana lança modelo de IA com 12 milhões de tokens de contexto e promete romper a barreira que limita os transformers desde 2017

Uma nova empresa norte-americana entrou esta terça-feira no mercado dos grandes modelos de linguagem com uma proposta que, a confirmar-se, representa uma das maiores ruturas técnicas no sector desde o aparecimento do ChatGPT. A Subquadratic, com sede em Miami e fundada por Justin Dangel e Alex Whedon, lançou o SubQ, um modelo que diz ser o primeiro de fronteira a abandonar a arquitetura quadrática que domina a indústria há quase uma década.

A empresa anunciou em simultâneo uma ronda de financiamento seed de 29 milhões de dólares, a uma avaliação de 500 milhões, com investidores que incluem Javier Villamizar, antigo partner do SoftBank Vision Fund, Justin Mateen, cofundador do Tinder, e participantes que entraram cedo no capital da Anthropic, da OpenAI, da Stripe e da Brex.

O problema que dizem ter resolvido

Todos os modelos modernos de inteligência artificial generativa, do ChatGPT ao Claude e ao Gemini, assentam numa arquitetura chamada transformer, criada pela Google em 2017. Esta arquitetura tem uma limitação fundamental. Para compreender a relação entre as palavras de um texto, compara cada palavra com todas as outras, o que faz o custo de computação crescer quadraticamente. Duplicar o tamanho do texto não duplica o custo. Quadruplica-o.

Esta limitação está na origem de quase todas as soluções de contorno que dominam a indústria. Os sistemas RAG, que pesquisam pequenos fragmentos de informação antes de os enviar ao modelo, existem precisamente porque enviar um documento inteiro é proibitivo. As cadeias de agentes que dividem tarefas grandes em pequenas chamadas existem pela mesma razão. O preço da inferência em produção, que é hoje a principal preocupação financeira de quem desenvolve aplicações com IA, deriva diretamente desta lei de escalonamento.

A Subquadratic afirma ter construído, ao fim de vários anos de investigação, uma arquitetura alternativa a que chamou Subquadratic Selective Attention, ou SSA. Em vez de comparar todos os tokens entre si, o modelo seleciona dinamicamente, em função do conteúdo, que posições do texto interessam para cada operação. O resultado, segundo a empresa, é um custo que cresce de forma linear em vez de quadrática.

Os números

Na descrição técnica publicada pela própria empresa, o SubQ obtém uma pontuação de 95,0 por cento no benchmark RULER aos 128 mil tokens, comparável aos 94,8 por cento do Claude Opus 4.6 da Anthropic. No teste MRCR v2 com um milhão de tokens, que avalia a capacidade de localizar e combinar informação dispersa por um texto longo, o modelo de produção marca 65,9 por cento, à frente do Gemini 3.1 Pro (26,3) e do Claude Opus 4.7 (32,2), e atrás do Opus 4.6 (78,3) e do GPT 5.5 (74,0). A versão de investigação, ainda não disponível, alcançaria 83 por cento.

No SWE-Bench Verified, que mede a capacidade de resolver problemas reais de engenharia de software, o SubQ atinge 81,8 por cento, ligeiramente acima do Opus 4.6 (80,8) e do Gemini 3.1 Pro (80,6), mas abaixo do Opus 4.7, que lidera com 87,6 por cento.

A vantagem mais significativa está, segundo a empresa, na velocidade e no custo a contextos longos. Aos 128 mil tokens, o SSA é 7,2 vezes mais rápido que a arquitetura padrão. Aos 256 mil, 13,2 vezes. Aos 512 mil, 23 vezes. E ao milhão de tokens, 52,2 vezes mais rápido. Em termos de capacidade de processamento, o modelo aceita prompts até 12 milhões de tokens, o equivalente a cerca de nove milhões de palavras ou perto de 120 livros de dimensão média.

A Subquadratic anunciou ainda que pretende disponibilizar uma versão com 50 milhões de tokens de contexto até ao quarto trimestre.

A equipa

Justin Dangel é descrito como empreendedor com cinco empresas fundadas anteriormente, em sectores como saúde digital, insurtech e bens de consumo. Alex Whedon, diretor de tecnologia, foi engenheiro de software na Meta e dirigiu a área de inteligência artificial generativa na TribeAI. A equipa inclui ainda 11 investigadores doutorados oriundos da Meta, Google, Oxford, Cambridge, ByteDance, Adobe e Microsoft.

Três produtos em pré-acesso

A Subquadratic não disponibilizou o modelo ao público. Em vez disso, abriu um programa de pré-acesso privado para três produtos. O primeiro é uma API compatível com os endpoints da OpenAI, dirigida a programadores e equipas empresariais. O segundo é o SubQ Code, uma ferramenta de linha de comandos pensada para se integrar com agentes de programação como o Claude Code, o Codex e o Cursor, e que a empresa diz reduzir custos em cerca de 25 por cento e acelerar a exploração de código em dez vezes. O terceiro é o SubQ Search, descrito como uma ferramenta de investigação aprofundada com a velocidade de um chatbot convencional.

A empresa optou por não recorrer aos grandes operadores de cloud como a Amazon Web Services ou o Google Cloud, alegando custos demasiado elevados, e está a servir os modelos a partir de fornecedores alternativos, os chamados neoclouds.

As cautelas devidas

Vários fatores aconselham prudência na leitura do anúncio. Em primeiro lugar, o modelo ainda não está disponível para testes públicos, e os resultados apresentados são auto-reportados pela empresa, com a indicação de que foram validados por terceiros sem que o terceiro seja identificado. O relatório técnico completo, designado model card, está prometido mas ainda não foi publicado.

Em segundo lugar, a história recente dos modelos com escalonamento subquadrático tem sido marcada por anúncios ambiciosos que não se confirmaram em produção. A Magic.dev apresentou em Agosto de 2024 um modelo com janela de contexto de 100 milhões de tokens e levantou mais de 500 milhões de dólares com base nessa promessa. Em inícios de 2026, ainda não há evidência pública desse modelo a ser utilizado fora da própria empresa. Iniciativas anteriores como a Mamba, a RWKV ou o Hyena enfrentaram dificuldades semelhantes, com linearidade teórica que se traduziu em desempenho inferior aos modelos quadráticos quando submetidas a cargas reais.

Em terceiro lugar, há aspetos da apresentação que carecem de explicação adicional. A pontuação do Claude Opus 4.7 no MRCR v2, indicada pela Subquadratic em 32,2 por cento, é substancialmente inferior à pontuação do seu antecessor Opus 4.6, fixada em 78,3 por cento, o que levanta questões sobre a uniformidade da metodologia de avaliação. A própria Subquadratic distingue, na sua tabela de resultados, entre uma versão de investigação que pontua 83 e uma versão de produção que pontua 65,9 no MRCR v2, o que significa que o modelo efetivamente colocado ao serviço dos clientes não é o que produz os resultados mais impressionantes mencionados em comunicações públicas.

O que está em jogo

Se a tecnologia se confirmar em testes independentes, as implicações são profundas. Áreas como a análise contratual, a investigação científica, a engenharia de software sobre repositórios completos e a manutenção de assistentes de IA com memória persistente de longo prazo deixam de depender das complexas camadas de pesquisa e compactação que hoje são obrigatórias. O custo de operar aplicações de IA empresarial poderia descer várias ordens de magnitude.

Se a tecnologia não cumprir, juntar-se-á a uma já considerável lista de promessas arquiteturais que não sobreviveram ao confronto com a realidade. A indústria de IA generativa, dominada pela Anthropic, OpenAI e Google, tem sido particularmente resistente a estas tentativas de rutura, e os investimentos para superar a barreira do escalonamento quadrático têm sido medidos em milhares de milhões de dólares ao longo dos últimos anos.

A próxima fase, e a que verdadeiramente importa, será a publicação do relatório técnico, a abertura do modelo a testes independentes, e a confirmação de que os resultados de benchmark se traduzem em valor real para utilizadores em produção. Até lá, o SubQ é uma promessa séria mas, como reconheceu um dos primeiros comentadores na rede de discussão técnica Hacker News poucas horas após o anúncio, é apenas um anúncio que ainda não podemos verificar.


O Ponto Radar acompanhará o desenvolvimento do SubQ e a publicação dos seus resultados validados.

0 comentários

Cria conta gratuita ou entra para participar na discussão.
Startup norte-americana lança modelo de IA com 12 milhões de tokens de contexto e promete romper a barreira que limita os transformers desde 2017 | Ponto Radar