LongCat-2.0: O Modelo que Enganou Devs por 2 Meses

Um modelo anônimo chamado Owl Alpha

Imagine a cena: você é dev, testa um modelo novo no OpenRouter, e ele simplesmente resolve seus bugs melhor que qualquer outro. Você não sabe quem fez. Não sabe onde roda. Não sabe nem o nome real. Só sabe que funciona.

Foi exatamente isso que aconteceu com milhares de desenvolvedores nos últimos dois meses. Um modelo chamado “Owl Alpha” apareceu do nada no OpenRouter, sem documentação, sem empresa por trás (pelo menos não publicamente), e começou a subir nos rankings. Primeiro lugar no Hermes Agent workspace. Segundo no Claude Code. 11 trilhões de tokens processados por mês.

Aí, no dia 30 de junho de 2026, a Meituan (sim, a gigante chinesa de delivery) revelou: Owl Alpha era, na verdade, o LongCat-2.0. Um modelo de 1.6 trilhão de parâmetros, treinado inteiramente em chips chineses, com licença MIT.

E a comunidade dev perdeu a cabeça.

O que é o LongCat-2.0 (em números que importam)

Vamos direto ao que interessa.

Spec	Valor
Parâmetros totais	1.6 trilhão
Parâmetros ativos por token	33 a 56 bilhões (~48B média)
Arquitetura	Mixture of Experts (MoE)
Contexto	1 milhão de tokens
Tokens de treino	35+ trilhões
Hardware de treino	50.000+ ASICs domésticos chineses
Licença	MIT
Preço API	US$ 0,75/US$ 2,95 por milhão de tokens (input/output)
Preço promocional	US$ 0,30/US$ 1,20 (cache grátis)

Pra colocar em perspectiva: o GPT-5.5 cobra US$ 5/US$ 30 por milhão de tokens. O Claude Sonnet 5 cobra US$ 2/US$ 10. O LongCat-2.0 entrega performance comparável por uma fração do custo.

Mas calma. “Performance comparável” precisa de evidência. Vamos aos benchmarks.

Benchmarks: onde o LongCat-2.0 se destaca (e onde não)

A tabela abaixo compara o LongCat-2.0 com os modelos mais usados por devs hoje:

Benchmark	LongCat-2.0	GPT-5.5	Claude Opus 4.6	Gemini 3.1 Pro
SWE-bench Pro	59.5%	58.6%	N/D	54.2%
SWE-bench Multilingual	77.3%	N/D	N/D	N/D
Terminal-Bench 2.1	70.8%	N/D	N/D	N/D
FORTE (agentes)	73.2%	77.8%	73.2% (empate)	N/D
BrowseComp	79.9%	N/D	N/D	N/D
GPQA-diamond	88.9%	N/D	N/D	N/D
IFEval	90.0%	N/D	N/D	N/D

O destaque: 59.5% no SWE-bench Pro. Isso significa que o LongCat-2.0 resolve quase 6 em cada 10 issues reais do GitHub automaticamente. E bateu o GPT-5.5 nesse benchmark (58.6%).

No FORTE, que mede tarefas de agente em ambiente de escritório, o LongCat-2.0 empatou com o Claude Opus 4.6 (73.2%) mas ficou atrás do GPT-5.5 (77.8%).

A conclusão prática: pra coding e resolução automatizada de bugs, o LongCat-2.0 é competitivo com os melhores modelos do mercado. Pra tarefas gerais de agente, ele está no top 3. E custa uma fração do preço.

A arquitetura por trás: MoE turbinado

O LongCat-2.0 não é “só mais um modelo grande”. A Meituan fez escolhas arquiteturais bem específicas que vale a pena entender.

Mixture of Experts: 1.6T, mas só 48B ativados

O conceito de Mixture of Experts (MoE) é elegante: você tem um modelo enorme (1.6 trilhão de parâmetros), mas cada token ativa apenas uma fração desses parâmetros. No caso do LongCat-2.0, entre 33 e 56 bilhões por token, com média de 48 bilhões.

Isso significa que a inferência é muito mais rápida e barata do que um modelo denso de tamanho equivalente. Você tem a “inteligência” de 1.6 trilhão, mas o custo computacional de ~48 bilhões.

LongCat Sparse Attention (LSA)

O sistema de atenção esparsa do LongCat-2.0 tem três componentes:

Streaming-aware Indexing (SI): acesso contíguo alinhado ao hardware com seleção dinâmica aleatória
Cross-Layer Indexing (CLI): uma única passada de indexação serve múltiplas camadas consecutivas, com destilação cross-layer durante o treinamento
Hierarchical Indexing (HI): esquema de scoring em duas fases, do grosso ao fino

Traduzindo para dev: o modelo é absurdamente eficiente em contextos longos. Ele não precisa “olhar” para cada token do contexto de 1 milhão, só para os trechos relevantes.

N-gram Embedding: 135B parâmetros extras

Uma sacada interessante: o LongCat-2.0 usa uma camada extra de 135 bilhões de parâmetros só para embeddings de n-gramas. Isso dá ao modelo ~100x mais representações de frases sem aumentar substancialmente o tamanho efetivo.

Na prática, isso melhora a compreensão de padrões de código, nomes de variáveis compostas e expressões idiomáticas de programação.

Sistema de especialistas híbrido

O modelo roda três módulos especializados internamente:

Agent: manipulação de ferramentas, chamadas de função, execução de código
Reasoning: resolução de problemas, raciocínio matemático, debugging
Interaction: conversação, explicação, sumarização

Um roteador inteligente decide qual módulo (ou combinação de módulos) ativar pra cada query. Se você pede pra ele debugar um erro, ele ativa Reasoning + Agent. Se você quer explicação de um conceito, ele ativa Interaction + Reasoning.

A história do Owl Alpha: 2 meses de anonimato

Essa é a parte mais fascinante.

Em abril de 2026, um modelo chamado “Owl Alpha” apareceu no OpenRouter. Sem marca, sem empresa associada, sem paper publicado. Só um endpoint de API com performance surpreendente.

Os devs que testaram começaram a espalhar: “esse modelo é bom demais pra ser anônimo”. E ele foi ganhando tração. Em semanas, atingiu o primeiro lugar no Hermes Agent workspace. Em dois meses, processava 11 trilhões de tokens por mês.

O que chamou atenção não era só a qualidade. O preço era absurdamente baixo. E o modelo melhorava consistentemente, como se alguém estivesse iterando em tempo real.

Alguns devs especularam que era um modelo da Google. Outros apostavam que era da Anthropic testando algo novo. Os mais criativos sugeriram que era a Apple finalmente entrando na corrida de LLMs.

Ninguém apostou na Meituan. A empresa de delivery chinesa.

Quando a revelação aconteceu em 30 de junho, a reação foi mista. Surpresa pela origem, respeito pela performance, e uma discussão acalorada sobre o fato de que devs adotaram um modelo baseado puramente em mérito, sem saber nada sobre quem o fez.

Como usar o LongCat-2.0 na prática

O modelo está disponível no Hugging Face sob licença MIT. Você pode rodar localmente (se tiver hardware) ou usar via API.

Via API (OpenRouter)

A forma mais fácil. O modelo continua disponível no OpenRouter sob o nome original e o novo:


curl -X POST "https://openrouter.ai/api/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENROUTER_API_KEY" \
  -d '{
    "model": "meituan-longcat/LongCat-2.0",
    "messages": [
      {"role": "user", "content": "Refatore este código para usar async/await"}
    ]
  }'

Via Transformers (local)


from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model="meituan-longcat/LongCat-2.0"
)

messages = [
    {"role": "user", "content": "Encontre o bug neste código..."}
]

response = pipe(messages)

Via vLLM (servidor local)


pip install vllm
vllm serve "meituan-longcat/LongCat-2.0"

Depois é só bater na API local como se fosse OpenAI:


curl -X POST "http://localhost:8000/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meituan-longcat/LongCat-2.0",
    "messages": [
      {"role": "user", "content": "Explique esse stack trace"}
    ]
  }'

Via SGLang (recomendado pela Meituan)


python3 -m sglang.launch_server \
    --model-path "meituan-longcat/LongCat-2.0" \
    --host 0.0.0.0 \
    --port 30000

Requisito de hardware para rodar local: 16x H20 GPUs com Tensor Parallelism + Expert Parallelism. Sim, você não vai rodar isso no seu notebook. A API é o caminho pra 99% dos devs.

O elefante na sala: treinado em chips chineses

O LongCat-2.0 foi treinado inteiramente em 50.000+ ASICs fabricados na China. Isso é significativo por vários motivos.

Primeiro, a estabilidade. A Meituan afirma que o treinamento de 35+ trilhões de tokens completou “sem rollbacks ou spikes de loss irrecuperáveis”. Quem já treinou modelos grandes sabe que isso é impressionante, independente do hardware.

Segundo, a independência. Enquanto a maioria dos labs de IA depende de GPUs Nvidia (especialmente H100 e B200), a Meituan provou que é possível treinar modelos de fronteira com hardware alternativo.

Terceiro, o contexto de mercado. Com as restrições de exportação de chips dos EUA para a China, muitos assumiram que labs chineses ficariam para trás. O LongCat-2.0 desafia essa narrativa: com hardware próprio e engenharia criativa, o resultado final compete com modelos treinados nos melhores chips disponíveis.

Preço por performance: a conta que importa

Pra quem usa IA no dia a dia pra programar, o que importa é a relação entre qualidade e custo. E aqui o LongCat-2.0 brilha:

Modelo	Input (por 1M tokens)	Output (por 1M tokens)	SWE-bench Pro
GPT-5.5	US$ 5,00	US$ 30,00	58.6%
Claude Sonnet 5	US$ 2,00	US$ 10,00	N/D
DeepSeek V4-Pro	US$ 0,435	US$ 0,87	N/D
LongCat-2.0	US$ 0,75	US$ 2,95	59.5%
LongCat-2.0 (promo)	US$ 0,30	US$ 1,20	59.5%

No preço promocional, o LongCat-2.0 custa 16x menos que o GPT-5.5 em output e entrega resultado superior no SWE-bench Pro.

Pra equipes que rodam milhões de tokens por dia em pipelines de CI/CD, code review automatizado ou agentes de coding, essa diferença é brutal no orçamento mensal.

Contexto de 1 milhão de tokens: pra que serve?

Um milhão de tokens é muito. Tipo, muito mesmo. Pra ter noção:

O código-fonte completo do Linux kernel (sem histórico git) cabe em ~800K tokens
Um monorepo médio de startup (100K linhas) cabe em ~200K tokens
A documentação completa do React + Next.js + TypeScript cabe em ~150K tokens

Na prática, com 1M de contexto, você pode jogar um codebase inteiro dentro do modelo e pedir pra ele entender as dependências, encontrar bugs cross-file, ou refatorar módulos que interagem entre si.

O LongCat-2.0 foi treinado em centenas de bilhões de tokens de 1M de contexto, então ele é especificamente otimizado pra não perder informação no meio de contextos longos (o famoso problema “lost in the middle”).

Features de agente: Tool Calling e Thinking Mode

O LongCat-2.0 suporta nativamente:

Tool Calling


{
  "messages": [
    {"role": "user", "content": "Qual o clima em São Paulo?"}
  ],
  "tools": [
    {
      "type": "function",
      "function": {
        "name": "get_weather",
        "description": "Retorna o clima atual",
        "parameters": {
          "type": "object",
          "properties": {
            "city": {"type": "string"}
          }
        }
      }
    }
  ]
}

Thinking Mode


{
  "enable_thinking": true,
  "save_reasoning_content": true
}

Com enable_thinking, o modelo expõe seu raciocínio interno no campo reasoning_content. Útil pra debugging de prompts e pra entender por que ele tomou determinada decisão.

O que os testes independentes dizem

A Decrypt testou o modelo internamente e posicionou a qualidade “entre o DeepSeek V4 Flash e o V4 Pro” para coding. Isso confirma os benchmarks: é um modelo competitivo, não imbatível.

Pontos fortes apontados pelos testes:

Excelente em ciclos iterativos de melhoria de código
Muito bom em entender contexto longo de codebase
Tool calling robusto e consistente

Pontos fracos:

Gaps ocasionais de lógica em cenários muito complexos
Raciocínio matemático atrás do GPT-5.5
Às vezes verboso demais em explicações

Pra quem o LongCat-2.0 faz sentido?

Nem todo modelo serve pra todo caso de uso. Aqui vai minha avaliação honesta:

Faz sentido se você:

Precisa de um modelo de coding open source e barato
Roda pipelines de agente com alto volume de tokens
Quer contexto longo de verdade (1M tokens sem degradação)
Precisa de licença MIT pra uso comercial sem restrições

Não faz sentido se você:

Precisa do melhor raciocínio absoluto (GPT-5.5 e Opus 4.6 ainda lideram em tarefas complexas)
Quer rodar localmente sem data center (16x H20 não é “rodar local”)
Precisa de suporte enterprise com SLA (a Meituan não oferece isso fora da China, por enquanto)

O que isso significa pro mercado de IA

O LongCat-2.0 não é “o melhor modelo do mundo”. Mas ele prova três coisas importantes:

A primeira: open source competitivo é real. MIT license, Hugging Face, vLLM, SGLang. Qualquer dev pode baixar, modificar e deployar. Isso pressiona os modelos fechados a justificarem seus preços.

A segunda: hardware alternativo funciona. Chips chineses domésticos treinaram um modelo de fronteira sem rollbacks. O duopólio Nvidia/AMD no treinamento de IA não é inevitável.

A terceira (e talvez a mais importante): devs avaliam modelos por mérito. Milhares adotaram o Owl Alpha sem saber quem estava por trás. Sem marketing, sem press release, sem benchmark cherry-picking. Só performance real em tarefas reais.

E talvez esse seja o takeaway mais poderoso: num mercado cheio de hype e benchmarks inflados, um modelo anônimo provou que código bom se vende sozinho.

Fontes: Hugging Face Model Card | Decrypt | VentureBeat

Shopping cart

Recent Posts

LongCat-2.0: O Modelo que Enganou

shadcn/ui Trocou o Radix pelo

A IA Matou as Vagas