Grok 4.3: 16 Agentes, 2M de Contexto e o Preço que Faz GPT-5.5 Suar

Poucas semanas depois de a xAI lançar o Grok 4.20 — aquele monstro que parecia mais um exercício de ego do que de engenharia —, Elon Musk já tem outro modelo na pista. O Grok 4.3 apareceu silenciosamente no seletor de modelos do grok.com em 17 de abril de 2026, sem fanfarra, sem keynote, sem aquelas threads megalomaníacas no X. E talvez isso seja justamente o que torna essa atualização mais interessante que as anteriores.

Eu acompanho o mercado de LLMs desde o GPT-3, e é raro ver uma empresa fazer um movimento que é ao mesmo tempo agressivo em preço e relevante em funcionalidade. O Grok 4.3 consegue as duas coisas — e coloca todo mundo, da OpenAI à Anthropic, numa posição desconfortável.

O que mudou do Grok 4.20 para o 4.3

Antes de entrar nos números, um contexto. O Grok 4.20 já era o modelo com a maior janela de contexto entre os modelos ocidentais fechados: 2 milhões de tokens. Isso não mudou no 4.3. O que mudou foi praticamente todo o resto.

A xAI manteve a arquitetura de 16 agentes simultâneos do sistema Heavy, mas reescreveu boa parte do pipeline de raciocínio. O resultado aparece nos benchmarks: o Grok 4.3 marcou 53 pontos no Artificial Analysis Intelligence Index, contra 49 do Grok 4.20 0309 v2. Parece pouco? O salto fica mais claro quando você olha para benchmarks específicos.

Benchmark	Grok 4.20 v2	Grok 4.3	Diferença
Intelligence Index	49	53	+4
GDPval-AA (agentes)	1179 ELO	1500 ELO	+321
τ²-Bench Telecom	93%	98%	+5
IFBench	81%	81%	=
AA-Omniscience	—	+8 pontos	—

O destaque é o GDPval-AA: um salto de 321 pontos de ELO num benchmark focado em tarefas agentic. Na prática, isso significa que o Grok 4.3 ficou absurdamente melhor em executar tarefas complexas no mundo real — navegar interfaces, preencher formulários, encadear ações — sem perder o fio da meada.

Geração de documentos: PDFs, planilhas e slides

Aqui é onde o Grok 4.3 pisou num território que nenhum concorrente oferece nativamente. Dentro do chat, sem extensões ou plugins, o modelo gera:

PDFs formatados com estrutura profissional
Planilhas completas e populadas com dados
Apresentações PowerPoint prontas para download

Parece coisa de agente de automação, não de LLM. E é exatamente esse o ponto. A xAI está borrando a linha entre “chat de IA” e “assistente de produtividade” de uma forma que o ChatGPT e o Claude ainda não fizeram dentro da interface principal.

Para quem trabalha com consultoria, pesquisa ou qualquer coisa que envolva gerar relatórios a partir de dados, isso muda o jogo. Você joga 2 milhões de tokens de contexto no Grok — contratos, planilhas financeiras, transcrições de reunião — e pede um deck de apresentação. Ele entrega. Tudo no mesmo chat.

Entendimento de vídeo

Outra adição relevante: o Grok 4.3 agora aceita vídeo como input. Não estamos falando de frames extraídos ou screenshots estáticos. Você faz upload de um vídeo e conversa sobre o conteúdo.

O Gemini 3.1 Pro já fazia algo parecido, mas a combinação de vídeo + 2M de contexto + geração de documentos cria um pipeline que não existe em nenhum outro lugar. Imagine gravar uma reunião de 3 horas, fazer upload no Grok e pedir atas, action items e um slide deck de resumo executivo. Tudo em uma única interação.

Será que funciona tão bem na prática quanto no marketing? Os benchmarks independentes ainda estão chegando. Mas a promessa é forte o suficiente para prestar atenção.

Na prática, testadores iniciais relatam que o entendimento de vídeo funciona bem para conteúdo estruturado — palestras, tutoriais, reuniões com agenda clara. Para vídeos mais caóticos (vlogs, streams ao vivo, footage de segurança com múltiplos ângulos), a qualidade cai bastante. O modelo tende a perder detalhes visuais sutis e foca mais no áudio transcrito do que no conteúdo visual propriamente dito. É um começo, não uma revolução.

Grok Computer: o agente de desktop

Junto com o Grok 4.3 veio o Grok Computer, um agente autônomo de desktop que usa o modelo como camada de raciocínio. Ele navega aplicações, executa workflows multi-etapa e interage com a interface do sistema operacional como um usuário humano faria.

Isso compete diretamente com o Computer Use do Claude e com o GPT-5.4 Operator. A diferença é que o Grok Computer tem acesso àquela janela de contexto monstruosa de 2M tokens, o que teoricamente permite workflows mais longos e complexos sem perder contexto no meio do caminho.

Na prática, agentes de desktop ainda estão no estágio “impressiona em demo, frustra em produção”. Mas é uma tendência que todas as grandes empresas estão perseguindo, e a xAI entrou no jogo.

Eu testei brevemente o Computer Use do Claude no mês passado — ele consegue fazer coisas impressionantes como navegar documentação, abrir PRs no GitHub e preencher formulários. Mas tropeça em qualquer interface não-padrão. Espero o mesmo do Grok Computer: funciona 70% do tempo, e nos 30% restantes você acaba fazendo na mão mais rápido do que explicando o que deu errado.

Preço: o verdadeiro nocaute

Se tem uma coisa que diferencia o Grok 4.3 da concorrência, é a estratégia de preço. A xAI cortou custos de forma agressiva:

Métrica	Grok 4.20 v2	Grok 4.3	Redução
Input (por 1M tokens)	~$2.00	$1.25	-37.5%
Output (por 1M tokens)	~$6.00	$2.50	-58.3%
Custo do Intelligence Index	~$494	~$395	-20%

Vamos colocar em perspectiva. O GPT-5.5 da OpenAI cobra $15 por 1M de tokens de input e $60 por 1M de output para o modelo reasoning. O Claude Opus 4.6 não é muito mais barato. O Grok 4.3 está entregando performance agentic comparável — em alguns benchmarks superior — por uma fração do custo.

E aqui fica interessante: o Grok 4.3 usa aproximadamente 44% mais tokens de output que seu antecessor para completar as mesmas tarefas. Ou seja, ele “pensa mais”, gera respostas mais elaboradas, mas mesmo assim sai mais barato no final por causa da redução de preço por token.

Para startups e developers independentes que rodam agentes 24/7, a diferença de custo é brutal. Um agente que antes custava $500/mês no GPT-5.5 pode custar menos de $100/mês no Grok 4.3.

Fiz uma conta rápida com um caso de uso que conheço bem: um agente de suporte técnico que processa ~50 tickets por dia, cada um consumindo em média 8.000 tokens de input e gerando 2.000 tokens de output. No GPT-5.5, isso dava uns $27/dia. No Grok 4.3? Menos de $3/dia. São $720/mês de economia. Para uma startup early-stage, isso é a diferença entre viabilidade e morte do projeto.

Claro, preço não é tudo. Se o modelo alucina mais, se a latência é pior, se o suporte da API cai toda terça-feira — a economia evapora rápido. Mas os números iniciais são tentadores o suficiente para justificar um piloto.

O elefante na sala: $300/mês pelo SuperGrok Heavy

Tem um porém. O Grok 4.3 só está disponível no plano SuperGrok Heavy — que custa US$ 300/mês. Para quem usa via API, o preço por token é acessível. Mas para o usuário final que quer acessar pelo grok.com? São 300 dólares. Por mês.

O plano SuperGrok padrão ($30/mês) até mostra o modelo no seletor, mas não deixa ativar. É como ir a uma concessionária e deixarem você sentar num Ferrari, mas não ligar o motor.

A xAI promete um rollout mais amplo entre meados e final de maio de 2026, provavelmente baixando a barreira de acesso. Até lá, o Grok 4.3 é essencialmente um produto enterprise que está em beta público pago.

A falha que ninguém perdoa: zero memória persistente

E aqui está o calcanhar de Aquiles. O Grok 4.3 não tem memória entre sessões. Toda vez que você abre um novo chat, o modelo esquece absolutamente tudo sobre você.

O Claude tem Projects e memória persistente há mais de um ano. O ChatGPT tem memória desde 2024. Até o Gemini salva contexto entre conversas. O Grok? Nada. Zero. Cada sessão começa do zero.

Para um modelo que custa $300/mês e se posiciona como ferramenta de produtividade enterprise, isso é quase imperdoável. Você precisa re-introduzir contexto toda vez: quem você é, qual seu projeto, qual o padrão de código que usa, quais suas preferências.

A janela de 2M tokens ameniza o problema durante uma sessão — você pode carregar uma quantidade absurda de contexto manual. Mas entre sessões? Tábula rasa.

Como o Grok 4.3 se compara aos rivais

Vou ser direto com uma comparação prática, sem floreios:

Feature	Grok 4.3	Claude Opus 4.6	GPT-5.5	Gemini 3.1 Pro
Contexto	2M tokens	200K tokens	256K tokens	1M tokens
Preço API (input)	$1.25/1M	~$15/1M	~$15/1M	~$3.50/1M
Preço API (output)	$2.50/1M	~$75/1M	~$60/1M	~$10.50/1M
Memória persistente	Não	Sim	Sim	Sim
Geração de docs	PDF, PPTX, XLSX	Não nativo	Parcial	Não nativo
Vídeo como input	Sim	Não	Sim	Sim
Agente de desktop	Grok Computer	Computer Use	Operator	Não
Agentic (GDPval)	1500 ELO	—	—	—

O Grok ganha de lavada em contexto e preço. Perde em memória e ecossistema. O Claude continua sendo a melhor opção para escrita longa e raciocínio cuidadoso. O GPT-5.5 tem o ecossistema mais maduro de plugins e integrações. O Gemini oferece o melhor custo-benefício para uso geral.

Não existe “melhor modelo” universal. Existe o melhor modelo para o seu caso de uso.

Para quem o Grok 4.3 faz sentido

Depois de analisar tudo, aqui estão os cenários onde o Grok 4.3 realmente brilha:

Pesquisa e consultoria: Se você precisa processar volumes massivos de documentos (contratos, relatórios financeiros, transcrições) e gerar deliverables formatados, a combinação de 2M de contexto + geração nativa de PDF/PPTX é imbatível.

Agentes autônomos via API: O preço por token é tão baixo que rodar agentes 24/7 fica financeiramente viável. Com $1.25 de input e $2.50 de output por milhão de tokens, você pode construir sistemas multi-agente sem queimar o orçamento.

Análise de vídeo em escala: Para empresas que lidam com horas de footage — segurança, mídia, educação — o entendimento nativo de vídeo combinado com contexto longo é um diferencial real.

Onde NÃO faz sentido:

Usuários individuais que precisam de memória entre sessões
Quem depende de integrações com ferramentas externas (o ecossistema do GPT ainda é mais rico)
Quem precisa de respostas cuidadosas e nuancadas em temas sensíveis (o Claude continua superior aqui)

O mercado de LLMs virou guerra de preço?

O que o Grok 4.3 sinaliza é uma mudança fundamental na dinâmica do mercado. Não é mais suficiente ter o modelo “mais inteligente”. O DeepSeek V4 já provou que modelos open-source baratos podem competir com os gigantes. O Qwen 3.6 mostrou que modelos compactos destroem modelos 10 vezes maiores em certas tarefas. Agora a xAI mostra que mesmo entre modelos fechados e de ponta, o preço pode cair 50-60% de uma versão para outra.

A OpenAI e a Anthropic vão ter que responder. Não necessariamente baixando preços — talvez diferenciando por features que justifiquem o premium. Memória, integrações, confiabilidade, segurança. Mas o argumento de “somos mais inteligentes, então cobramos mais” está cada vez mais difícil de sustentar quando a diferença de performance entre o top 5 de modelos é medida em pontos percentuais, não em ordens de magnitude.

A real é que estamos entrando na fase de commoditização dos LLMs. E como acontece com toda commodity, quem se diferencia é quem oferece o melhor pacote — não necessariamente o melhor motor.

O Grok 4.3 não é o melhor modelo do mercado. Mas talvez seja o melhor negócio. E no final, para a maioria das empresas, isso importa mais.

Se você está avaliando migrar seus agentes de IA para o Grok 4.3, minha sugestão: espere os benchmarks independentes de maio. Se o GDPval-AA se confirmar e a estabilidade da API for decente, vale testar com um workload real — não com prompts de benchmark. A diferença entre “funciona no benchmark” e “funciona no meu pipeline de produção” costuma ser um abismo.

A documentação oficial da API está em docs.x.ai, e a análise completa de benchmarks pode ser acompanhada no Artificial Analysis.

Shopping cart

Recent Posts

Apple Vazou Arquivos do Claude

IA Já Produz 75.000 Músicas

Grok 4.3: 16 Agentes, 2M