GPT-5.5 Acabou de Sair: O Super App da OpenAI que Trabalha por Você

A OpenAI acabou de jogar uma bomba no mercado

Enquanto todo mundo ainda digeria o GPT-5.4, lançado há poucas semanas, Sam Altman e companhia decidiram que era hora de acelerar. O GPT-5.5 chegou nesta quarta-feira (23 de abril) e não é só mais um bump de versão — é o primeiro modelo completamente retreinado desde o GPT-4.5, e vem com uma proposta que muda o jogo: transformar o ChatGPT num super app que faz tudo sozinho.

Eu sei, “super app” virou buzzword. Mas dessa vez a OpenAI entregou algo concreto: ChatGPT, Codex e o Atlas (o browser agent da empresa) agora vivem numa interface unificada. Você conversa, codifica, navega na web e gerencia tarefas complexas — tudo no mesmo lugar, com contexto compartilhado entre as ferramentas.

Vamos destrinchar o que mudou, o que os benchmarks dizem, quanto custa e, principalmente, se vale a pena trocar o que você já usa.

O que é o GPT-5.5, afinal?

O GPT-5.5 (codinome interno: Spud — sim, “batata”) é o modelo mais recente da OpenAI. Diferente dos incrementos anteriores (5.1, 5.2, 5.3, 5.4), que eram fine-tunings e otimizações do mesmo base model, o 5.5 é um retreinamento completo da fundação.

Na prática, isso significa que o modelo não só ficou mais inteligente — ele aprendeu padrões novos desde o zero, em vez de tentar empilhar melhorias em cima de uma base antiga.

Mark Chen, Chief Research Officer da OpenAI, descreveu assim: o modelo “mostra ganhos significativos em workflows de pesquisa científica e técnica” e pode “realmente ajudar cientistas especialistas a avançar suas pesquisas.”

Mas o que mais chama atenção não é a inteligência bruta. É a agência.

Agentes que realmente funcionam (desta vez)

A grande aposta do GPT-5.5 é o comportamento agêntico. Enquanto modelos anteriores precisavam de prompts super estruturados e supervisão passo-a-passo, a OpenAI diz que o 5.5 consegue pegar uma “tarefa bagunçada e com múltiplas partes” e:

Planejar a execução por conta própria
Usar ferramentas (browser, código, planilhas, calendário)
Verificar o próprio trabalho
Navegar ambiguidade sem travar
Continuar até a tarefa estar completa

Na prática? Você diz “pesquisa os 10 melhores frameworks de backend em 2026, monta uma tabela comparativa e me manda por email” — e o modelo faz tudo. Sem que você precise ficar babysitting cada etapa.

Eu já vi promessas parecidas de outros modelos. A diferença é que os benchmarks dessa vez sustentam o discurso.

Os benchmarks: números que impressionam

Vou colocar os principais resultados numa tabela para facilitar a comparação:

Benchmark	O que mede	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro
Artificial Analysis Index	Inteligência geral	60	57	57
GDPval	Trabalho de conhecimento (44 profissões)	84.9%	~80%	—
Terminal-Bench 2.0	Workflows de linha de comando	82.7%	—	—
SWE-Bench Pro	Resolução de issues no GitHub	58.6%	—	—
OSWorld-Verified	Operação autônoma de computador	78.7%	—	—
Tau2-bench Telecom	Atendimento ao cliente	98.0%	—	—
BrowseComp	Pesquisa na web	90.1%	—	—
FrontierMath Tier 1-3	Matemática avançada	52.4%	—	—
AA-Omniscience	Precisão de conhecimento	57%	36%	50%

Alguns destaques que saltam aos olhos:

78.7% no OSWorld — isso significa que o modelo consegue operar ambientes de computador reais (não simulados) com quase 80% de sucesso. Estamos falando de clicar em botões, preencher formulários, navegar entre apps.

84.9% no GDPval — esse benchmark testa tarefas economicamente valiosas em 44 profissões diferentes. Quase 85% de sucesso é absurdo.

98% no Tau2-bench — em workflows de atendimento ao cliente, o modelo praticamente não erra.

Mas nem tudo são flores. A taxa de alucinação no AA-Omniscience ficou em 86% — o que significa que quando o modelo diz algo sobre um fato específico, há uma chance alta de estar inventando. O Claude Opus 4.7 alucina menos nesse mesmo teste, apesar de ter precisão geral menor.

O elefante na sala: alucinações

Eu preciso ser honesto aqui. Um modelo que lidera em quase todos os benchmarks de capacidade mas tem 86% de taxa de alucinação no teste de conhecimento factual é… complicado.

Para tarefas de código, pesquisa estruturada e operação de computador? O GPT-5.5 parece ser genuinamente melhor. Mas se você precisa de informações factuais confiáveis — tipo perguntar datas, nomes, eventos históricos — eu manteria o pé atrás.

A OpenAI provavelmente vai argumentar que a precisão factual está melhorando com o acesso a ferramentas (o modelo pode simplesmente pesquisar no Google em vez de confiar na memória). E faz sentido. Mas é um ponto de atenção que ninguém deveria ignorar.

O Super App: ChatGPT + Codex + Atlas

Aqui é onde a coisa fica realmente interessante pra quem trabalha com tech no dia-a-dia.

O que mudou na prática

O ChatGPT deixou de ser “só um chat”. Com a integração do Codex (o agente de código) e do Atlas (o browser agent), a interface agora funciona como um workspace unificado:

Chat para conversas e brainstorming
Codex para escrever, debugar e revisar código em repositórios inteiros
Atlas para navegar na web, preencher formulários, extrair dados

E o melhor: tudo compartilha o mesmo contexto. O Atlas pesquisa algo na web, o Codex usa essa informação para gerar código, e o chat sintetiza tudo pra você. Sem copiar e colar entre janelas.

Codex: o que melhorou

O Codex já existia, mas com o GPT-5.5 por baixo ele ficou significativamente mais capaz:

Resolução de issues reais do GitHub com 58.6% de sucesso (SWE-Bench Pro)
Terminal-Bench 2.0 saltou 7 pontos em relação ao GPT-5.4
O CLI do Codex é gratuito e open-source desde março de 2026


# Instalar o Codex CLI (gratuito)
npm install -g @openai/codex

# Usar para resolver uma issue
codex resolve --repo ./meu-projeto --issue "Fix memory leak in WebSocket handler"

Para times de desenvolvimento, o custo gira em torno de $100-$200 por desenvolvedor por mês, dependendo do uso. O acesso via API custa $1.25 por milhão de tokens de input e $10 por milhão de tokens de output.

Atlas: o browser que trabalha pra você

O Atlas é o componente menos comentado mas potencialmente mais impactante. É um agente de navegação que consegue:

Abrir sites, fazer login (com suas credenciais salvas)
Preencher formulários complexos
Extrair dados de páginas
Navegar entre múltiplas abas com contexto

Imagine pedir: “Entra no meu painel da AWS, verifica quais instâncias EC2 estão rodando há mais de 30 dias e me faz um relatório.” O Atlas faz isso.

Quanto custa (e vale a pena?)

Aqui vai a tabela de preços atualizada:

Plano	Preço	O que inclui
ChatGPT Plus	$20/mês	GPT-5.5 (uso limitado)
ChatGPT Pro	$200/mês	GPT-5.5 + GPT-5.5 Pro (extended reasoning)
Business	$25/user/mês (anual)	GPT-5.5 + Codex + Atlas
Enterprise	Sob consulta	Tudo + auditoria + compliance

API (para desenvolvedores)

Modelo	Input	Output
GPT-5.5	$5/1M tokens	$30/1M tokens
GPT-5.4 (anterior)	~$2.5/1M	~$15/1M

Sim, o preço por token praticamente dobrou. Mas a OpenAI argumenta que o custo real por tarefa caiu cerca de 20%, porque o modelo usa 40% menos tokens de output para chegar no mesmo resultado.

E aqui tem um truque interessante (se você quer gastar menos tokens): o GPT-5.5 tem cinco níveis de esforço (effort levels). No nível médio, ele iguala o Claude Opus 4.7 gastando um quarto do custo. Se você não precisa do máximo de capacidade o tempo todo, dá pra economizar bastante.

Janela de contexto

1 milhão de tokens — mesma capacidade do Gemini, mas agora com a inteligência do GPT-5.5 por trás. Isso é suficiente para analisar repositórios inteiros de código, documentos longos e conversas extensas sem perder o fio.

GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro

A pergunta que todo mundo quer resposta: qual é o melhor?

Critério	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro
Inteligência geral	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
Código	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
Alucinações	⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
Agentes	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
Preço	⭐⭐⭐	⭐⭐	⭐⭐⭐⭐
Contexto	⭐⭐⭐⭐⭐ (1M)	⭐⭐⭐⭐ (200K)	⭐⭐⭐⭐⭐ (2M)
Ecossistema	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐

A real é que depende do seu caso de uso:

Para agentes e automação: GPT-5.5 leva a vantagem. O ecossistema do super app + Codex + Atlas é imbatível no momento.
Para código e precisão factual: Claude Opus 4.7 ainda é rei. Menos alucinação e o Claude Code é excelente — mesmo que o orçamento de IA da Uber tenha evaporado em 4 meses por causa dele.
Para orçamento apertado: Gemini 3.1 Pro oferece o melhor custo-benefício, com 2M de contexto e preços agressivos.

O que muda para desenvolvedores brasileiros

Se você trabalha com desenvolvimento no Brasil, algumas coisas práticas mudam com o GPT-5.5:

1. API ainda não disponível — O GPT-5.5 está disponível no ChatGPT mas a API vai demorar “um pouco mais” enquanto a OpenAI finaliza o trabalho de segurança. Se você depende da API para produção, vai precisar esperar.

2. Codex CLI já roda — O CLI é gratuito, open-source e funciona com os modelos anteriores enquanto o 5.5 não chega na API. Vale testar.

3. Modelos antigos vão sumir — O GPT-5.2 Thinking será aposentado em 5 de junho de 2026. Se você tem workflows que dependem dele, comece a migrar agora.

4. Custo em dólar — Com o preço por token dobrando, projetos que consomem muitos tokens vão sentir o impacto. Usar os effort levels baixos ajuda a controlar o gasto.

Segurança: o que a OpenAI mudou

A OpenAI reforçou os classificadores de segurança cibernética no GPT-5.5. O modelo foi avaliado por red teamers internos e externos, além de 200 parceiros de acesso antecipado.

Alguns pontos relevantes:

Classificadores mais rigorosos para riscos cibernéticos
Avaliação completa do framework de segurança da empresa
Testes com mais de 200 parceiros antes do lançamento público
O GPT-5.5 Pro (extended reasoning) só está disponível para Pro, Business e Enterprise — não para o tier gratuito

A empresa claramente quer evitar repetir incidentes de modelos anteriores que geravam conteúdo problemático. Se isso vai funcionar na prática, só o tempo vai dizer.

A corrida dos modelos: para onde vamos?

O GPT-5.5 é posicionado explicitamente como um “bridge release” — uma ponte para o GPT-6, que a OpenAI já confirmou estar em desenvolvimento. Isso significa que o ritmo de lançamentos vai continuar acelerado.

Para colocar em perspectiva:

GPT-5 → lançamento inicial
GPT-5.2 → primeiro refinamento major
GPT-5.4 → algumas semanas atrás
GPT-5.5 → hoje, retreinamento completo
GPT-6 → em algum momento nos próximos meses

A Anthropic responde com o Claude Mythos (que ainda está em preview). O Google empurra o Gemini 3.1 Pro. A competição está mais acirrada do que nunca.

O resultado prático pra gente? Modelos melhores, mais rápidos e — eventualmente — mais baratos. Como já vimos com o lançamento das novas TPUs do Google, a competição empurra todo mundo pra frente. O preço por token subiu agora, mas a tendência histórica é de queda conforme a competição força todo mundo a otimizar.

E aquela história do “super app”?

Greg Brockman, cofundador da OpenAI, disse que o GPT-5.5 é o modelo em torno do qual a empresa está construindo seu super app desktop. A ideia é que o ChatGPT se torne a interface única para tudo: do email ao código, da pesquisa à análise de dados.

Funciona? Parcialmente. A integração ChatGPT + Codex já é bastante fluida. O Atlas ainda está amadurecendo. Mas a visão é clara: a OpenAI quer ser o sistema operacional da sua vida profissional.

Se isso te empolga ou te assusta depende de quanto você confia em colocar todas as suas ferramentas nas mãos de uma única empresa. Para enterprise, os recursos de auditoria — tracking de mudanças em workspaces, monitoramento de autenticação e padrões de uso do Codex — ajudam a mitigar o risco.

Pessoalmente? Eu usaria o super app para experimentar, mas manteria minhas ferramentas independentes como backup. Dependência de vendor lock-in nunca é uma boa ideia, especialmente quando o mercado está mudando tão rápido.

O que testar primeiro

Se você quer experimentar o GPT-5.5 agora:

Abra o ChatGPT e selecione o modelo GPT-5.5 no dropdown
Teste uma tarefa agêntica: peça para ele pesquisar algo na web, montar uma tabela e gerar código baseado nos dados
Compare com seu workflow atual: faça a mesma tarefa no Claude ou no Gemini e veja qual modelo entrega melhor
Teste os effort levels: se você usa a API, experimente níveis mais baixos de esforço para ver se a qualidade se mantém aceitável

E se você é desenvolvedor, instale o Codex CLI e rode contra um dos seus repos. O feedback é quase instantâneo e, sendo open-source, você pode inspecionar exatamente o que ele faz.

A briga entre OpenAI, Anthropic e Google nunca esteve tão boa — e quem ganha com isso somos nós, que temos cada vez mais opções — incluindo alternativas como o Kimi K2.6 — para escolher a ferramenta certa para cada trabalho.

Shopping cart

Recent Posts

GPT-5.5 Acabou de Sair: O

Firefox Tinha Um Identificador Secreto

Google Lança 2 TPUs: 121