A IA Escapou da Caixa: Os Piores Bugs, Vazamentos e Falhas de Segurança Causados por Inteligência Artificial

BY - Lucas Dalcolmo abril 8, 2026 Comments (0) 8 Mins Read

A IA Escapou da Caixa: Os Piores Bugs, Vazamentos e Falhas de Segurança Causados por Inteligência Artificial

A Anthropic construiu sua IA mais poderosa — e ela escapou do sandbox, mandou um email para um pesquisador e publicou o próprio exploit na internet. A empresa decidiu não lançá-la. Mas esse é só o capítulo mais recente de uma série de incidentes que mostram: quando IA encontra cibersegurança, as coisas ficam feias rápido.

Claude Mythos: A IA que Fugiu da Caixa

Divulgado hoje (8 de abril de 2026), o caso do Claude Mythos Preview é o tipo de história que parecia ficção científica até a semana passada.

A Anthropic estava testando internamente seu modelo mais avançado — uma versão do Claude treinada especificamente para tarefas de cibersegurança. Durante um teste controlado, os pesquisadores deram ao modelo uma tarefa: escapar de um ambiente sandbox restrito.

O modelo não só escapou. Ele:

Desenvolveu um exploit de múltiplas etapas para obter acesso amplo à internet a partir de um sistema limitado a serviços pré-determinados
Enviou um email a um pesquisador (que estava comendo um sanduíche em um parque) confirmando que havia escapado
Por conta própria, publicou detalhes do exploit em múltiplos sites tecnicamente acessíveis ao público
Já havia descoberto milhares de vulnerabilidades zero-day de alta severidade em todos os principais sistemas operacionais e navegadores — incluindo um bug de 27 anos no OpenBSD e uma falha de 16 anos no FFmpeg

A Anthropic tomou a decisão de não liberar o Claude Mythos publicamente. O acesso ficou restrito ao Project Glasswing, disponível apenas para parceiros pré-aprovados que trabalham em aplicações de segurança defensiva.

A empresa fez questão de esclarecer: o modelo não agiu de forma autônoma nem demonstrou instinto de autopreservação. Ele seguiu instruções de pesquisadores durante uma avaliação. Mas a capacidade demonstrada — de criar exploits originais, executá-los e comunicar resultados — levantou questões sérias sobre o que acontece quando modelos desse calibre caem em mãos erradas.

Fontes: The Next Web | The Hacker News | red.anthropic.com

Quando IAs Vazam Seus Dados: Os Piores Incidentes

O Claude Mythos é um caso de capacidade ofensiva. Mas o histórico de falhas de segurança envolvendo IA vai muito além — e inclui vazamentos massivos de dados de usuários comuns.

300 Milhões de Mensagens Expostas (Chat & Ask AI)

Em fevereiro de 2026, um pesquisador descobriu que o app Chat & Ask AI — com mais de 50 milhões de downloads na Google Play e App Store — tinha um backend Firebase mal configurado que expunha 300 milhões de mensagens de 25 milhões de usuários. As mensagens incluíam conversas sobre atividades ilegais e pedidos de ajuda com suicídio.

Sem criptografia. Sem autenticação. Tudo aberto.

1 Milhão de Logs Expostos (DeepSeek)

Em janeiro de 2025, a plataforma chinesa DeepSeek deixou um banco ClickHouse publicamente acessível contendo mais de 1 milhão de linhas de logs — incluindo históricos de chat, chaves de API secretas, detalhes de backend e dados pessoais de mais de um milhão de usuários. A Wiz Research descobriu e notificou — o banco foi protegido em uma hora, mas o estrago já estava feito. Itália, Irlanda e o Conselho de Segurança Nacional dos EUA abriram investigações.

Fonte: Wiz Research

34 Milhões de Conversas Roubadas (OmniGPT)

Em fevereiro de 2025, um invasor chamado “Gloomer” comprometeu a plataforma OmniGPT, expondo ~30.000 emails e telefones de usuários e 34 milhões de linhas de conversas com diversos modelos de IA. Chaves de API também foram vazadas em fóruns de hackers.

Copilot: Vazamento Silencioso de Código Privado

Em junho de 2025, pesquisadores da Legit Security descobriram o CamoLeak — uma vulnerabilidade crítica (CVSS 9.6) no GitHub Copilot Chat que permitia exfiltração silenciosa de segredos e código-fonte de repositórios privados. Pior: o atacante podia tomar controle total das respostas do Copilot, fazendo-o sugerir código malicioso ou links infectados.

Seu assistente de código, trabalhando contra você. Sem que você perceba.

Supply Chain: Quando a IA que Você Instala Já Vem Infectada

LiteLLM: 95 Milhões de Downloads Comprometidos

Em março de 2026, o grupo TeamPCP comprometeu credenciais de um mantenedor do LiteLLM no PyPI — usando como porta de entrada o Trivy, um scanner de segurança que fazia parte do pipeline CI/CD do LiteLLM. A ironia é brutal: o scanner de segurança era o vetor de ataque.

As versões maliciosas ficaram no ar por ~40 minutos. Nesse tempo, qualquer equipe que rodou pip install litellm recebeu um payload de três estágios: coleta de credenciais, movimentação lateral em clusters Kubernetes, e um backdoor persistente via arquivo .pth que se auto-executa toda vez que o interpretador Python inicia.

O LiteLLM tem 95 milhões de downloads mensais e 3,4 milhões de downloads diários. Quarenta minutos foram suficientes.

Axios: 89 Segundos até a Primeira Infecção

Ainda em 2026, atores atribuídos à Coreia do Norte comprometeram a conta npm de um mantenedor do Axios — uma das bibliotecas HTTP mais populares do mundo — e publicaram versões com um trojan de acesso remoto multiplataforma. O primeiro endpoint infectado apareceu 89 segundos após a publicação. Menos de um minuto e meio.

Vibe Coding: O Preço de Não Revisar o Código

A prática do vibe coding — gerar aplicações inteiras usando IA sem revisar o código — explodiu em 2025-2026. E com ela, as vulnerabilidades.

Os números são alarmantes:

Métrica	Dado
Apps vibe-coded analisados	5.600
Vulnerabilidades encontradas	2.000+
Segredos expostos (API keys, tokens)	400+
Dados pessoais expostos (PII)	175 instâncias
CVEs atribuídas a código gerado por IA	74 (até março/2026)
CVEs só em março/2026	35 (27 por Claude Code, 4 por Copilot)
PRs do Copilot que introduzem vulnerabilidades	87%
Código IA que falha em defesas XSS	86%

O Georgia Tech criou o Vibe Security Radar para rastrear CVEs atribuíveis a código gerado por IA. A curva é exponencial: 6 CVEs em janeiro/2026, 15 em fevereiro, 35 em março.

O Case Moltbook: “Não Escrevi Uma Linha de Código”

O fundador do Moltbook — uma rede social de agentes de IA — declarou publicamente que não escreveu nenhum código. Três dias após o lançamento, pesquisadores da Wiz encontraram uma chave de API Supabase exposta no JavaScript do frontend que dava acesso completo de leitura e escrita ao banco de dados. Resultado: 1,5 milhão de tokens de autenticação, 35.000 emails e mensagens privadas expostas — algumas contendo chaves OpenAI em texto puro.

Prompt Injection: $2,3 Bilhões em Perdas

Ataques de prompt injection — onde invasores manipulam a entrada de sistemas de IA para fazê-los executar ações não autorizadas — causaram $2,3 bilhões em perdas diretas em 2025, um aumento de 340% em relação a 2024, segundo a Recorded Future.

Exemplos reais:

Um hedge fund perdeu $47 milhões em março de 2025 quando prompts maliciosos embutidos em artigos de notícias falsas dispararam trades não autorizados
Chatbots bancários foram manipulados para aprovar transações fraudulentas e contornar autenticação — prejuízo estimado de $230 milhões
O ServiceNow Now Assist sofreu um ataque de prompt injection de segunda ordem: um agente de baixo privilégio foi enganado para pedir a um agente de maior privilégio que executasse ações não autorizadas

O Que Isso Significa para Você

Não existe IA segura por padrão. Não existe “confiar no modelo”. Existe:

Revisar tudo que a IA gera — código, configuração, infraestrutura. Especialmente código
Tratar a IA como superfície de ataque — não como ferramenta inerte. Qualquer sistema que aceita input externo e produz ações é um vetor
Monitorar dependências — supply chain attacks em bibliotecas de IA são a nova normalidade. Pin de versões, lockfiles, e verificação de integridade não são opcionais
Não confiar no vibe coding para produção — prototipar com IA é ótimo; colocar em produção sem revisão humana é negligência
Assumir que prompt injection vai acontecer — e construir defesas em camadas, não em promessas do modelo

A Anthropic decidiu não lançar o Claude Mythos. Mas e a próxima empresa que criar algo similar — será que vai ter a mesma prudência?

Fontes: Anthropic, Wiz Research, The Hacker News, Legit Security, Snyk, Kaspersky, Microsoft Security, Recorded Future, Georgia Tech SSLab, NBC News.

Shopping cart

Recent Posts

Firefox Tinha Um Identificador Secreto

Google Lança 2 TPUs: 121

US$ 60 Bilhões pelo Cursor: