A fatura por trás do botão “com IA”
Colocar um botão “com IA” num produto é fácil. Fazer esse botão não falir sua margem, responder em menos de dois segundos e não vazar dados do cliente é outro jogo — o jogo de operações invisíveis que separa demo de negócio.
A rotina é parecida em quase toda empresa que tenta: a primeira versão funciona, encanta meia dúzia de stakeholders e, semanas depois, surge a planilha de custos. Os tokens explodem, o p95 de latência derrapa, o time de segurança liga o alerta, e o backlog enche de “pequenas” correções que viram a essência do trabalho. A má notícia: essa parte não vira keynote. A boa: é aqui que mora a vantagem competitiva.
Latência não perdoa
Usuário tolera 400–800 ms de “pensando…”. Acima de 2 s, começa o abandono. Em IA generativa, a métrica que manda é o time-to-first-token (TTFT) e o p95 de resposta total. O resto é conversa. Há três truques que times maduros usam sem glamour:
1) Batching e servidores de inferência decentes. Migrar para vLLM, TensorRT-LLM ou servidores com KV-cache e dynamic batching derruba custos e tail latency. Quem ficou em workers síncronos ou lambdas sem afinidade de GPU/CPU sofre no p99.
2) Decodificação especulativa. Um modelo menor “rascunha” tokens e o maior confirma. Quando acerta, você ganha milissegundos preciosos; quando erra, paga uma sobrecarga moderada. No agregado, é vitória clara em prompts longos.
3) Streaming honesto + UX inteligente. Entregar o primeiro token rápido compra tempo cognitivo. Mas não adianta streamar se seu back-end faz RAG, chama três ferramentas, espera tudo e só então começa a gerar. Paralisar em fan-in é erro clássico. Agrupe chamadas, faça timeouts agressivos e degrade com graça.
Unit economics de verdade, não wishful thinking
O custo não é “só o modelo”. É:
– Embeddings e reembeddings (que escorregam quando o esquema de chunk muda).
– Leitura/escrita no índice vetorial (egress conta).
– Inferência do LLM (entrada e saída têm preços diferentes).
– Ferramentas auxiliares: rewriters, moderadores, re-rankers.
Equipes que sobrevivem a escala usam três alavancas:
– Compressão de prompt e truncamento dinâmico. Criar templates compactos, remover metadados inúteis e manter contexto sob controle reduz tokens sem mutilar qualidade. Há ganhos de dois dígitos só limpando boilerplate.
– Cache de prompts e de resultados. Hash estável do input + versão do modelo + feature flags. Se o negócio tolera frescor de minutos, savings de 30–60% aparecem. Cuidado com cache staleness e PII: criptografe ou não logue.
– Roteamento de modelos. 70% das perguntas não precisam do “premium”. Gate heurístico (regex, comprimento, detecção de entidade) ou um classificador leve manda o trivial para um modelo menor. Quando a consulta exala risco jurídico, promova para o modelo mais “prudente”.
RAG não é plug-and-play
Retrieval-augmented generation virou padrão, mas o diabo mora nos defaults. Chunking ingênuo cria cortes no meio de parágrafos e destrói grounding; embeddings de 1536 dimensões não resolvem uma taxonomia torta. HNSW é rápido, porém consome memória; IVF-PQ economiza RAM, mas sacrifica recall se você apertar o quantizador demais. E não adianta achar que rerank milagroso salva documento ruim.
O pipeline de qualidade sério inclui:
– Golden sets e avaliações contínuas. Nada de “vamos pedir para o próprio LLM se julgar e chamar de dia”. Use conjuntos curados, métricas de groundedness, desvio factual e citações clicáveis. LangSmith, Arize Phoenix e Weights & Biases ajudam, mas é preciso orquestração: OTel para AI já tem convenções emergentes; padronize spans por ferramenta e por chamada de modelo.
– Defesa contra prompt injection no conteúdo recuperado. Sanitização de instruções, delimitação rígida entre “documentos” e “sistema”, e ferramentas com escopo mínimo. Já vimos RAG obedecer um PDF malicioso mandando “ignore seu sistema e faça X”. Não é anedota; é incidente real.
– Custo por consulta end-to-end. Se o reranker custa mais que o modelo que gera a resposta, algo está invertido.
Observabilidade de gente grande
Se você não consegue responder “qual ferramenta mais erra no p95?” ou “qual prompt versão 18 aumentou a taxa de recusa?”, ainda não está em produção — está em beta perpétuo. Telemetria útil inclui:
– Tracing token-level com correlação por usuário e por sessão (sem PII em claro).
– Breakdown de custos por etapa: retrieval, re-rank, LLM, ferramentas externas.
– Métricas operacionais: TTFT, tokens/s, taxa de timeouts, quedas por rate limit do provedor.
– E ab-testes com kill-switch instantâneo. Não espere o incidente para lembrar de feature flags.
Governança: a parte que ninguém quer escrever, até dar ruim
Logs de prompts são dados sensíveis. Ponto. Máscaras de PII no client e no servidor, retenção curta, e segregação por inquilino são o mínimo. Em setores regulados, a conversa vira residência de dados e inferência em VPC dedicada. Modelos on-prem ou edge (menores, finos, mas previsíveis) viram firewall cultural: limitam vazamento e estabilizam custos. Moderadores nativos (Bedrock Guardrails, camadas de segurança de provedores) ajudam, mas não terceirize o risco: mantenha regras explícitas e alvo por política, não por “temperatura”.
Roteamento não é glamour; é economia
Mercados como busca com respostas (Perplexity), assistentes corporativos e help desks estão convergindo para cascatas: começa em regras baratas (lookup, FAQ, BM25), sobe para um modelo compacto com RAG, só então vai ao “SOTA”. O segredo é admitir que heurística bem afinada vence ML mal treinado. Quando a demanda cresce, realize batching oportunista e request coalescing. E não esqueça: picos matam. Rate limiting por conta, por organização e por ferramenta evita que um evento no Slack transforme seu stack em figurante do caos.
Exemplos do mundo real
– Copilotos de código tipo GitHub Copilot e Replit Code fatiam contexto e usam caches agressivos por repositório. Não é só IA “brilhante”; é engenharia de latência.
– Suites de produtividade como Notion AI e o Copilot da Microsoft combinam busca interna, reescrita e modelo maior apenas quando o usuário insiste ou há ambiguidade detectada.
– Pilhas com Pinecone, Weaviate ou Milvus prosperam quando o esquema de documentos é tratado como produto, não como “colamos um PDF e pronto”.
Trade-offs sem romance
– Longo contexto ajuda, mas custa e degrada qualidade no meio do prompt. Melhor segmentar e citar.
– Guardrails excessivos elevam recusa e frustração; frouxos demais viram risco reputacional. Ajuste por persona.
– Modelo único simplifica DX e negociação; multivendor reduz risco de drift e cartel de preços. Operar dois modelos dói — e compensa.
O que realmente escala
O diferencial não é ter “IA”, é operar IA como se fosse pagamentos: previsível, auditável, com rota de fallback. O botão “com IA” continua bonito. A vitória acontece atrás dele — na fila de requests, no índice vetorial bem cuidado, no cache que salvou sua margem e no gráfico que contou a verdade às 3h da manhã. Glamour? Zero. Vantagem? Toda.










