Seu chatbot não é caro — o contexto dele é
A conta mais pesada da IA de produto não vem do modelo. Vem de tudo que você empilha em volta dele: histórico de conversa que cresce sem cerimônia, vetores que nunca expiram, caches que lotam GPU, rerankers que orbitam a pergunta como satélites. O hype foca no cérebro. O P&L morre na memória.
Começa assim: alguém decide ser generoso com o contexto. “Vamos dar 100k tokens, fica mais inteligente.” Fica — e a fatura dobra. Com um modelo mid-tier cobrando algo entre US$ 2 e US$ 8 por milhão de tokens de entrada e 3 a 15 por milhão na saída, um chat de suporte com 8k tokens de histórico + RAG por turno e 400 tokens de resposta sai por uns US$ 0,03 a US$ 0,10 por interação, dependendo do provedor. Parece pouco até você multiplicar por milhares de sessões ativas, todos os dias, com usuários que escrevem como se o campo de texto fosse um diário pessoal. O “imposto do contexto” cresce silencioso.
Há três linhas técnicas onde essa economia invisível se decide.
Primeiro, o lado físico do contexto: o KV cache no servidor de inferência. Cada token que você injeta vira chaves e valores ocupando memória de GPU por camada e por cabeça de atenção. Em modelos 7B–13B, isso consome vários GB para janelas grandes; em 70B, vira um jogo de Tetris de alto risco. Frameworks como vLLM popularizaram o PagedAttention, que aloca o KV em páginas e permite reutilizar prefixos comuns (“prefix caching”) entre requisições — ótimo para prompts de sistema longos ou ferramentas idênticas. Isso reduz recomputação e latência, mas introduce um novo gargalo: gestão de páginas e fragmentação. Você troca FLOPs por alocador e scheduler. Bom quando funciona; trágico quando cai às 3h da manhã com um deadlock intermitente que só reproduz em produção, obviamente.
Segundo, a etapa mais subestimada: embeddings e busca vetorial. O preço não é só o armazenamento. É a atualização, o versionamento e a deriva. Troque o gerador de embeddings e seu índice muda de geometria; o recall cai. Se você roda HNSW para top-K rápido, configurações como M e efSearch viram dials de dinheiro: maior efSearch, melhor recall e mais latência; menor, mais barato e mais respostas irrelevantes. Em bases grandes, todo mundo acaba em estruturas híbridas (IVF-PQ em Milvus/FAISS, HNSW em Weaviate, ou simplesmente Postgres+pgvector com listas invertidas) e uma camada de reranking por cross-encoder. O reranker adiciona 150–300 ms por consulta, mas filtra o ruído que custaria 8k tokens extras no prompt. Otimizar aqui é escolher qual milissegundo você está disposto a pagar.
Terceiro, a geração em si. Decodificação especulativa com um “modelo rascunho” mais barato pode acelerar 1,5–2,5x em cargas certas, ao custo de complexidade e regressão quando o rascunho chuta fora do gol. MoE (mixture-of-experts) promete throughput por dólar melhor que modelos densos, mas brinca com variância de latência quando o roteador manda tokens para experts mais pesados. Flash Attention 2, quantização 4–8 bits e kernels otimizados trazem ganhos sólidos; ainda assim, nada disso salva você de um prompt de 30k tokens enviado para responder “posso pagar com PIX?”.
O mercado já aprendeu algumas verdades pouco românticas.
– RAG é barato até a primeira migração de embeddings. Empresas que fizeram rollout agressivo com um modelo de 1536 dimensões estão redescobrindo a dor de reindexar tudo ao migrar para outra família. Estratégias de compatibilidade (dimensionalidade reduzida, normalização consistente, checagens de drift) ajudam, mas há um custo operacional inevitável. Uma prática sensata: TTL para documentos de baixo valor e re-embeddings incremental guiado por tráfego real, não por ansiedade de upgrade.
– Prompt caching do lado do provedor é útil, porém fácil de superestimar. Alguns vendors permitem marcar trechos como cacheáveis por horas. Perfeito para system prompts enormes e tool specs idênticos. Péssimo para históricos mutantes e contextos com dados pessoais. E cache aquecido sem invalidar ferramenta quebrada é aquela alegria que transforma um incidente em thread eterna no Slack.
– “Histórico infinito” é um antípadrão caro. O ganho marginal de levar 20 turns para frente despenca. Estratégias de memória condensada — sumarizações hierárquicas, slots persistentes por entidade e recuperação dirigida por intenção — cortam 60–90% do contexto sem sacrificar precisão. Em produtos de suporte, a regra prática vencedora tem sido: fatos frios vão para base vetorial; preferências e decisões viram memória estruturada; o resto evapora.
Exemplos concretos mostram a matemática na veia. Equipes que migraram de um vetor DB gerenciado para Postgres+pgvector em workloads de até 30 milhões de embeddings relatam custos de infraestrutura 30–60% menores, à custa de tuning cuidadoso (HNSW semleitura fria, manutenção de autovacuum, particionamento por tenant). Já stacks com Milvus/FAISS performam melhor quando se exige latência p95 estável abaixo de 80 ms em índices com centenas de milhões de vetores — desde que você aceite gerenciar GPUs para trechos de PQ training e um pipeline de compação nada trivial. Serviços de busca conversacional tipo Slack AI e Notion Q&A combinam isso com rerankers (cross-encoders) e filtros RBAC, o que adiciona segurança e remove lixo, mas aumenta a variância de latência e a superfície de incidentes.
Do lado de inferência, empresas que adotaram prefix caching com prompts de sistema de 10–20k tokens conseguiram reduzir 20–40% do custo por turno em chats longos. Outra vitória fácil é deduplicação agressiva de conhecimento comum: ferramentas e schemas estáveis viram “biblioteca” cacheada; o prompt por turno carrega só o delta. Em stack self-hosted, vLLM com continuous batching e PagedAttention segura throughput alto, mas exige disciplina de SLOs: admita backpressure cedo, separe filas por prioridade e trate KV cache como orçamento, não como depósito infinito. Se parece óbvio, espere o primeiro pico de tráfego pós-release.
Há também o lado social do custo. Usuários tendem a medir valor por latência e precisão, não por “profundidade” do contexto. Reduzir o histórico enquanto melhora a recuperação percebida costuma aumentar NPS e reduzir ticket. Tradução: às vezes a melhor “IA mais forte” é só menos entulho no prompt. E quando a conversa envolve dados sensíveis, o risco de vazamento via RAG mal filtrado custa bem mais que qualquer token. Nem todo PDF merece ir para a indexação; muito menos, por tempo indeterminado.
Trade-offs inevitáveis, em linguagem direta:
– RAG pesado vs fine-tuning leve: RAG é rápido para escalar conteúdo dinâmico; fine-tuning em modelo menor reduz latência e custo em tarefas estáveis. Misture os dois sem vergonha: use RAG para fatos mutáveis e um LoRA para estilo e ferramentas.
– Janela gigante vs memória explícita: contextos de 200k tokens brilham em demos, mas memória estruturada ganha na rotina. Você pode guardar “decisões do usuário” em uma tabela e referenciar por ID, em vez de perpetuar parágrafos inteiros no prompt.
– MoE e especulativa vs simplicidade operacional: ganhos de custo/throughput são reais, mas cada camada de esperteza cria uma nova forma de falhar. Tenha um modo degradado claro e métricas por caminho (aceite/negação no speculative, distribuição de experts, acertos de cache).
Se você precisa de regra prática para amanhã de manhã, comece com três alavancas baratas e de alto impacto:
– Orçamento de tokens por sessão, com cortes automáticos: ajuste dinâmico do histórico por intenção, sumarização quando passar do limiar, auditoria semanal de prompts gordos.
– Política de TTL e versionamento para embeddings: expire conteúdos pouco acessados, re-embed por tráfego e altere índices em canário, medindo recall com amostras fixas.
– Observabilidade centrada em contexto: métricas de tokens in/out por rota, p95 por tipo de recuperação, taxa de acerto de cache e distribuição de “token-to-signal” (tokens adicionados vs mudança observável na qualidade). Otimize o que move essa agulha, não a vaidade de janelas gigantes.
Fecho
Modelos impressionam, mas a economia do produto acontece na periferia: memória, busca, cache, política. Quem tratar contexto como orçamento — não como decoração — vai construir IA que escala com cabeça fria. O resto vai continuar vendo a margem derreter por causa de mensagens longas e índices inchados. No fim, não é a inteligência que sai cara. É a insistência em explicar tudo, toda vez.










