LLM como agente interno: três casos onde funciona, dois onde fracassa

A reunião que se repete em 2026: diretoria viu colega pagar ChatGPT Enterprise, ouviu falar de Copilot, leu que "todo mundo está usando", e quer entender por que a empresa ainda não tem o próprio. O time de TI provisiona, treina, abre o canal. Em três meses, a taxa de uso ativo cai pra 15% — e ninguém entende se é resistência, ferramenta errada, ou se o produto simplesmente não serve.

A resposta honesta é: serve pra umas coisas muito bem, não serve pra outras de jeito nenhum, e o problema é não ter mapeado a fronteira antes. Esse texto desenha o mapa — três contextos onde LLM como agente interno gera valor real, dois onde gera teatro de produtividade.

Onde funciona — caso 1: redação assistida

O ganho mais consistente e menos sexy. Profissionais que escrevem muito (vendedores, gerentes, jurídico, RH, marketing) ganham 20–40% de tempo em tarefas de texto. Não porque o LLM escreve melhor que humano — escreve pior em quase tudo que importa. Mas porque elimina a fricção do primeiro rascunho. Brief de campanha, e-mail de follow-up, política interna, ata de reunião, descrição de produto. Tudo isso vira "pede o esqueleto, edita pra ficar bom".

O ganho aparece em quem já é bom redator e quer ir mais rápido. Não em quem nunca escreveu — esse continua entregando texto medíocre, agora com mais volume. A ferramenta amplifica capacidade existente; não cria capacidade nova.

Onde funciona — caso 2: lookup sobre documentação

O segundo caso, e o mais subestimado. Toda empresa tem documentação que ninguém lê — política de viagem, manual de produto, contrato modelo, runbook de operação. LLM com RAG sobre esse corpus vira o atendente perfeito: "qual o limite de Uber no jantar com cliente?", "como funciona a regra de comissão pra renovação?", "qual o SLA do contrato modelo enterprise?". Resposta em 5 segundos, com citação.

O ganho real é o que deixa de acontecer: pergunta que ia pro RH, pro jurídico, pro gerente. Liberar 10–20% do tempo de quem responde dúvida repetida vale o ROI inteiro do projeto. Mas exige RAG bem feito — e aí a recuperação vira o gargalo, não o LLM.

Onde funciona — caso 3: suporte técnico nível 1

Atendimento de TI interno, suporte de aplicação SaaS, helpdesk de RH. Volume alto de perguntas repetidas, base de conhecimento existente, baixo risco em erro. LLM resolve 40–60% sem escalonar humano. Quando escalona, entrega contexto pronto pra quem assume — histórico do ticket, hipóteses já testadas, próximos passos sugeridos. O caso prático do agente de triagem interna em RH detalha o playbook desse cenário ponta a ponta.

A combinação que funciona: agente responde primeiro, humano confirma soluções de baixo risco, escalonamento explícito pra casos com sinais de complexidade. Não é "substituir suporte"; é absorver os 50% que não precisavam de humano em primeiro lugar.

Agente interno bom é aquele que economiza a pergunta que ia parar no Slack do gerente. Quando o uso desce até esse nível, a ferramenta venceu.

Onde fracassa — caso 1: substituir conhecimento sênior

A primeira fronteira que costuma ser violada. CEO ouve sobre agente, pede pra usar em decisão estratégica, análise de cenário, recomendação de M&A. O agente responde com texto fluente e bem estruturado — e quase sempre superficial. LLM treinado em internet pública entrega média ponderada de opinião. Sênior cobra dele, fica frustrado, abandona.

O motivo é simples: conhecimento sênior real depende de contexto que não está escrito (histórico do mercado, relacionamento, intuição calibrada por anos). LLM pode amplificar quem já tem isso — não pode substituir quem não tem. Empresa que pede ao agente o que pediria a um VP entrega ao VP texto pronto pra rejeitar.

Onde fracassa — caso 2: decisão que precisa de contexto não escrito

A segunda fronteira é gerencial. "Pede pro agente decidir entre os dois fornecedores", "deixa o agente priorizar o backlog", "o agente pode escolher qual cliente atender primeiro". Soa eficiente. Em produção, o agente decide com 60% do contexto — porque os outros 40% vivem em conversa de corredor, política interna, relacionamento com fornecedor. E quando a tentação é resolver isso com arquitetura multi-agent, o custo de coordenação costuma exceder o ganho.

Como argumentei sobre quando agente faz sentido, a fronteira é dado: se a decisão depende só de dado escrito, o agente pode. Se depende de dado vivido, não. Forçar decisão automatizada em contexto que exige humano é o caminho mais rápido pra incidente — e incidente em IA tem peso político maior que incidente em sistema tradicional.

A régua simples antes do piloto

Antes de aprovar agente interno, três perguntas que separam projeto que vinga de projeto que morre:

Qual é a pergunta repetida que esse agente vai responder? Se a resposta é vaga ("ajudar o time a ser mais produtivo"), o projeto não está pronto. Se é específica ("responder dúvidas de política de viagem que hoje vão pro RH"), está.
A base de conhecimento que ele vai consultar existe e está atualizada? Se sim, RAG funciona. Se não, não adianta esperar dado perfeito, mas precisa existir o suficiente pro caso de uso definido.
O risco de erro é tolerável? Em redação assistida e lookup, sim. Em suporte nível 1 com escalonamento, sim. Em decisão estratégica ou substituição de sênior, não sem governança específica — e raramente com governança qualquer.

Quem responde as três sem hesitar tem caso de uso. Quem hesita em duas ou três está no território do "vamos tentar e ver" — e esse território é onde o piloto eterno mora.

O que medir nos primeiros 90 dias

Métricas que dizem se o agente está rendendo:

Uso ativo, não logins. Quantas pessoas usaram pelo menos 5 vezes na semana. Login é vaidade; uso recorrente é sinal.

Pergunta resolvida sem escalonar. Em suporte/lookup, % de queries que terminam na resposta do agente, sem ir pro humano. Acima de 60%, valor real. Abaixo de 30%, RAG ou prompt ruim.

Tempo poupado autodeclarado. Em redação, perguntar mensalmente: "quanto tempo o agente te economizou esta semana?". É subjetivo, mas detecta deserções antes de a métrica de uso cair.

Se essas três estiverem em sinal verde no fim do trimestre, o agente venceu o piloto. Se duas estiverem em vermelho, a ferramenta provavelmente foi colocada no caso de uso errado — não é problema de adoção, é problema de escopo.

Agente interno bem colocado é uma das melhores compras de produtividade de 2026. Mal colocado é a melhor cobrança de licença sem retorno do trimestre. A diferença mora no mapa.

Perguntas que sempre voltam

Três dúvidas que aparecem em quase toda conversa sobre esse tema.

Vale a pena pagar ChatGPT Enterprise ou Copilot pra empresa toda?

Vale se você mapeou a fronteira antes; não vale se a motivação é "todo mundo está usando". Provisionar a ferramenta e abrir o canal sem caso de uso definido leva ao padrão conhecido: uso ativo em 15% depois de três meses e ninguém sabendo se é resistência ou produto errado. O agente rende muito em três contextos — redação assistida, lookup sobre documentação e suporte nível 1 — e fracassa em decisão estratégica e substituição de conhecimento sênior.

O teste antes de assinar é responder três perguntas sem hesitar: qual pergunta repetida o agente vai responder, se a base de conhecimento existe e está atualizada, e se o risco de erro é tolerável. Quem hesita em duas está no território do "vamos tentar e ver" — onde mora o piloto eterno.

Por que ninguém usa o agente depois do lançamento?

Quase sempre é problema de escopo, não de adoção. Quando o agente é oferecido como assistente genérico, o profissional experiente não encontra ganho e o iniciante recebe resposta superficial — e o uso cai antes de qualquer campanha interna conseguir salvá-lo. A ferramenta amplifica capacidade existente em tarefa específica; não cria capacidade nova em tarefa vaga.

O diagnóstico nos primeiros 90 dias usa três sinais: uso ativo (5+ vezes por semana, não logins), taxa de pergunta resolvida sem escalonar (acima de 60% é valor real; abaixo de 30% é RAG ou prompt ruim) e tempo poupado autodeclarado. Se dois estão em vermelho, recoloque o agente no caso de uso certo em vez de insistir em treinamento de usuário.

Posso deixar o agente tomar decisões pelo time?

Só quando a decisão depende exclusivamente de dado escrito — e a maioria das decisões gerenciais não depende. Escolher fornecedor, priorizar backlog, decidir qual cliente atender primeiro: em produção, o agente decide com 60% do contexto, porque o resto vive em conversa de corredor, política interna e relacionamento. Forçar automação aí é o caminho mais rápido pra incidente, e incidente de IA tem peso político maior que o de sistema tradicional.

O arranjo que funciona é outro: agente responde primeiro, humano confirma o de baixo risco, escalonamento explícito quando há sinal de complexidade. O agente informa e prepara contexto; a decisão que exige dado vivido continua humana.