O llms.txt é um arquivo de texto simples, publicado em /llms.txt na raiz do domínio, que lista em Markdown as páginas mais importantes do seu site para os rastreadores de IA. A proposta foi publicada em setembro de 2024 por Jeremy Howard, cofundador da Answer.AI, e o formato é curto o bastante para você criar o seu em meia hora. Antes de abrir o editor, vale saber o estado real da coisa: nenhum dos grandes provedores de IA documenta hoje o uso do arquivo. Este tutorial mostra o formato e o passo a passo, e trata o llms.txt pelo que ele é: uma aposta barata, não uma bala de prata.
Que problema o llms.txt tenta resolver?
O Googlebot rastreia a web há mais de duas décadas e acumulou sinais de relevância sobre cada domínio: o que linka para onde, o que as pessoas clicam, o que merece ser revisitado. Os crawlers de IA não têm esse histórico. Quando o GPTBot ou outro robô de IA chega ao seu site, ele precisa decidir o que ler com orçamento limitado de rastreamento e, depois, o modelo precisa caber o que leu numa janela de contexto finita.
O llms.txt ataca esse problema com uma dica explícita de prioridade. É o dono do site dizendo: comece por aqui, isto é o que importa, o resto é secundário.
A comparação que ajuda: o robots.txt nasceu para dizer aos robôs onde eles não podem entrar. O llms.txt propõe o movimento oposto, dizer aos robôs de IA o que mais vale a pena ler. Um controla permissão, o outro sugere prioridade.
Qual é o formato correto do llms.txt?
A especificação oficial é enxuta. O arquivo é Markdown puro e tem uma única seção obrigatória: um H1 com o nome do site ou projeto. Todo o resto é opcional, mas a estrutura recomendada tem quatro blocos, nesta ordem:
- H1 com o nome do site. A única parte obrigatória.
- Blockquote com um resumo curto. Uma ou duas frases dizendo o que o site é e para quem.
- Seções H2 com listas de links. Cada item no formato
[nome](url): descrição de uma linha. Os nomes das seções são livres (Serviços, Conteúdo, Documentação, o que fizer sentido). - Uma seção chamada "Optional". Links secundários, que uma ferramenta com pouco espaço de contexto pode pular sem perder o principal.
Na prática, um llms.txt de uma empresa de serviços se parece com isto (exemplo ilustrativo):
# Empresa Exemplo
> Consultoria de logística para e-commerces brasileiros que despacham
> de 100 a 5.000 pedidos por mês, com foco em redução de custo de frete.
## Serviços
- [Diagnóstico de frete](https://www.exemplo.com.br/diagnostico): análise dos contratos atuais e simulação de economia
- [Gestão de transportadoras](https://www.exemplo.com.br/gestao): operação contínua com indicadores por região
## Conteúdo
- [Guia de frete para e-commerce](https://www.exemplo.com.br/guia-frete): o material de referência do site
- [Calculadora de custo por pedido](https://www.exemplo.com.br/calculadora): ferramenta gratuita
## Optional
- [Página institucional](https://www.exemplo.com.br/sobre): história e equipe
Repare no que o exemplo faz: o blockquote já entrega o que a empresa faz, para quem e com qual diferencial. As descrições de cada link são escritas para uma máquina decidir se vale abrir a página. Nada de "clique aqui" nem de descrição vazia.
Como criar o llms.txt do seu site em quatro passos
Passo 1: escolha as páginas, com critério de curadoria. Selecione de 5 a 15 URLs, não mais. As candidatas naturais: a página que explica o que a empresa faz, a de preços ou planos, as de produto ou serviço mais procuradas e o seu melhor conteúdo de referência. Se uma página não ajuda um modelo de IA a responder uma pergunta sobre o seu negócio, ela fica de fora (ou vai para a seção Optional).
Passo 2: escreva o arquivo no formato da especificação. Abra qualquer editor de texto e siga a estrutura da seção anterior: H1, blockquote honesto, seções H2 com os links e uma linha de descrição para cada um. Escreva as descrições como respostas, não como slogans. "Análise dos contratos de frete atuais e simulação de economia" informa; "soluções inovadoras em logística" não diz nada.
Passo 3: hospede em /llms.txt na raiz do domínio. O arquivo precisa responder em https://seudominio.com.br/llms.txt, o mesmo nível do robots.txt. Como publicar depende da sua stack: em sites estáticos, basta colocar o arquivo na pasta raiz do build; em frameworks, crie uma rota pública servindo o conteúdo como texto puro; no WordPress, existem plugins que geram e mantêm o arquivo. Subdiretório não vale: /blog/llms.txt não é onde as ferramentas procuram.
Passo 4: verifique o acesso e mantenha o arquivo vivo. Abra a URL numa janela anônima e confirme que o conteúdo carrega como texto, sem login e sem redirecionamento estranho. Depois, trate o llms.txt como parte do site: quando uma página listada mudar de URL ou um serviço novo entrar no ar, atualize. Um llms.txt apontando para páginas que não existem mais é pior do que nenhum.
O ChatGPT e o Google leem o llms.txt hoje?
Aqui entra a parte que muito artigo sobre o tema prefere pular: não há documentação de que os grandes modelos usem o arquivo. OpenAI, Google e Anthropic não declaram que seus crawlers consultam o llms.txt, e a documentação oficial do Google Search é explícita ao dizer que não é necessário criar "novos arquivos legíveis por máquina, arquivos de texto de IA ou marcação" para aparecer nos recursos de IA da busca. John Mueller, analista do Google, foi além e comparou o llms.txt à meta tag keywords, aquela que sites preenchiam nos anos 2000 e que os buscadores aprenderam a ignorar.
Do outro lado da balança, a adoção como publicação existe e cresce no setor de tecnologia. A Anthropic mantém um llms.txt na própria documentação para desenvolvedores, e empresas como Stripe, Cloudflare e Zapier publicam o seu. Ferramentas de programação assistida por IA conseguem consumir o formato quando ele existe, sobretudo em sites de documentação técnica, que é onde a proposta nasceu.
A leitura honesta: o llms.txt hoje é um sinal de intenção publicado para um leitor que talvez apareça. Se a adoção pelos grandes modelos vier, quem já publicou sai na frente sem esforço adicional. Se não vier, você investiu meia hora.
llms.txt, robots.txt e sitemap: qual a diferença?
Os três arquivos vivem na mesma vizinhança do site e confundem por isso. Cada um responde a uma pergunta diferente do robô que chega:
| Arquivo | O que faz | Pergunta que responde |
|---|---|---|
| robots.txt | Controla permissão de acesso por user-agent | "Posso entrar? Onde?" |
| sitemap.xml | Inventário completo de URLs para indexação | "O que existe aqui?" |
| llms.txt | Curadoria das páginas mais relevantes, com descrições | "O que vale a pena ler primeiro?" |
São camadas complementares, e a ordem de importância não é a do hype. A permissão vem antes de tudo: se o seu robots.txt bloqueia os crawlers de IA por acidente, nenhum llms.txt resolve, porque o robô não chega nem na porta. O guia sobre como deixar o site rastreável pelos crawlers de IA cobre essa camada de base. O sitemap segue sendo o inventário que buscadores usam há anos. O llms.txt entra por último, como refinamento.
Vale a pena criar o llms.txt sem suporte oficial dos modelos?
Para a maioria dos sites, sim, desde que na ordem certa. O custo é meia hora de trabalho e o risco é zero: o arquivo não interfere em SEO, não conflita com o robots.txt e não quebra nada. É uma aposta assimétrica de custo baixo.
O erro comum é inverter as prioridades. O llms.txt é a cereja, não o bolo. Antes dele, o básico do GEO técnico precisa estar de pé: site acessível aos crawlers, conteúdo que responde as perguntas que o seu público faz e dados estruturados descrevendo o que cada página é. Esses três têm efeito documentado sobre como buscadores e IAs entendem o seu site. O llms.txt, por enquanto, é um sinal publicado na esperança de leitores futuros.
Se você não sabe em que pé está esse básico, comece medindo. A auditoria de site da Promptis varre as suas páginas e mostra o que está travando a leitura por IAs (estrutura, dados estruturados, profundidade de conteúdo), página por página. Com o diagnóstico em mãos, o llms.txt vira o que sempre deveria ser: o toque final de um site que já está em ordem, escrito em meia hora e esquecido até a próxima atualização.


