O llms.txt substitui o sitemap.xml?

Não. O sitemap.xml é um inventário completo de tudo o que existe no site, pensado para indexação. O llms.txt é uma curadoria: uma lista curta das páginas que melhor explicam o negócio, com uma descrição de cada uma. Um site pode (e deve) ter os dois, porque eles respondem a perguntas diferentes. O sitemap diz o que existe; o llms.txt diz o que vale a pena ler primeiro.

Preciso listar todas as páginas do site no llms.txt?

Não, e listar tudo vai contra a ideia do arquivo. O llms.txt existe para priorizar: se ele aponta para 400 URLs, não prioriza nada. Uma seleção de 5 a 15 links coberta por descrições claras funciona melhor do que um espelho do sitemap. Escolha as páginas que respondem o que a empresa faz, para quem, quanto custa e onde está o melhor conteúdo de referência.

O que acontece se o meu site não tiver llms.txt?

Nada quebra. Nenhum provedor de IA exige o arquivo, e os grandes modelos não documentam o uso dele hoje. O seu site continua sendo rastreado normalmente pelas regras do robots.txt. O llms.txt é um sinal extra de orientação que custa pouco a publicar, não um requisito técnico. A ausência dele não derruba a sua visibilidade em IA; a presença também não a garante.

O que é o llms-full.txt?

É uma variante prevista na mesma especificação: em vez de listar links para as páginas, o llms-full.txt traz o conteúdo completo delas em um único arquivo de texto. A ideia é entregar tudo de uma vez para ferramentas que preferem ler um arquivo só em vez de navegar pelos links. Para a maioria dos sites de negócio, começar pelo llms.txt simples é suficiente.

llms.txt: como criar o seu passo a passo

O llms.txt é um arquivo de texto simples, publicado em /llms.txt na raiz do domínio, que lista em Markdown as páginas mais importantes do seu site para os rastreadores de IA. A proposta foi publicada em setembro de 2024 por Jeremy Howard, cofundador da Answer.AI, e o formato é curto o bastante para você criar o seu em meia hora. Antes de abrir o editor, vale saber o estado real da coisa: nenhum dos grandes provedores de IA documenta hoje o uso do arquivo. Este tutorial mostra o formato e o passo a passo, e trata o llms.txt pelo que ele é: uma aposta barata, não uma bala de prata.

Que problema o llms.txt tenta resolver?

O Googlebot rastreia a web há mais de duas décadas e acumulou sinais de relevância sobre cada domínio: o que linka para onde, o que as pessoas clicam, o que merece ser revisitado. Os crawlers de IA não têm esse histórico. Quando o GPTBot ou outro robô de IA chega ao seu site, ele precisa decidir o que ler com orçamento limitado de rastreamento e, depois, o modelo precisa caber o que leu numa janela de contexto finita.

O llms.txt ataca esse problema com uma dica explícita de prioridade. É o dono do site dizendo: comece por aqui, isto é o que importa, o resto é secundário.

A comparação que ajuda: o robots.txt nasceu para dizer aos robôs onde eles não podem entrar. O llms.txt propõe o movimento oposto, dizer aos robôs de IA o que mais vale a pena ler. Um controla permissão, o outro sugere prioridade.

Qual é o formato correto do llms.txt?

A especificação oficial é enxuta. O arquivo é Markdown puro e tem uma única seção obrigatória: um H1 com o nome do site ou projeto. Todo o resto é opcional, mas a estrutura recomendada tem quatro blocos, nesta ordem:

H1 com o nome do site. A única parte obrigatória.
Blockquote com um resumo curto. Uma ou duas frases dizendo o que o site é e para quem.
Seções H2 com listas de links. Cada item no formato [nome](url): descrição de uma linha. Os nomes das seções são livres (Serviços, Conteúdo, Documentação, o que fizer sentido).
Uma seção chamada "Optional". Links secundários, que uma ferramenta com pouco espaço de contexto pode pular sem perder o principal.

Na prática, um llms.txt de uma empresa de serviços se parece com isto (exemplo ilustrativo):

# Empresa Exemplo

> Consultoria de logística para e-commerces brasileiros que despacham
> de 100 a 5.000 pedidos por mês, com foco em redução de custo de frete.

## Serviços

- [Diagnóstico de frete](https://www.exemplo.com.br/diagnostico): análise dos contratos atuais e simulação de economia
- [Gestão de transportadoras](https://www.exemplo.com.br/gestao): operação contínua com indicadores por região

## Conteúdo

- [Guia de frete para e-commerce](https://www.exemplo.com.br/guia-frete): o material de referência do site
- [Calculadora de custo por pedido](https://www.exemplo.com.br/calculadora): ferramenta gratuita

## Optional

- [Página institucional](https://www.exemplo.com.br/sobre): história e equipe

Repare no que o exemplo faz: o blockquote já entrega o que a empresa faz, para quem e com qual diferencial. As descrições de cada link são escritas para uma máquina decidir se vale abrir a página. Nada de "clique aqui" nem de descrição vazia.

Como criar o llms.txt do seu site em quatro passos

Passo 1: escolha as páginas, com critério de curadoria. Selecione de 5 a 15 URLs, não mais. As candidatas naturais: a página que explica o que a empresa faz, a de preços ou planos, as de produto ou serviço mais procuradas e o seu melhor conteúdo de referência. Se uma página não ajuda um modelo de IA a responder uma pergunta sobre o seu negócio, ela fica de fora (ou vai para a seção Optional).

Passo 2: escreva o arquivo no formato da especificação. Abra qualquer editor de texto e siga a estrutura da seção anterior: H1, blockquote honesto, seções H2 com os links e uma linha de descrição para cada um. Escreva as descrições como respostas, não como slogans. "Análise dos contratos de frete atuais e simulação de economia" informa; "soluções inovadoras em logística" não diz nada.

Passo 3: hospede em /llms.txt na raiz do domínio. O arquivo precisa responder em https://seudominio.com.br/llms.txt, o mesmo nível do robots.txt. Como publicar depende da sua stack: em sites estáticos, basta colocar o arquivo na pasta raiz do build; em frameworks, crie uma rota pública servindo o conteúdo como texto puro; no WordPress, existem plugins que geram e mantêm o arquivo. Subdiretório não vale: /blog/llms.txt não é onde as ferramentas procuram.

Passo 4: verifique o acesso e mantenha o arquivo vivo. Abra a URL numa janela anônima e confirme que o conteúdo carrega como texto, sem login e sem redirecionamento estranho. Depois, trate o llms.txt como parte do site: quando uma página listada mudar de URL ou um serviço novo entrar no ar, atualize. Um llms.txt apontando para páginas que não existem mais é pior do que nenhum.

O ChatGPT e o Google leem o llms.txt hoje?

Aqui entra a parte que muito artigo sobre o tema prefere pular: não há documentação de que os grandes modelos usem o arquivo. OpenAI, Google e Anthropic não declaram que seus crawlers consultam o llms.txt, e a documentação oficial do Google Search é explícita ao dizer que não é necessário criar "novos arquivos legíveis por máquina, arquivos de texto de IA ou marcação" para aparecer nos recursos de IA da busca. John Mueller, analista do Google, foi além e comparou o llms.txt à meta tag keywords, aquela que sites preenchiam nos anos 2000 e que os buscadores aprenderam a ignorar.

Do outro lado da balança, a adoção como publicação existe e cresce no setor de tecnologia. A Anthropic mantém um llms.txt na própria documentação para desenvolvedores, e empresas como Stripe, Cloudflare e Zapier publicam o seu. Ferramentas de programação assistida por IA conseguem consumir o formato quando ele existe, sobretudo em sites de documentação técnica, que é onde a proposta nasceu.

A leitura honesta: o llms.txt hoje é um sinal de intenção publicado para um leitor que talvez apareça. Se a adoção pelos grandes modelos vier, quem já publicou sai na frente sem esforço adicional. Se não vier, você investiu meia hora.

llms.txt, robots.txt e sitemap: qual a diferença?

Os três arquivos vivem na mesma vizinhança do site e confundem por isso. Cada um responde a uma pergunta diferente do robô que chega:

Arquivo	O que faz	Pergunta que responde
robots.txt	Controla permissão de acesso por user-agent	"Posso entrar? Onde?"
sitemap.xml	Inventário completo de URLs para indexação	"O que existe aqui?"
llms.txt	Curadoria das páginas mais relevantes, com descrições	"O que vale a pena ler primeiro?"

São camadas complementares, e a ordem de importância não é a do hype. A permissão vem antes de tudo: se o seu robots.txt bloqueia os crawlers de IA por acidente, nenhum llms.txt resolve, porque o robô não chega nem na porta. O guia sobre como deixar o site rastreável pelos crawlers de IA cobre essa camada de base. O sitemap segue sendo o inventário que buscadores usam há anos. O llms.txt entra por último, como refinamento.

Vale a pena criar o llms.txt sem suporte oficial dos modelos?

Para a maioria dos sites, sim, desde que na ordem certa. O custo é meia hora de trabalho e o risco é zero: o arquivo não interfere em SEO, não conflita com o robots.txt e não quebra nada. É uma aposta assimétrica de custo baixo.

O erro comum é inverter as prioridades. O llms.txt é a cereja, não o bolo. Antes dele, o básico do GEO técnico precisa estar de pé: site acessível aos crawlers, conteúdo que responde as perguntas que o seu público faz e dados estruturados descrevendo o que cada página é. Esses três têm efeito documentado sobre como buscadores e IAs entendem o seu site. O llms.txt, por enquanto, é um sinal publicado na esperança de leitores futuros.

Se você não sabe em que pé está esse básico, comece medindo. A auditoria de site da Promptis varre as suas páginas e mostra o que está travando a leitura por IAs (estrutura, dados estruturados, profundidade de conteúdo), página por página. Com o diagnóstico em mãos, o llms.txt vira o que sempre deveria ser: o toque final de um site que já está em ordem, escrito em meia hora e esquecido até a próxima atualização.

llms.txt: o que é e como criar o seu passo a passo

Que problema o llms.txt tenta resolver?

Qual é o formato correto do llms.txt?

Como criar o llms.txt do seu site em quatro passos

O ChatGPT e o Google leem o llms.txt hoje?

llms.txt, robots.txt e sitemap: qual a diferença?

Vale a pena criar o llms.txt sem suporte oficial dos modelos?

Perguntas frequentes

Leia também

Como deixar seu site rastreável pelos crawlers de IA

Dados estruturados ainda são a vitória mais barata do GEO técnico