GEO técnico & conteúdo

robots.txt para crawlers de IA: liberar ou bloquear o GPTBot

Por Equipe Promptis25 de junho de 20268 min de leitura
Ilustração isométrica de um portão diante de um site, com rastreadores passando por uma faixa aberta e outro barrado
Neste artigo+

O robots.txt controla, linha a linha, quais crawlers de IA podem acessar o seu site. Cada provedor de IA usa um nome de robô próprio (o user-agent), e você decide por nome quem entra: a sintaxe é uma linha User-agent: dizendo a qual robô a regra se aplica, seguida de Allow: ou Disallow: dizendo o que ele pode ou não acessar. Para liberar a citação do seu conteúdo, você libera os crawlers de IA. Para reservá-lo, você os bloqueia. Os dois lados usam o mesmo arquivo.

Crawler é o robô que visita páginas e lê o conteúdo. User-agent é o nome que ele se dá ao bater na porta do site. Robots.txt é o arquivo de texto na raiz do domínio que diz quais robôs podem entrar e onde. Este tutorial mostra a sintaxe, os user-agents de IA que você consegue confirmar na documentação oficial, o bloco que libera o conteúdo para citação e o trade-off de bloquear. Não existe resposta única: a escolha depende do que o seu site é e de quem você quer que leia.


Como funciona a sintaxe do robots.txt?

O robots.txt é organizado em blocos. Cada bloco começa com uma linha User-agent: (a qual robô a regra se aplica), seguida de uma ou mais linhas Disallow: (o que esse robô não pode acessar) ou Allow: (o que ele pode). É texto puro, sem tag nem formatação. A estrutura mínima é esta:

User-agent: *
Disallow: /admin/
Allow: /

A linha User-agent: * significa "todos os robôs": o asterisco é um curinga que pega qualquer crawler sem regra própria. Disallow: / (com a barra sozinha) bloqueia o site inteiro. Um Disallow: vazio, ou Allow: /, libera tudo. Os caminhos são relativos à raiz do domínio, então Disallow: /checkout/ bloqueia tudo abaixo de /checkout/.

Duas regras de leitura evitam quase todo erro de configuração. A primeira: a regra mais específica vence. Se houver um bloco User-agent: GPTBot e também um bloco User-agent: *, o GPTBot obedece ao bloco dele e ignora o genérico, porque o nome bate de forma exata. A segunda: dentro de um mesmo bloco, quando Allow: e Disallow: disputam o mesmo caminho, a regra mais longa prevalece. Por isso Allow: / no topo seguido de alguns Disallow: específicos funciona como esperado, o Allow abre o site e cada Disallow recorta uma exceção.

A ordem das linhas dentro do bloco importa menos do que a especificidade, mas escrever o Allow: / primeiro e os bloqueios logo abaixo deixa a intenção clara para a próxima pessoa que abrir o arquivo, que costuma ser você daqui a um ano.


Quais user-agents de IA existem e como confirmar?

Cada provedor de IA dá um nome ao seu crawler e publica esse nome na própria documentação técnica. Saber os principais deixa você decidir sobre cada um de forma consciente, em vez de jogar tudo numa regra genérica. Os três user-agents abaixo são os mais documentados, com a identificação publicada pelos próprios provedores:

  • GPTBot (OpenAI): coleta conteúdo da web que pode ser usado para treinar e melhorar os modelos da OpenAI. É o crawler de IA com a documentação mais consolidada e o mais citado quando se fala em liberar ou bloquear acesso.
  • PerplexityBot (Perplexity): atende o mecanismo de resposta da Perplexity, que cita fontes ao responder. A própria empresa documenta o user-agent na sua central de ajuda técnica.
  • Google-Extended (Google): não é um crawler que visita páginas. É um controle separado, que você usa no robots.txt para dizer se o Google pode aproveitar o seu conteúdo já rastreado para treinar modelos de IA como o Gemini, sem afetar a indexação na busca. Bloquear o Google-Extended não tira o seu site do Google; só barra o uso para treinamento de IA.

Repare que a OpenAI ainda separa o GPTBot (treinamento) de outro user-agent para a busca ao vivo do ChatGPT. Quem quer aparecer na resposta em tempo real, mas tem outra posição sobre ceder conteúdo para treino, controla os dois de forma independente. Esse é o ponto do controle por nome: granularidade.

Como esses nomes mudam e novos bots surgem, a fonte autoritativa é sempre a documentação do provedor, nunca uma lista de terceiros que pode estar desatualizada. Antes de escrever uma regra que libera ou bloqueia um bot pelo nome, confirme o user-agent exato ali. Um nome digitado errado (GptBot em vez de GPTBot, por exemplo) cria um bloco que não corresponde a robô nenhum e não tem efeito.


Como liberar os crawlers de IA para citação?

Para deixar o seu conteúdo disponível aos modelos, você libera o caminho no robots.txt. O bloco mais direto declara o crawler pelo nome e abre o acesso:

User-agent: GPTBot
Allow: /

User-agent: PerplexityBot
Allow: /

A leitura: o GPTBot e o PerplexityBot podem acessar todo o site. Cada User-agent: abre o seu próprio bloco, e o Allow: / daquele bloco vale só para o robô nomeado acima. Você repete o par para cada crawler que quiser liberar.

Liberar não costuma exigir ação nova, e aqui mora a confusão mais comum. Sem regra específica e sem um Disallow genérico que pegue o robô, o crawler já entra: a interpretação padrão do protocolo é "permitido". O problema raramente é a falta de liberação; é um bloqueio acidental herdado de uma regra ampla antiga. Por isso o primeiro passo, mais do que escrever um bloco de liberação, é abrir seusite.com.br/robots.txt e procurar um Disallow: / debaixo de User-agent: * que esteja barrando todos os robôs sem querer. Essa checagem de quem o seu site já bloqueia é o tema do guia sobre como deixar o site rastreável pelos crawlers de IA, que cobre a verificação passo a passo.

Onde colocar o bloco? Em qualquer ponto do arquivo, desde que cada User-agent: abra o próprio bloco. Como a regra mais específica vence, um bloco nomeado para o GPTBot prevalece sobre o User-agent: *, esteja ele antes ou depois. A convenção é agrupar os blocos nomeados e deixar o User-agent: * por último.

Uma linha extra que custa pouco e ajuda: aponte o seu sitemap no mesmo arquivo. A diretiva Sitemap: informa a localização do mapa de URLs a qualquer crawler que leia o robots.txt, e é independente dos blocos de user-agent, por isso fica fora deles.

User-agent: GPTBot
Allow: /

Sitemap: https://www.suaempresa.com.br/sitemap.xml

Liberar o crawler e entregar o mapa no mesmo arquivo é o caminho mais curto entre o seu conteúdo e o índice da IA.


Como liberar só uma parte do site?

A decisão não precisa ser tudo ou nada. O robots.txt define permissão por caminho, então dá para abrir o que você quer que apareça nas respostas e reservar o que não deveria circular. O caso típico: liberar o blog e as páginas institucionais (o conteúdo que demonstra a sua autoridade) e manter fora a área de cliente, o painel administrativo e as páginas de checkout. Um bloco com essa lógica:

User-agent: GPTBot
Allow: /
Disallow: /minha-conta/
Disallow: /checkout/
Disallow: /admin/

A leitura: o GPTBot acessa o site (Allow: /), exceto os caminhos listados nos Disallow:. Como a regra mais específica vence dentro do bloco, cada Disallow: recorta uma exceção do Allow: / geral. Páginas de conta e checkout não agregam nada às respostas de IA (são funcionais, não informativas) e podem conter dados que nenhum robô deveria ler. O conteúdo que responde às perguntas do seu público é exatamente o que você quer que o modelo encontre.

Manter o site rastreável é o pré-requisito, não o objetivo final. O que faz o conteúdo ser de fato citado, depois que o crawler entra, é outra camada: estrutura clara, dados estruturados e respostas diretas. O llms.txt, uma orientação opcional de prioridade de leitura para os robôs de IA, vive na mesma vizinhança do robots.txt, mas é assunto separado, tratado no tutorial sobre o que é o llms.txt e como criar.


Bloquear os crawlers de IA vale a pena?

Depende do que o seu site vende e de quem você quer que leia. Não existe recomendação universal aqui, e qualquer artigo que mande "libere tudo" ou "bloqueie tudo" está ignorando metade dos casos. Vale entender os dois lados antes de escrever a regra.

O que você ganha ao liberar. Abrir os crawlers de IA coloca o seu conteúdo no que alimenta os modelos, seja o treinamento, seja a busca em tempo real, dependendo do bot. Conteúdo que o crawler não acessa não tem como ser citado. Para um negócio que vive de ser descoberto (uma loja, um prestador de serviço, um portal de conteúdo), bloquear o crawler fecha uma porta que os clientes já usam para perguntar sobre o seu mercado. Quem pergunta "qual a melhor agência de SEO em Curitiba?" ao ChatGPT recebe uma resposta montada a partir do que os modelos conseguiram ler.

O que motiva bloquear. Há quem prefira não ceder conteúdo proprietário para treinar modelos de terceiros, por propriedade intelectual ou por modelo de negócio. Veículos com conteúdo pago, bases de dados originais e materiais sob assinatura têm um argumento legítimo para restringir: o conteúdo é o produto, e alimentá-lo de graça num modelo que pode parafraseá-lo sem enviar tráfego de volta é abrir mão de valor. A ferramenta (o robots.txt) é a mesma; o que muda é a sua posição sobre quem pode usar o seu conteúdo.

O bloco que bloqueia inverte o Allow por Disallow:

User-agent: GPTBot
Disallow: /

Vale uma ressalva honesta sobre o alcance dessa regra. O robots.txt é um pedido, não uma trava: ele depende de o crawler respeitar a instrução. Os bots documentados dos grandes provedores, como o GPTBot, declaram que obedecem e na prática obedecem, então para esses bots oficiais o arquivo é o mecanismo certo. Quem precisa barrar robôs que ignoram o protocolo (raspadores anônimos, por exemplo) tem de agir na camada do servidor.


Por onde começar?

Abra seusite.com.br/robots.txt no navegador e leia os blocos. Se a página retornar erro 404, o site não tem robots.txt, e isso significa que tudo está liberado por padrão, inclusive os crawlers de IA. Se o arquivo existe, procure três coisas: um Disallow: / debaixo de User-agent: * (que bloqueia todos os robôs, talvez sem querer), qualquer bloco nomeado para um crawler de IA (que tem regra própria) e a diretiva Sitemap: (que vale a pena ter). A partir daí, a escolha é sua, e ela é consciente: liberar para entrar nas respostas, bloquear para reservar o conteúdo, ou liberar só as partes que ajudam o modelo e proteger o resto.

Confirme cada nome de user-agent na documentação do provedor antes de escrever a regra, e teste o resultado num validador de robots.txt, colando a URL de uma página de conteúdo e o nome do robô para ver se aquele caminho está permitido. Vale checar tanto a home quanto uma página interna, porque as regras variam por caminho.

Se você não tem certeza se o robots.txt do seu site está liberando ou barrando os crawlers de IA, a auditoria de site da Promptis verifica o acesso dos crawlers entre os fatores que checa, junto com estrutura, dados estruturados e profundidade de conteúdo, página por página. A primeira análise é gratuita e não pede cartão, um ponto de partida para saber se o portão do seu site está aberto ou fechado para as IAs. O quadro completo da infraestrutura que afeta a sua presença em IA está no guia de GEO técnico da Promptis, do rastreamento à renderização.

Perguntas frequentes

Bloquear o GPTBot no robots.txt afeta o SEO no Google?+

Não. O GPTBot é o crawler da OpenAI e é independente do Googlebot, que indexa o site para a busca. Controlar o GPTBot no robots.txt não muda o seu ranqueamento no Google, porque são robôs diferentes, com user-agents diferentes, controlados por regras separadas. O que muda ao bloquear o GPTBot é só a presença do seu conteúdo nos dados da OpenAI.

Preciso listar cada crawler de IA separadamente no robots.txt?+

Não é obrigatório, mas é o jeito mais previsível. Uma regra para o User-agent asterisco vale para todos os robôs sem regra própria. O problema é que essa regra genérica costuma vir de uma configuração antiga e acabar bloqueando bots por acidente. Declarar User-agent: GPTBot com a permissão que você quer remove a ambiguidade para aquele crawler específico.

O robots.txt obriga o crawler de IA a obedecer?+

Não. O robots.txt é um pedido, não uma trava técnica: ele depende de o robô respeitar a instrução. Os crawlers documentados dos grandes provedores, como o GPTBot da OpenAI, declaram que obedecem e na prática obedecem. Para esses bots oficiais, o robots.txt é o mecanismo certo. Quem ignora o protocolo precisa de bloqueio no servidor, não no robots.txt.

Leia também

Audite seu site para IA

Comece agora

Usamos cookies para operar o site e, com a sua permissão, para medir e melhorar a nossa divulgação. Política de Privacidade