GEO técnico & conteúdo

Como deixar seu site rastreável pelos crawlers de IA

Por Equipe Promptis1 de junho de 20268 min de leitura
Ilustração isométrica de um portão aberto em um muro baixo, com um caminho levando a uma estrutura de site, representando acesso liberado para crawlers de IA
Neste artigo+

Os crawlers de IA usam user-agents próprios (o GPTBot e o OAI-SearchBot, da OpenAI, são os mais documentados) e obedecem o arquivo robots.txt do seu site, o mesmo arquivo que o Google lê há décadas. Para deixar o site rastreável, abra o seu robots.txt, confira se alguma regra está bloqueando esses bots (com frequência o bloqueio é acidental, herdado de uma regra ampla para todos os robôs) e ajuste a permissão para o que você quer expor.

Crawler é o robô que visita páginas e lê o conteúdo. User-agent é o nome que esse robô se dá ao bater na porta do site. Robots.txt é o arquivo de texto que diz quais robôs podem entrar e onde. Essa é a camada mais básica do GEO técnico: antes de pensar em dados estruturados ou em qualquer outra otimização, o crawler precisa conseguir chegar na página. É o portão de entrada.


O GPTBot consegue acessar meu site?

Depende do que está escrito no seu robots.txt. O GPTBot é o crawler oficial da OpenAI, documentado pela própria empresa, e ele respeita o robots.txt como qualquer crawler bem-comportado. Se o arquivo libera o caminho, o GPTBot lê. Se bloqueia, ele não lê.

O detalhe que pega muita gente: o bloqueio quase nunca é proposital. Ninguém senta e escreve "vou bloquear o GPTBot". O que acontece é que o robots.txt já existia, foi configurado anos atrás pelo desenvolvedor ou pela plataforma do site com uma regra genérica para todos os robôs, e o GPTBot, quando surgiu, simplesmente herdou essa regra antiga.

O rastreamento é o primeiro filtro. Um site que o crawler não acessa não entra nos dados que alimentam o modelo, e o que não está nesses dados não aparece nas respostas. Por isso esta verificação vem antes de tudo: não adianta investir em conteúdo denso se o portão está fechado.


Como verificar o robots.txt atual do seu site

O robots.txt é um arquivo de texto que mora na raiz do domínio. Você não precisa de nenhuma ferramenta para começar: basta abrir o navegador.

Passo 1: Abra o arquivo no navegador

Digite o endereço do seu site seguido de /robots.txt. Por exemplo, https://www.suaempresa.com.br/robots.txt. O conteúdo aparece como texto puro na tela. Se a página retornar erro 404, o site não tem robots.txt, e isso significa que tudo está liberado por padrão (volte para a seção da FAQ sobre não ter o arquivo).

Passo 2: Leia as regras de cima para baixo

O robots.txt é organizado em blocos. Cada bloco começa com uma linha User-agent: (a qual robô a regra se aplica) seguida de uma ou mais linhas Disallow: (o que esse robô não pode acessar) ou Allow: (o que ele pode). A estrutura básica é esta:

User-agent: *
Disallow: /admin/
Allow: /

A linha User-agent: * significa "todos os robôs". O asterisco é um curinga. Um Disallow: / (com a barra sozinha) bloqueia o site inteiro. Um Disallow: vazio, ou um Allow: /, libera tudo.

Passo 3: Procure por bloqueios que pegam o GPTBot

Olhe para dois tipos de bloco. Primeiro, qualquer bloco com User-agent: GPTBot (ou outro crawler de IA pelo nome): a regra dentro dele é específica para esse robô. Segundo, o bloco User-agent: *: se ele tem um Disallow: / ou bloqueia os caminhos do seu conteúdo principal, o GPTBot está incluído nessa regra, a menos que exista um bloco próprio para ele liberando o acesso.

A regra mais específica vence. Se houver User-agent: GPTBot com Allow: / e, mais abaixo, User-agent: * com Disallow: /, o GPTBot está liberado e o resto dos robôs está bloqueado.

Passo 4: Teste com um validador

Para confirmar sem depender da sua leitura, use um testador de robots.txt. O Google oferece um no Search Console (para o Googlebot), e existem validadores gratuitos online onde você cola a URL da página e o nome do user-agent (GPTBot) e a ferramenta diz se aquele caminho está permitido ou bloqueado para aquele robô. Vale testar tanto a home quanto uma página interna de conteúdo, porque as regras podem variar por caminho.


Quais user-agents de IA os provedores usam?

Cada provedor de IA dá um nome ao seu crawler, e cada nome é uma linha User-agent: separada no robots.txt. Conhecer os principais deixa você decidir sobre cada um de forma consciente, em vez de deixar tudo na mão de uma regra genérica.

Os user-agents mais documentados, com a identificação publicada pelos próprios provedores:

  • GPTBot (OpenAI): coleta conteúdo da web que pode ser usado para treinar e melhorar os modelos. É o crawler de IA com a documentação mais consolidada.
  • OAI-SearchBot (OpenAI): atende à busca em tempo real do ChatGPT. É distinto do GPTBot porque a função é outra (alimentar a busca ao vivo, não o treinamento), e por isso tem o seu próprio user-agent e a sua própria regra no robots.txt.

Outros provedores de IA também rodam crawlers próprios e publicam a identificação na documentação técnica de cada um. Como esses nomes mudam e novos bots surgem, a fonte autoritativa é sempre a página de documentação do provedor, não uma lista de terceiros que pode estar desatualizada. Se você vai liberar ou bloquear um bot pelo nome, confirme o user-agent exato na documentação oficial antes de escrever a regra.

Por isso a OpenAI separa GPTBot e OAI-SearchBot: você pode querer aparecer na busca ao vivo do ChatGPT (liberar o OAI-SearchBot) e ter uma posição diferente sobre ceder conteúdo para treinamento (decidir sobre o GPTBot). Os dois user-agents dão esse controle granular.


Devo bloquear ou permitir os crawlers de IA no robots.txt?

Para a maioria das empresas que quer ser encontrada, a resposta é permitir. Mas o trade-off é real e vale entender os dois lados antes de decidir.

O que você ganha ao permitir. Liberar o GPTBot e os demais crawlers de IA coloca o seu conteúdo no que alimenta os modelos: tanto os dados de treinamento quanto a busca web em tempo real, dependendo do bot. Conteúdo que o crawler não acessa não tem como ser citado. Para um negócio que vive de ser descoberto (uma loja, um prestador de serviço, um portal de conteúdo), bloquear o crawler é fechar uma porta de entrada que os clientes já estão usando para perguntar sobre o seu mercado.

O que motiva bloquear. Há quem prefira não ceder conteúdo proprietário para treinar modelos de terceiros, por uma questão de propriedade intelectual ou de modelo de negócio. Veículos com conteúdo pago, bases de dados originais e materiais sob assinatura têm um argumento legítimo para restringir. É uma decisão de estratégia, não de configuração: a ferramenta (o robots.txt) é a mesma, o que muda é a sua posição sobre quem pode usar o seu conteúdo.

Vale uma ressalva honesta: o robots.txt é um pedido, não uma trava. Ele depende de o crawler respeitar a instrução. Os bots documentados dos grandes provedores, como o GPTBot, declaram que obedecem, e na prática obedecem. Para a decisão de permissão desses bots oficiais, o robots.txt é o mecanismo certo e suficiente.

A decisão não precisa ser tudo ou nada, e é aí que entra a permissão seletiva.


Como liberar só uma parte do site para os crawlers de IA?

Você não é obrigado a escolher entre liberar o site inteiro ou bloquear tudo. O robots.txt permite definir permissão por caminho, então dá para abrir o que você quer que apareça nas respostas e proteger o que não deveria circular.

O caso mais comum: liberar o blog e as páginas institucionais (o conteúdo que você quer que seja descoberto) e manter fora a área de cliente, o painel administrativo, páginas de checkout ou qualquer rota com dado sensível. Um exemplo de bloco para o GPTBot com essa lógica:

User-agent: GPTBot
Allow: /
Disallow: /minha-conta/
Disallow: /checkout/
Disallow: /admin/

A leitura desse bloco: o GPTBot pode acessar o site (Allow: /), exceto os caminhos listados nos Disallow:. A ordem importa menos do que a especificidade, mas manter o Allow: / no topo e os bloqueios logo abaixo deixa a intenção clara para quem for ler o arquivo depois.

Essa permissão seletiva é boa prática. Páginas de conta e checkout não agregam nada às respostas de IA (são funcionais, não informativas) e podem conter dados que nenhum robô deveria ler. Já o conteúdo que demonstra a sua autoridade (artigos, páginas de produto, guias) é exatamente o que você quer que o modelo encontre. Manter o site rastreável é o pré-requisito, mas o que faz o conteúdo ser de fato citado é outra camada, tratada no artigo conteúdo citável para IAs.


Como o sitemap se encaixa nisso?

O robots.txt diz ao crawler o que ele pode acessar. O sitemap diz ao crawler o que existe para ser acessado. São complementares: um é a permissão, o outro é o mapa.

O sitemap.xml é um arquivo que lista as URLs do seu site, ajudando os crawlers (de busca e de IA) a descobrir páginas que talvez não encontrassem só seguindo links. Uma página rastreável mas mal-linkada internamente pode passar despercebida; listada no sitemap, ela entra no radar do robô.

Uma boa prática que custa uma linha: aponte o sitemap dentro do próprio robots.txt. A diretiva Sitemap: informa a localização do arquivo a qualquer crawler que leia o robots.txt, sem depender de configuração externa.

User-agent: GPTBot
Allow: /

Sitemap: https://www.suaempresa.com.br/sitemap.xml

A diretiva Sitemap: é independente dos blocos de user-agent (por isso fica fora deles, geralmente no fim do arquivo) e vale para todos os robôs que leem o robots.txt. Liberar o crawler e entregar o mapa no mesmo arquivo é o caminho mais curto entre o seu conteúdo e o índice da IA.


Por onde começar hoje?

A verificação inteira leva dez minutos e não exige código: abra seusite.com.br/robots.txt, leia os blocos, procure por um Disallow: / que pegue todos os robôs e confirme com um validador se o GPTBot está liberado nas suas páginas de conteúdo. Se estiver bloqueado por uma regra genérica antiga, esse é o ajuste de maior retorno e menor esforço no GEO técnico inteiro.

Depois que o portão estiver aberto, as camadas seguintes ganham sentido. Os dados estruturados dizem ao modelo quem você é depois que ele entra. O arquivo llms.txt, ainda uma proposta não consolidada pelos grandes modelos, sinaliza prioridade de conteúdo. E a forma como a página renderiza determina o que o crawler de fato enxerga lá dentro. Cada frente pressupõe a anterior: nenhuma funciona se o crawler nem chega na porta.

Para o quadro completo da infraestrutura que afeta a sua presença em IA, o guia de GEO técnico da Promptis cobre todos os elementos, do rastreamento à renderização. A auditoria de site da Promptis também sinaliza bloqueios no robots.txt entre os fatores que checa, um bom ponto de partida para saber se o portão do seu site está aberto ou fechado para as IAs.

Perguntas frequentes

Bloquear o GPTBot no robots.txt afeta meu SEO no Google?+

Não. O GPTBot é o crawler da OpenAI e é independente do Googlebot, que é quem indexa o site para a busca do Google. Bloquear ou liberar o GPTBot não muda em nada o seu ranqueamento no Google, porque são robôs diferentes, com user-agents diferentes, controlados por regras separadas no robots.txt. A única coisa que muda ao bloquear o GPTBot é a presença do seu conteúdo nos dados da OpenAI.

O que acontece se eu não tiver robots.txt nenhum?+

Sem arquivo robots.txt, a interpretação padrão é que tudo está liberado: qualquer crawler que respeite o protocolo, incluindo o GPTBot, assume que pode acessar todas as páginas. Não ter robots.txt não bloqueia ninguém. O risco oposto é mais comum: existir um robots.txt com uma regra ampla demais que bloqueia bots que você gostaria de liberar.

Preciso listar cada crawler de IA separadamente no robots.txt?+

Não é obrigatório, mas é o jeito mais previsível. Você pode usar uma regra genérica para o User-agent asterisco e ela vale para todos os robôs que não tiverem regra própria. O problema é que essa regra genérica costuma ser herdada de configurações antigas e bloquear bots por acidente. Declarar User-agent: GPTBot com a permissão que você quer remove a ambiguidade para esse crawler específico.

Leia também

Audite seu site para IA

Comece agora

Usamos cookies para operar o site e, com a sua permissão, para medir e melhorar a nossa divulgação. Política de Privacidade