Auditar um site para GEO (Generative Engine Optimization) é verificar, ponto a ponto, os sinais técnicos que decidem se as IAs generativas conseguem rastrear, entender e citar as suas páginas. O caminho cabe em uma frase: percorra sete pontos de verificação, do acesso dos crawlers de IA até a clareza do conteúdo, e anote onde estão as lacunas para corrigir por ordem de impacto.
Este é o checklist guarda-chuva do GEO técnico. Em vez de aprofundar um único ajuste, ele organiza a verificação inteira em sete passos, do portão de entrada (o crawler consegue acessar?) até o acabamento (você sinalizou o que ler primeiro?). Cada passo traz uma checagem rápida que você faz sem código e um link para o tutorial específico quando chegar a hora de corrigir. No fim, você sai com uma lista de lacunas priorizada, não com a sensação vaga de que falta alguma coisa.
Quais sinais técnicos a IA precisa encontrar no seu site?
Uma resposta de IA só inclui a sua marca se três coisas acontecerem em sequência: o crawler chega na página, o modelo entende o que aquela página é e o conteúdo está num formato fácil de extrair. Cada passo do checklist abaixo verifica um elo dessa corrente. Se um elo arrebenta, os que vêm depois não importam.
A tabela serve de mapa. Use a coluna do meio para fazer a leitura rápida hoje e a última para entender o que está em jogo em cada item.
| Sinal técnico | Como verificar em um passo | Por que a IA se importa |
|---|---|---|
| Acesso dos crawlers (robots.txt) | Abra seusite.com.br/robots.txt e procure um Disallow que pegue o GPTBot | O que o crawler não acessa não entra nos dados que alimentam a resposta |
| Sitemap | Abra /sitemap.xml e veja se as páginas principais estão lá e atualizadas | Ajuda o robô a descobrir páginas que os links internos não alcançam |
| Dados estruturados | Cole a URL no Rich Results Test ou no Schema Markup Validator | Declara identidade e tipo de conteúdo sem o modelo ter que adivinhar |
| Hierarquia de títulos | Confira um único H1 e H2/H3 sem pular nível | Blocos bem delimitados são extraídos como resposta direta |
| Consistência de entidade (NAP) | Veja se nome, endereço e telefone batem entre site, Google e redes | Nome instável faz o modelo achar que existem duas empresas |
| Citabilidade do conteúdo | A página responde nas primeiras frases e tem FAQ? | O modelo pesa o topo e os blocos diretos na hora de citar |
| llms.txt | Abra /llms.txt: existe e lista as páginas-chave? | Sinal de curadoria, ainda não adotado oficialmente pelos grandes modelos |
Passo 1: o crawler de IA consegue entrar no seu site?
Esta é a verificação que vem antes de todas as outras. Não adianta ter o melhor conteúdo do setor se o robô da IA bate na porta e encontra ela trancada. O arquivo que controla isso é o robots.txt, um texto na raiz do domínio que diz a cada crawler onde ele pode ou não entrar.
Abra seusite.com.br/robots.txt no navegador. Procure dois tipos de bloco: um User-agent: GPTBot com regra própria e o bloco genérico User-agent: *. Se o bloco genérico tem um Disallow: / e não existe uma regra liberando o GPTBot, o crawler da OpenAI está bloqueado junto com todos os outros. O detalhe que pega muita gente: o bloqueio quase nunca é proposital. Ele costuma ser herdado de uma configuração antiga, escrita anos atrás pela plataforma do site para todos os robôs.
Se a leitura levantar dúvida, um validador de robots.txt confirma se um caminho está liberado para o user-agent que você testar. O passo a passo de identificar e ajustar cada regra está em como deixar seu site rastreável pelos crawlers de IA. Marque este item como aprovado só quando tiver certeza de que as suas páginas de conteúdo estão acessíveis ao GPTBot.
Passo 2: o crawler sabe quais páginas existem?
O robots.txt diz ao robô o que ele pode acessar. O sitemap diz o que existe para ser acessado. São complementares, e o segundo resolve um problema silencioso: uma página rastreável, mas mal-linkada internamente, pode nunca ser descoberta. Listada no sitemap, ela entra no radar.
Abra seusite.com.br/sitemap.xml. Confirme três coisas: o arquivo carrega sem erro, ele inclui as páginas que importam para o negócio (e não só a home) e as datas de atualização refletem mudanças reais, não um carimbo de anos atrás. Sites em WordPress e em plataformas modernas geram o sitemap automaticamente, mas vale checar se ele não ficou preso a uma versão antiga da estrutura.
Um ajuste que custa uma linha: aponte o sitemap dentro do próprio robots.txt, com a diretiva Sitemap:. Assim qualquer crawler que leia o robots.txt já recebe o mapa no mesmo arquivo, sem depender de configuração externa.
Passo 3: o seu site declara quem você é?
Sem dados estruturados, o modelo precisa deduzir a sua identidade a partir do texto solto da página: título, rodapé, menu de navegação. Funciona mais ou menos para marcas grandes, com muito material na web. Para a maioria das empresas brasileiras de porte médio e pequeno, o resultado é vago ou trocado. Os dados estruturados (geralmente em JSON-LD) cortam essa adivinhação e dizem, em formato padronizado, exatamente o que cada página é.
A verificação é gratuita e direta. Cole a URL de uma página no Rich Results Test do Google (search.google.com/test/rich-results) ou no Schema Markup Validator (validator.schema.org) e veja o que aparece. Faça isso para as páginas que mais importam e cheque três presenças:
- Organization na home e nas páginas institucionais, declarando nome, site, logo e contato.
- FAQPage onde houver perguntas e respostas, porque ele marca pares diretamente citáveis.
- Article nos posts do blog, com autor e data de atualização preenchidos.
O que você não quer ver é a tela vazia (nenhum schema) nem um erro de sintaxe, que quebra a leitura do bloco inteiro. Por que essa é a primeira correção que vale a pena fazer e como montar cada tipo está em dados estruturados, a vitória mais barata do GEO.
Passo 4: a hierarquia de títulos está sem furos?
A forma como você organiza os títulos da página é a planta baixa que o modelo usa para separar um assunto do outro. Uma estrutura limpa entrega blocos bem delimitados, e blocos bem delimitados são o que a IA extrai como resposta. Uma estrutura bagunçada enterra a informação no meio do texto corrido.
Confira três pontos em cada página de conteúdo. Existe um único H1, e ele descreve o tema da página? Os subtítulos seguem do H2 para o H3 sem pular nível (nunca um H3 logo abaixo de um H1)? E os H2 são formulados como as perguntas que o seu público faz, em vez de rótulos vazios como "Introdução"? Para enxergar a hierarquia sem ler o código, uma extensão de navegador que mostra o outline de cabeçalhos resolve; alternativamente, o "inspecionar elemento" revela as tags.
O raciocínio completo de por que essa estrutura pesa na recuperação por IA, com exemplos de antes e depois, está em headings e estrutura para a IA.
Passo 5: o nome da sua marca é o mesmo em todo lugar?
Uma IA só recomenda com confiança o que ela reconhece como uma coisa única e bem definida. Se a sua empresa aparece na web com o nome escrito de três jeitos diferentes, com um endereço no site e outro no Google, o modelo tem que costurar essa identidade sozinho, e costura errado: confunde você com um homônimo ou mistura atributos de duas empresas.
A verificação é mais editorial do que técnica, e por isso costuma passar batida. Abra lado a lado a sua home, o seu perfil no Google, as suas redes sociais e o rodapé do site. O nome oficial está escrito da mesma forma em todos? O telefone e o endereço batem? Padronize a grafia que ancora a sua entidade: escolha uma forma do nome e use sempre a mesma. Uma grafia instável é a maneira mais comum de a IA achar que existem duas marcas onde só existe uma.
Passo 6: o conteúdo responde de forma extraível?
Os cinco passos anteriores garantem que a IA chega na página e entende o que ela é. Este verifica se o texto, uma vez lido, é fácil de citar. Modelos de linguagem dão mais peso ao início do conteúdo e aos blocos diretos, então a forma importa tanto quanto o assunto.
Leia as suas páginas principais com olhos de robô e pergunte:
- As primeiras frases respondem à pergunta central, ou abrem com um parágrafo genérico de aquecimento?
- Existe uma seção de perguntas frequentes, com respostas que funcionam fora de contexto?
- Autor e data de publicação estão visíveis, sinalizando atualidade e responsabilidade?
- O texto principal aparece no HTML, ou depende de JavaScript para carregar? Desligue o JavaScript do navegador ou veja o código-fonte da página: se o conteúdo some, parte dos crawlers pode não enxergá-lo.
Quando uma dessas respostas é desfavorável, o conteúdo está deixando citação na mesa. Como reescrever para os modelos extraírem com precisão está em conteúdo citável para IAs.
Passo 7: você deu à IA o mapa de prioridade?
O último item é o acabamento, não a fundação. O llms.txt é um arquivo de texto na raiz do domínio que lista, em Markdown, as páginas que melhor explicam o seu negócio, com uma descrição curta de cada uma. A ideia é orientar o robô de IA sobre o que ler primeiro, em vez de deixá-lo gastar o orçamento de leitura em páginas secundárias.
Abra seusite.com.br/llms.txt. Se o arquivo existe, confira se ele aponta para uma seleção enxuta (de 5 a 15 páginas-chave) com descrições que ajudam uma máquina a decidir o que abrir. Se não existe, ele entra na lista de melhorias, com uma ressalva honesta: nenhum dos grandes provedores de IA documenta hoje o uso do arquivo. O custo de criar é meia hora e o risco é zero, mas trate-o como uma aposta barata, não como peça decisiva. O formato e o passo a passo estão em como criar o llms.txt do seu site.
A ordem deste checklist não é acidental: o llms.txt vem por último porque ele só faz sentido depois que o crawler tem acesso, o site declara quem você é e o conteúdo está limpo. A cereja pressupõe o bolo.
Por onde começar a auditoria hoje?
Se você for fazer a auditoria inteira de uma vez, siga a ordem dos passos: ela vai do mais decisivo (acesso) ao mais refinado (curadoria). Se o tempo é curto, recorte os dois itens de maior retorno. O Passo 1 (confirmar que o robots.txt não bloqueia o GPTBot por acidente) destrava tudo o que vem depois. O Passo 3 (declarar a sua identidade com dados estruturados) é a correção mais barata que melhora como o modelo entende a sua marca. Esses dois resolvidos, o resto vira refinamento.
O trabalho que vem depois, conteúdo consistente e reputação construída ao longo do tempo, é genuinamente mais difícil. A parte técnica não é: é uma manhã de verificação e ajustes que a maioria dos seus concorrentes ainda não fez.
Para não fazer a varredura na unha, página por página, a auditoria de site da Promptis mapeia boa parte desses sinais automaticamente: presença de dados estruturados, hierarquia de títulos, profundidade de conteúdo, inclusão no sitemap e bloqueios no robots.txt, com a nota de cada página. A primeira análise é grátis e não pede cartão, um bom ponto de partida para saber exatamente onde estão as suas lacunas antes de abrir o editor.


