Fundamentos de GEO

Dados de treino x busca na web: como a IA conhece sua marca

Por Equipe Promptis6 de junho de 20268 min de leitura
Ilustração isométrica de dois caminhos de conhecimento convergindo em um nó central de modelo de IA, um vindo de uma pilha de documentos estática e outro de um fluxo de web em tempo real, em paleta rosa e off-white
Neste artigo+

A IA conhece a sua marca por dois caminhos, e eles funcionam de formas bem diferentes. O primeiro é o corpus de treino (corpus, o conjunto de textos usado para treinar o modelo): tudo que o modelo leu da internet até uma certa data, congelado no que ele aprendeu. O segundo é a busca na web em tempo real: quando a pergunta chega, o modelo consulta a web na hora e usa o que encontra. Cada caminho tem uma velocidade de atualização própria e produz um tipo de erro próprio.

Entender essa divisão é o que separa a expectativa realista da frustração. Quem acha que mexer no site muda a resposta do ChatGPT no mesmo dia está confundindo os dois modos. Quem acha que apagar uma página remove o que o modelo já sabe está confundindo de novo. Os dois caminhos coexistem na mesma resposta, e o que você controla em cada um é diferente.


O ChatGPT aprende sobre minha empresa pelo site ou por outros meios?

Pelos dois, mas o caminho mais antigo é o corpus de treino. Um modelo de linguagem grande, o que se chama de modelo de fundação, é treinado lendo uma quantidade enorme de texto da internet: artigos, sites, fóruns, notícias, páginas de empresa. O modelo não guarda essas páginas como um arquivo que ele consulta depois. Ele ajusta bilhões de parâmetros internos a partir desse texto, e o que sobra é uma espécie de conhecimento difuso sobre o mundo, incluindo o que se dizia sobre a sua marca naquele material.

Esse processo tem uma fronteira temporal: a data de corte do treino, em inglês knowledge cutoff. É o ponto até onde o texto foi coletado. Tudo que aconteceu na web depois dessa data simplesmente não fez parte do treino daquele modelo. Os fabricantes costumam divulgar uma data de corte aproximada para cada versão de modelo, e ela muda de uma versão para outra. O ponto prático não é a data exata, é a consequência: o conhecimento de base do modelo é uma fotografia do passado, não um espelho do presente.

Para a sua marca, isso tem dois efeitos concretos:

  • Marca nova quase não existe no corpus. Se a sua empresa surgiu, mudou de nome ou de posicionamento depois da data de corte, o conhecimento de base do modelo não sabe disso. Ele pode não te conhecer, ou pior, conhecer uma versão antiga sua.
  • Informação desatualizada gruda. Se há dois anos a web dizia que você atendia só uma cidade e hoje você atende o país inteiro, o corpus pode ter aprendido a versão antiga. O modelo não atualiza sozinho o que memorizou.

O que você controla aqui é lento e indireto: é o que circula sobre a sua marca na web ao longo do tempo. Quanto mais material claro, consistente e correto existir sobre você antes do próximo ciclo de treino, melhor a chance de o modelo aprender a versão certa. Não dá para garantir que um conteúdo entre no treino de um modelo específico, e não dá para apressar isso. É o caminho de fundo, que se constrói com meses de presença, não com uma edição de site.


Como a IA sabe das informações sobre uma empresa se a resposta não vem do Google?

Quando a resposta não vem da memória do treino, ela vem da busca na web em tempo real. Vários assistentes, incluindo o ChatGPT com busca ativa, conseguem consultar a internet no momento da pergunta. Em vez de responder só com o que memorizou, o modelo dispara uma busca, lê algumas páginas e compõe a resposta a partir delas. A técnica por trás disso se chama RAG (Retrieval-Augmented Generation): o modelo recupera documentos atualizados antes de responder, em vez de depender apenas do treino.

Esse modo muda o jogo da velocidade. Como o modelo está lendo a web no instante da pergunta, uma página publicada ontem pode ser citada hoje, desde que seja rastreável e clara o suficiente para o sistema de busca encontrar e processar. Quando o modelo baseia a resposta em uma fonte concreta dessa forma, o termo técnico é grounding, a ancoragem da resposta em material verificável. Respostas ancoradas tendem a citar de onde a informação veio, e é exatamente aí que a sua marca tem a chance de ser a fonte citada.

A busca não roda em toda pergunta. O modelo costuma acioná-la quando o assunto pede informação recente, específica ou que ele não tem com confiança na memória. Quais fontes ele consulta depende do mecanismo de busca por trás do assistente: alguns produtos usam o índice do Bing, outros têm índice próprio, e o ranqueamento dessas fontes segue critérios que tratamos em outro artigo (o de como as IAs escolhem entre fontes, que vem depois deste). O que importa para a velocidade é que, no modo busca, a web é reavaliada a cada pergunta. Não existe uma memória travada: se a fonte mudou, a próxima resposta pode mudar junto.

O que você controla no modo busca é mais imediato do que no treino, mas ainda não é instantâneo. Você controla se o seu site é rastreável, se a informação está clara na página e se as fontes que o modelo provavelmente vai encontrar (seu site, diretórios, perfis, conteúdo de terceiros) dizem a coisa certa. O artigo sobre como deixar seu conteúdo citável por IAs detalha o lado da página. Para o panorama de como a busca dentro do chat está mudando, vale o hub do pilar futuro da busca.


O que acontece quando os dois modos discordam?

Quando o conhecimento de base diz uma coisa e a busca recente diz outra, o modelo tende a priorizar a fonte recuperada na hora, porque ela é mais atual. Mas tende não é sempre, e aí mora o problema. A resposta pode misturar os dois: pegar a estrutura do que o modelo memorizou e enxertar um dado novo da busca, às vezes de forma inconsistente.

Um exemplo concreto de como isso aparece para uma marca. Suponha que a sua empresa mudou de modelo de negócio no ano passado. A busca encontra o seu site atualizado e traz o posicionamento novo. Mas o conhecimento de base ainda carrega a versão antiga, repetida em dezenas de páginas que o modelo leu no treino. A resposta pode sair híbrida: o nome certo, o serviço novo vindo da busca, e uma frase de contexto que ainda reflete o que você era antes. Para o usuário, parece uma resposta só. Para você, é a colisão dos dois caminhos.

Isso explica por que a presença na web aberta importa nos dois modos ao mesmo tempo. A reputação e a consistência da informação sobre você alimentam o treino (a fundo, com atraso) e a busca (na hora, com rapidez). Não são duas batalhas separadas. É o mesmo material de fundo sendo lido em dois ritmos.


O que a empresa controla em cada modo?

Vale separar, porque a alavanca é diferente e a expectativa de prazo também.

Corpus de treinoBusca na web em tempo real
Como entraTexto coletado da web até a data de cortePáginas lidas no momento da pergunta
Velocidade de mudançaMeses, atrelada a novos ciclos de treinoDias, a cada nova busca
O que você controlaO que circula sobre a marca na web ao longo do tempoRastreabilidade, clareza da página, qualidade das fontes que o modelo encontra
Tipo de erro que produzInformação desatualizada, marca nova ausenteFonte errada citada, dado recente porém mal interpretado
GarantiaNenhuma de que um conteúdo entre no treinoNenhuma de que o modelo escolha a sua página

A leitura prática da tabela é simples. Para o curto prazo, trabalhe o modo busca: deixe o site rastreável, escreva a informação de forma direta e corrija o que está errado nas fontes que descrevem a sua marca. Para o longo prazo, trabalhe o modo treino: construa uma presença consistente e correta na web aberta, sabendo que o retorno vem devagar e sem promessa de data. Nenhum dos dois é um botão. Os dois são acúmulo.


Os erros comuns que vêm de confundir os dois modos

Quase todo mal-entendido sobre como a IA fala da sua marca cai em um destes dois.

Achar que atualizar o site muda a resposta na hora. Não muda, na maioria dos casos. Se a resposta veio do conhecimento de base, a sua edição de hoje não tem efeito nenhum no que o modelo memorizou. Se veio da busca, a mudança só aparece quando o sistema de busca rastrear a página de novo e o modelo recuperá-la em uma próxima pergunta. Pode ser rápido, mas não é o tempo do "salvei e atualizei". Editar o site é necessário, só não é instantâneo.

Achar que remover conteúdo apaga o que o modelo já sabe. Tirar uma página do ar remove ela da busca futura, sim. O sistema deixa de encontrá-la. Mas o que o modelo já aprendeu daquele texto no treino continua nos parâmetros dele. Apagar a fonte não apaga a memória. É por isso que informação negativa ou errada que já entrou no corpus é tão difícil de combater: você pode tirar a página, e o eco dela permanece no conhecimento de base até que ciclos futuros de treino, alimentados por uma web já corrigida, diluam aquilo.

O fio que conecta os dois erros é o mesmo: tratar o modelo como um banco de dados que você edita. Ele não é. Um modo é uma fotografia antiga que você não consegue revelar de novo à vontade, o outro é uma leitura ao vivo que você pode influenciar, mas não comandar. Quando a sua marca some ou aparece errada, vale entender por que isso acontece no ChatGPT antes de tentar consertar no lugar errado.

A boa notícia é que os dois caminhos respondem ao mesmo trabalho de fundo, só em ritmos diferentes. Conteúdo claro, rastreável e correto, espalhado por fontes que o modelo confia, melhora o que a busca encontra agora e o que o treino vai aprender depois. Você não controla o modelo. Controla o material que ele lê, e isso já move muito.

Perguntas frequentes

Quanto tempo leva para o ChatGPT mencionar meu site novo?+

Depende do caminho. Se a resposta vier da busca na web, uma página rastreável e clara pode ser citada poucos dias depois de publicada. Se você espera entrar no conhecimento de base do modelo (o corpus de treino), o prazo é de meses e não é garantido: depende de o conteúdo ser coletado e de o modelo passar por um novo ciclo de treinamento com data de corte posterior à sua publicação.

O ChatGPT usa o Wayback Machine para ler versões antigas do meu site?+

Não é documentado nem garantido. A OpenAI não publica a lista exata de fontes que alimentam o treino de cada modelo, então afirmar que o Wayback Machine entra nesse conjunto seria especulação. O que se sabe é que o corpus de treino é formado por texto coletado da web até uma data de corte; versões antigas de uma página podem ter sido capturadas em algum momento e o modelo não esquece o que já aprendeu só porque você editou a página depois.

Como corrijo uma informação errada que o ChatGPT fala sobre minha empresa?+

Não há um botão de correção. Se o erro aparece na busca na web, a via é melhorar as fontes que o modelo encontra: atualizar seu site, corrigir diretórios e perfis, e buscar que páginas confiáveis tragam a informação certa, de forma que a próxima busca pese o dado correto. Se o erro está no conhecimento de base, a correção é mais lenta e indireta: você muda o que circula na web e espera que ciclos futuros de treino reflitam isso. Em nenhum dos casos a mudança é instantânea.

Leia também

Meça a visibilidade da sua marca em IA

Comece agora

Usamos cookies para operar o site e, com a sua permissão, para medir e melhorar a nossa divulgação. Política de Privacidade