A IA conhece a sua marca por dois caminhos, e eles funcionam de formas bem diferentes. O primeiro é o corpus de treino (corpus, o conjunto de textos usado para treinar o modelo): tudo que o modelo leu da internet até uma certa data, congelado no que ele aprendeu. O segundo é a busca na web em tempo real: quando a pergunta chega, o modelo consulta a web na hora e usa o que encontra. Cada caminho tem uma velocidade de atualização própria e produz um tipo de erro próprio.
Entender essa divisão é o que separa a expectativa realista da frustração. Quem acha que mexer no site muda a resposta do ChatGPT no mesmo dia está confundindo os dois modos. Quem acha que apagar uma página remove o que o modelo já sabe está confundindo de novo. Os dois caminhos coexistem na mesma resposta, e o que você controla em cada um é diferente.
O ChatGPT aprende sobre minha empresa pelo site ou por outros meios?
Pelos dois, mas o caminho mais antigo é o corpus de treino. Um modelo de linguagem grande, o que se chama de modelo de fundação, é treinado lendo uma quantidade enorme de texto da internet: artigos, sites, fóruns, notícias, páginas de empresa. O modelo não guarda essas páginas como um arquivo que ele consulta depois. Ele ajusta bilhões de parâmetros internos a partir desse texto, e o que sobra é uma espécie de conhecimento difuso sobre o mundo, incluindo o que se dizia sobre a sua marca naquele material.
Esse processo tem uma fronteira temporal: a data de corte do treino, em inglês knowledge cutoff. É o ponto até onde o texto foi coletado. Tudo que aconteceu na web depois dessa data simplesmente não fez parte do treino daquele modelo. Os fabricantes costumam divulgar uma data de corte aproximada para cada versão de modelo, e ela muda de uma versão para outra. O ponto prático não é a data exata, é a consequência: o conhecimento de base do modelo é uma fotografia do passado, não um espelho do presente.
Para a sua marca, isso tem dois efeitos concretos:
- Marca nova quase não existe no corpus. Se a sua empresa surgiu, mudou de nome ou de posicionamento depois da data de corte, o conhecimento de base do modelo não sabe disso. Ele pode não te conhecer, ou pior, conhecer uma versão antiga sua.
- Informação desatualizada gruda. Se há dois anos a web dizia que você atendia só uma cidade e hoje você atende o país inteiro, o corpus pode ter aprendido a versão antiga. O modelo não atualiza sozinho o que memorizou.
O que você controla aqui é lento e indireto: é o que circula sobre a sua marca na web ao longo do tempo. Quanto mais material claro, consistente e correto existir sobre você antes do próximo ciclo de treino, melhor a chance de o modelo aprender a versão certa. Não dá para garantir que um conteúdo entre no treino de um modelo específico, e não dá para apressar isso. É o caminho de fundo, que se constrói com meses de presença, não com uma edição de site.
Como a IA sabe das informações sobre uma empresa se a resposta não vem do Google?
Quando a resposta não vem da memória do treino, ela vem da busca na web em tempo real. Vários assistentes, incluindo o ChatGPT com busca ativa, conseguem consultar a internet no momento da pergunta. Em vez de responder só com o que memorizou, o modelo dispara uma busca, lê algumas páginas e compõe a resposta a partir delas. A técnica por trás disso se chama RAG (Retrieval-Augmented Generation): o modelo recupera documentos atualizados antes de responder, em vez de depender apenas do treino.
Esse modo muda o jogo da velocidade. Como o modelo está lendo a web no instante da pergunta, uma página publicada ontem pode ser citada hoje, desde que seja rastreável e clara o suficiente para o sistema de busca encontrar e processar. Quando o modelo baseia a resposta em uma fonte concreta dessa forma, o termo técnico é grounding, a ancoragem da resposta em material verificável. Respostas ancoradas tendem a citar de onde a informação veio, e é exatamente aí que a sua marca tem a chance de ser a fonte citada.
A busca não roda em toda pergunta. O modelo costuma acioná-la quando o assunto pede informação recente, específica ou que ele não tem com confiança na memória. Quais fontes ele consulta depende do mecanismo de busca por trás do assistente: alguns produtos usam o índice do Bing, outros têm índice próprio, e o ranqueamento dessas fontes segue critérios que tratamos em outro artigo (o de como as IAs escolhem entre fontes, que vem depois deste). O que importa para a velocidade é que, no modo busca, a web é reavaliada a cada pergunta. Não existe uma memória travada: se a fonte mudou, a próxima resposta pode mudar junto.
O que você controla no modo busca é mais imediato do que no treino, mas ainda não é instantâneo. Você controla se o seu site é rastreável, se a informação está clara na página e se as fontes que o modelo provavelmente vai encontrar (seu site, diretórios, perfis, conteúdo de terceiros) dizem a coisa certa. O artigo sobre como deixar seu conteúdo citável por IAs detalha o lado da página. Para o panorama de como a busca dentro do chat está mudando, vale o hub do pilar futuro da busca.
O que acontece quando os dois modos discordam?
Quando o conhecimento de base diz uma coisa e a busca recente diz outra, o modelo tende a priorizar a fonte recuperada na hora, porque ela é mais atual. Mas tende não é sempre, e aí mora o problema. A resposta pode misturar os dois: pegar a estrutura do que o modelo memorizou e enxertar um dado novo da busca, às vezes de forma inconsistente.
Um exemplo concreto de como isso aparece para uma marca. Suponha que a sua empresa mudou de modelo de negócio no ano passado. A busca encontra o seu site atualizado e traz o posicionamento novo. Mas o conhecimento de base ainda carrega a versão antiga, repetida em dezenas de páginas que o modelo leu no treino. A resposta pode sair híbrida: o nome certo, o serviço novo vindo da busca, e uma frase de contexto que ainda reflete o que você era antes. Para o usuário, parece uma resposta só. Para você, é a colisão dos dois caminhos.
Isso explica por que a presença na web aberta importa nos dois modos ao mesmo tempo. A reputação e a consistência da informação sobre você alimentam o treino (a fundo, com atraso) e a busca (na hora, com rapidez). Não são duas batalhas separadas. É o mesmo material de fundo sendo lido em dois ritmos.
O que a empresa controla em cada modo?
Vale separar, porque a alavanca é diferente e a expectativa de prazo também.
| Corpus de treino | Busca na web em tempo real | |
|---|---|---|
| Como entra | Texto coletado da web até a data de corte | Páginas lidas no momento da pergunta |
| Velocidade de mudança | Meses, atrelada a novos ciclos de treino | Dias, a cada nova busca |
| O que você controla | O que circula sobre a marca na web ao longo do tempo | Rastreabilidade, clareza da página, qualidade das fontes que o modelo encontra |
| Tipo de erro que produz | Informação desatualizada, marca nova ausente | Fonte errada citada, dado recente porém mal interpretado |
| Garantia | Nenhuma de que um conteúdo entre no treino | Nenhuma de que o modelo escolha a sua página |
A leitura prática da tabela é simples. Para o curto prazo, trabalhe o modo busca: deixe o site rastreável, escreva a informação de forma direta e corrija o que está errado nas fontes que descrevem a sua marca. Para o longo prazo, trabalhe o modo treino: construa uma presença consistente e correta na web aberta, sabendo que o retorno vem devagar e sem promessa de data. Nenhum dos dois é um botão. Os dois são acúmulo.
Os erros comuns que vêm de confundir os dois modos
Quase todo mal-entendido sobre como a IA fala da sua marca cai em um destes dois.
Achar que atualizar o site muda a resposta na hora. Não muda, na maioria dos casos. Se a resposta veio do conhecimento de base, a sua edição de hoje não tem efeito nenhum no que o modelo memorizou. Se veio da busca, a mudança só aparece quando o sistema de busca rastrear a página de novo e o modelo recuperá-la em uma próxima pergunta. Pode ser rápido, mas não é o tempo do "salvei e atualizei". Editar o site é necessário, só não é instantâneo.
Achar que remover conteúdo apaga o que o modelo já sabe. Tirar uma página do ar remove ela da busca futura, sim. O sistema deixa de encontrá-la. Mas o que o modelo já aprendeu daquele texto no treino continua nos parâmetros dele. Apagar a fonte não apaga a memória. É por isso que informação negativa ou errada que já entrou no corpus é tão difícil de combater: você pode tirar a página, e o eco dela permanece no conhecimento de base até que ciclos futuros de treino, alimentados por uma web já corrigida, diluam aquilo.
O fio que conecta os dois erros é o mesmo: tratar o modelo como um banco de dados que você edita. Ele não é. Um modo é uma fotografia antiga que você não consegue revelar de novo à vontade, o outro é uma leitura ao vivo que você pode influenciar, mas não comandar. Quando a sua marca some ou aparece errada, vale entender por que isso acontece no ChatGPT antes de tentar consertar no lugar errado.
A boa notícia é que os dois caminhos respondem ao mesmo trabalho de fundo, só em ritmos diferentes. Conteúdo claro, rastreável e correto, espalhado por fontes que o modelo confia, melhora o que a busca encontra agora e o que o treino vai aprender depois. Você não controla o modelo. Controla o material que ele lê, e isso já move muito.


