Visibilidade & mindshare em IA

Por que o ChatGPT muda de resposta para a mesma pergunta

Por Equipe Promptis15 de junho de 20268 min de leitura
Ilustração isométrica de uma mesma pergunta gerando três balões de resposta levemente diferentes, com um deles destacado em rosa, sobre fundo off-white
Neste artigo+

Faça a mesma pergunta ao ChatGPT hoje e amanhã e você pode receber duas respostas diferentes. Isso não é defeito nem bug: o ChatGPT não calcula a resposta única correta, ele amostra uma resposta provável de uma distribuição de possibilidades. Some a isso o contexto da conversa e as atualizações periódicas do modelo, e fica claro por que a saída muda. Para quem usa o ChatGPT por curiosidade, isso é um detalhe. Para quem monitora como a marca aparece nas respostas de IA, é a diferença entre uma leitura confiável e uma conclusão errada.

Este artigo explica os três motivos da variação e o que fazer com eles. O recado central para medição vem antes do resto: uma única consulta nunca é prova de nada.


O ChatGPT calcula ou sorteia a resposta?

Sorteia, num sentido bem específico. Um modelo de linguagem gera texto prevendo a próxima unidade de texto, uma de cada vez, a partir da probabilidade de cada candidata. Em vez de pegar sempre a candidata mais provável, ele amostra de uma distribuição, o que introduz variação proposital. É por isso que a resposta soa natural e variada em vez de robótica e repetitiva.

Entender isso muda como você lê uma resposta de IA sobre a sua marca. Aparecer numa resposta não é um interruptor de liga e desliga; é uma probabilidade. A pergunta certa nunca é "a minha marca apareceu?", e sim "com que frequência ela aparece quando alguém pergunta?".


Como a temperatura e a amostragem de tokens criam variação?

O texto que o modelo gera é feito de tokens. Um token é o pedaço de texto que o modelo manipula de cada vez, em geral uma palavra curta ou um fragmento de palavra. A cada passo, o modelo calcula a probabilidade de milhares de tokens possíveis como o próximo, e escolhe um para continuar a frase.

A intensidade desse sorteio é controlada por um parâmetro chamado temperature, documentado pela OpenAI para a sua API. Com a temperatura baixa, perto de zero, o modelo quase sempre escolhe o token mais provável, e a saída fica repetitiva e previsível. Com a temperatura mais alta, ele se permite escolher tokens menos óbvios, e a saída fica mais criativa e mais variável. O ChatGPT de uso comum opera com um grau de temperatura que privilegia respostas naturais, e não saídas idênticas a cada vez. O valor exato usado no produto não é público, mas o efeito é observável: a variação é parte do desenho.

Esse é o primeiro motivo, e o mais fundamental, de a mesma pergunta render respostas diferentes: o sorteio token a token acontece de novo a cada execução.


O contexto da conversa muda a resposta seguinte?

Muda, e bastante. O modelo não responde só à sua última pergunta; ele responde a tudo que está na janela da conversa. Se você perguntou outras coisas antes, ou se uma instrução inicial moldou o tom, isso entra no cálculo e empurra a resposta numa direção.

Na prática, a mesma pergunta feita no começo de uma conversa limpa e feita depois de dez mensagens sobre outro assunto pode sair diferente, porque o contexto acumulado é diferente. Por isso testes de visibilidade de marca devem ser feitos em conversas novas e isoladas: misturar perguntas na mesma sessão contamina o resultado. Você quer medir a resposta do modelo à pergunta, não à conversa inteira.


Por que a resposta muda de uma semana para a outra?

Porque o modelo por trás do ChatGPT não é estático. A OpenAI atualiza seus modelos periodicamente, com novas versões, ajustes finos e mudanças de comportamento que ela comunica em seus canais oficiais. Quando isso acontece, o que o modelo "sabe" e a forma como ele responde podem mudar de um período para o outro, mesmo que a sua pergunta seja idêntica.

Há ainda uma diferença entre o conhecimento treinado e o que o modelo busca na web na hora. Quando a resposta vem da busca em tempo real, ela depende das páginas encontradas naquele momento, que também mudam. Esse processo de ancorar a resposta em fontes externas é o grounding, e ele adiciona a sua própria camada de variação por cima da variação do modelo.

A consequência: uma queda na presença da sua marca pode refletir uma atualização do modelo, uma mudança nas fontes da web, ou apenas o ruído normal de amostragem. Distinguir essas causas exige histórico, não uma foto.


O que a variação significa para quem monitora a marca na IA?

Significa que confiar numa única consulta é o erro mais comum e mais caro. Se você pergunta uma vez "qual a melhor empresa de X" e a sua marca não aparece, isso não prova que você é invisível; pode ter sido o sorteio daquela execução. Se aparece uma vez, também não prova que você domina o tema. Uma resposta é uma amostra de tamanho um, e amostra de tamanho um não sustenta conclusão.

A leitura confiável vem da repetição. Rodar a mesma pergunta várias vezes e medir em quantas delas a marca aparece transforma o sorteio em estatística. É a diferença entre "apareci" e "apareço em sete de cada dez respostas". O segundo é um número que você pode acompanhar, comparar com concorrentes e mover com trabalho. O share of voice no ChatGPT é construído exatamente sobre essa lógica de frequência, e medir mindshare entre modelos diferentes adiciona a comparação entre plataformas à comparação entre execuções.

Essa disciplina de medir presença em IA por frequência, e de melhorá-la com conteúdo, é o cerne do GEO (Generative Engine Optimization), a otimização para ser citado e recomendado pelos motores de resposta generativa.


Como separar variação normal de uma queda real de visibilidade?

Pela linha de base e pela amplitude. Quando você mede a mesma pergunta de forma repetida ao longo do tempo, descobre a faixa em que a frequência da marca naturalmente oscila, a sua linha de base. Uma resposta a menos numa rodada provavelmente está dentro dessa faixa. Uma queda que sai da faixa e se mantém por vários ciclos é sinal de mudança real, não de ruído.

Três hábitos tornam essa leitura possível:

  • Meça em ciclos regulares, não quando bate a curiosidade. Cadência fixa cria um histórico comparável; medições avulsas geram só sustos.
  • Use a média de várias execuções por ciclo, nunca uma só. A média absorve o ruído de amostragem e revela a tendência.
  • Compare a marca com os concorrentes na mesma medição. Se todos caem juntos, a causa provável é uma mudança no modelo ou na categoria, não no seu trabalho; se só você cai, o problema é seu, e acionável.

É essa leitura por frequência e por histórico que a Promptis automatiza: roda as perguntas do seu mercado contra a IA em ciclos regulares, calcula uma média móvel em vez de uma foto única, e mostra a evolução da sua marca e dos concorrentes ao longo do tempo. O não determinismo deixa de ser um problema quando você para de tirar fotos e começa a acompanhar o filme.

Perguntas frequentes

Dá para deixar o ChatGPT totalmente consistente?+

Pela interface comum do ChatGPT, não. A variação faz parte do desenho do produto. Na API da OpenAI dá para baixar o parâmetro temperature perto de zero, o que torna a resposta muito mais estável, mas nem assim a consistência é garantida em cem por cento, porque outros fatores (contexto, atualização de modelo, infraestrutura) seguem mudando. Para quem usa o ChatGPT no dia a dia, o caminho não é eliminar a variação, é medir levando ela em conta: repetir a pergunta várias vezes e olhar a frequência, não uma resposta isolada.

O Perplexity e o Gemini têm o mesmo problema de variação?+

Sim, na essência. Todos são construídos sobre modelos de linguagem que amostram a resposta em vez de calcular uma única saída fixa, então a variação entre execuções existe em qualquer um deles. Nos motores que buscam na web na hora da pergunta, como o Perplexity, entra uma fonte extra de variação: as páginas encontradas podem mudar de uma consulta para a outra. Ou seja, o não determinismo do modelo se soma à variação das fontes. A lógica de medir por frequência, e não por uma única resposta, vale para todos.

Quanto a resposta varia, em média?+

Não existe um número único e confiável para isso, e desconfie de quem cravar uma porcentagem exata. A variação depende do tipo de pergunta (perguntas factuais e fechadas variam menos; perguntas abertas de recomendação variam mais), do modelo e do momento. Por isso a Promptis não trabalha com uma medição única: roda a mesma pergunta várias vezes em ciclos regulares e calcula uma média móvel, que é o que separa o sinal real do ruído de variação.

Leia também

Veja se sua marca aparece no ChatGPT

Comece agora

Usamos cookies para operar o site e, com a sua permissão, para medir e melhorar a nossa divulgação. Política de Privacidade