Dá para deixar o ChatGPT totalmente consistente?

Pela interface comum do ChatGPT, não. A variação faz parte do desenho do produto. Na API da OpenAI dá para baixar o parâmetro temperature perto de zero, o que torna a resposta muito mais estável, mas nem assim a consistência é garantida em cem por cento, porque outros fatores (contexto, atualização de modelo, infraestrutura) seguem mudando. Para quem usa o ChatGPT no dia a dia, o caminho não é eliminar a variação, é medir levando ela em conta: repetir a pergunta várias vezes e olhar a frequência, não uma resposta isolada.

O Perplexity e o Gemini têm o mesmo problema de variação?

Sim, na essência. Todos são construídos sobre modelos de linguagem que amostram a resposta em vez de calcular uma única saída fixa, então a variação entre execuções existe em qualquer um deles. Nos motores que buscam na web na hora da pergunta, como o Perplexity, entra uma fonte extra de variação: as páginas encontradas podem mudar de uma consulta para a outra. Ou seja, o não determinismo do modelo se soma à variação das fontes. A lógica de medir por frequência, e não por uma única resposta, vale para todos.

Quanto a resposta varia, em média?

Não existe um número único e confiável para isso, e desconfie de quem cravar uma porcentagem exata. A variação depende do tipo de pergunta (perguntas factuais e fechadas variam menos; perguntas abertas de recomendação variam mais), do modelo e do momento. Por isso a Promptis não trabalha com uma medição única: roda a mesma pergunta várias vezes em ciclos regulares e calcula uma média móvel, que é o que separa o sinal real do ruído de variação.

Por que o ChatGPT muda de resposta

Faça a mesma pergunta ao ChatGPT hoje e amanhã e você pode receber duas respostas diferentes. Isso não é defeito nem bug: o ChatGPT não calcula a resposta única correta, ele amostra uma resposta provável de uma distribuição de possibilidades. Some a isso o contexto da conversa e as atualizações periódicas do modelo, e fica claro por que a saída muda. Para quem usa o ChatGPT por curiosidade, isso é um detalhe. Para quem monitora como a marca aparece nas respostas de IA, é a diferença entre uma leitura confiável e uma conclusão errada.

Este artigo explica os três motivos da variação e o que fazer com eles. O recado central para medição vem antes do resto: uma única consulta nunca é prova de nada.

O ChatGPT calcula ou sorteia a resposta?

Sorteia, num sentido bem específico. Um modelo de linguagem gera texto prevendo a próxima unidade de texto, uma de cada vez, a partir da probabilidade de cada candidata. Em vez de pegar sempre a candidata mais provável, ele amostra de uma distribuição, o que introduz variação proposital. É por isso que a resposta soa natural e variada em vez de robótica e repetitiva.

Entender isso muda como você lê uma resposta de IA sobre a sua marca. Aparecer numa resposta não é um interruptor de liga e desliga; é uma probabilidade. A pergunta certa nunca é "a minha marca apareceu?", e sim "com que frequência ela aparece quando alguém pergunta?".

Como a temperatura e a amostragem de tokens criam variação?

O texto que o modelo gera é feito de tokens. Um token é o pedaço de texto que o modelo manipula de cada vez, em geral uma palavra curta ou um fragmento de palavra. A cada passo, o modelo calcula a probabilidade de milhares de tokens possíveis como o próximo, e escolhe um para continuar a frase.

A intensidade desse sorteio é controlada por um parâmetro chamado temperature, documentado pela OpenAI para a sua API. Com a temperatura baixa, perto de zero, o modelo quase sempre escolhe o token mais provável, e a saída fica repetitiva e previsível. Com a temperatura mais alta, ele se permite escolher tokens menos óbvios, e a saída fica mais criativa e mais variável. O ChatGPT de uso comum opera com um grau de temperatura que privilegia respostas naturais, e não saídas idênticas a cada vez. O valor exato usado no produto não é público, mas o efeito é observável: a variação é parte do desenho.

Esse é o primeiro motivo, e o mais fundamental, de a mesma pergunta render respostas diferentes: o sorteio token a token acontece de novo a cada execução.

O contexto da conversa muda a resposta seguinte?

Muda, e bastante. O modelo não responde só à sua última pergunta; ele responde a tudo que está na janela da conversa. Se você perguntou outras coisas antes, ou se uma instrução inicial moldou o tom, isso entra no cálculo e empurra a resposta numa direção.

Na prática, a mesma pergunta feita no começo de uma conversa limpa e feita depois de dez mensagens sobre outro assunto pode sair diferente, porque o contexto acumulado é diferente. Por isso testes de visibilidade de marca devem ser feitos em conversas novas e isoladas: misturar perguntas na mesma sessão contamina o resultado. Você quer medir a resposta do modelo à pergunta, não à conversa inteira.

Por que a resposta muda de uma semana para a outra?

Porque o modelo por trás do ChatGPT não é estático. A OpenAI atualiza seus modelos periodicamente, com novas versões, ajustes finos e mudanças de comportamento que ela comunica em seus canais oficiais. Quando isso acontece, o que o modelo "sabe" e a forma como ele responde podem mudar de um período para o outro, mesmo que a sua pergunta seja idêntica.

Há ainda uma diferença entre o conhecimento treinado e o que o modelo busca na web na hora. Quando a resposta vem da busca em tempo real, ela depende das páginas encontradas naquele momento, que também mudam. Esse processo de ancorar a resposta em fontes externas é o grounding, e ele adiciona a sua própria camada de variação por cima da variação do modelo.

A consequência: uma queda na presença da sua marca pode refletir uma atualização do modelo, uma mudança nas fontes da web, ou apenas o ruído normal de amostragem. Distinguir essas causas exige histórico, não uma foto.

O que a variação significa para quem monitora a marca na IA?

Significa que confiar numa única consulta é o erro mais comum e mais caro. Se você pergunta uma vez "qual a melhor empresa de X" e a sua marca não aparece, isso não prova que você é invisível; pode ter sido o sorteio daquela execução. Se aparece uma vez, também não prova que você domina o tema. Uma resposta é uma amostra de tamanho um, e amostra de tamanho um não sustenta conclusão.

A leitura confiável vem da repetição. Rodar a mesma pergunta várias vezes e medir em quantas delas a marca aparece transforma o sorteio em estatística. É a diferença entre "apareci" e "apareço em sete de cada dez respostas". O segundo é um número que você pode acompanhar, comparar com concorrentes e mover com trabalho. O share of voice no ChatGPT é construído exatamente sobre essa lógica de frequência, e medir mindshare entre modelos diferentes adiciona a comparação entre plataformas à comparação entre execuções.

Essa disciplina de medir presença em IA por frequência, e de melhorá-la com conteúdo, é o cerne do GEO (Generative Engine Optimization), a otimização para ser citado e recomendado pelos motores de resposta generativa.

Como separar variação normal de uma queda real de visibilidade?

Pela linha de base e pela amplitude. Quando você mede a mesma pergunta de forma repetida ao longo do tempo, descobre a faixa em que a frequência da marca naturalmente oscila, a sua linha de base. Uma resposta a menos numa rodada provavelmente está dentro dessa faixa. Uma queda que sai da faixa e se mantém por vários ciclos é sinal de mudança real, não de ruído.

Três hábitos tornam essa leitura possível:

Meça em ciclos regulares, não quando bate a curiosidade. Cadência fixa cria um histórico comparável; medições avulsas geram só sustos.
Use a média de várias execuções por ciclo, nunca uma só. A média absorve o ruído de amostragem e revela a tendência.
Compare a marca com os concorrentes na mesma medição. Se todos caem juntos, a causa provável é uma mudança no modelo ou na categoria, não no seu trabalho; se só você cai, o problema é seu, e acionável.

É essa leitura por frequência e por histórico que a Promptis automatiza: roda as perguntas do seu mercado contra a IA em ciclos regulares, calcula uma média móvel em vez de uma foto única, e mostra a evolução da sua marca e dos concorrentes ao longo do tempo. O não determinismo deixa de ser um problema quando você para de tirar fotos e começa a acompanhar o filme.

Por que o ChatGPT muda de resposta para a mesma pergunta

O ChatGPT calcula ou sorteia a resposta?

Como a temperatura e a amostragem de tokens criam variação?

O contexto da conversa muda a resposta seguinte?

Por que a resposta muda de uma semana para a outra?

O que a variação significa para quem monitora a marca na IA?

Como separar variação normal de uma queda real de visibilidade?

Perguntas frequentes

Leia também

Como medir mindshare entre modelos sem enlouquecer

Como calcular o share of voice da sua marca no ChatGPT