Faça a mesma pergunta ao ChatGPT hoje e amanhã e você pode receber duas respostas diferentes. Isso não é defeito nem bug: o ChatGPT não calcula a resposta única correta, ele amostra uma resposta provável de uma distribuição de possibilidades. Some a isso o contexto da conversa e as atualizações periódicas do modelo, e fica claro por que a saída muda. Para quem usa o ChatGPT por curiosidade, isso é um detalhe. Para quem monitora como a marca aparece nas respostas de IA, é a diferença entre uma leitura confiável e uma conclusão errada.
Este artigo explica os três motivos da variação e o que fazer com eles. O recado central para medição vem antes do resto: uma única consulta nunca é prova de nada.
O ChatGPT calcula ou sorteia a resposta?
Sorteia, num sentido bem específico. Um modelo de linguagem gera texto prevendo a próxima unidade de texto, uma de cada vez, a partir da probabilidade de cada candidata. Em vez de pegar sempre a candidata mais provável, ele amostra de uma distribuição, o que introduz variação proposital. É por isso que a resposta soa natural e variada em vez de robótica e repetitiva.
Entender isso muda como você lê uma resposta de IA sobre a sua marca. Aparecer numa resposta não é um interruptor de liga e desliga; é uma probabilidade. A pergunta certa nunca é "a minha marca apareceu?", e sim "com que frequência ela aparece quando alguém pergunta?".
Como a temperatura e a amostragem de tokens criam variação?
O texto que o modelo gera é feito de tokens. Um token é o pedaço de texto que o modelo manipula de cada vez, em geral uma palavra curta ou um fragmento de palavra. A cada passo, o modelo calcula a probabilidade de milhares de tokens possíveis como o próximo, e escolhe um para continuar a frase.
A intensidade desse sorteio é controlada por um parâmetro chamado temperature, documentado pela OpenAI para a sua API. Com a temperatura baixa, perto de zero, o modelo quase sempre escolhe o token mais provável, e a saída fica repetitiva e previsível. Com a temperatura mais alta, ele se permite escolher tokens menos óbvios, e a saída fica mais criativa e mais variável. O ChatGPT de uso comum opera com um grau de temperatura que privilegia respostas naturais, e não saídas idênticas a cada vez. O valor exato usado no produto não é público, mas o efeito é observável: a variação é parte do desenho.
Esse é o primeiro motivo, e o mais fundamental, de a mesma pergunta render respostas diferentes: o sorteio token a token acontece de novo a cada execução.
O contexto da conversa muda a resposta seguinte?
Muda, e bastante. O modelo não responde só à sua última pergunta; ele responde a tudo que está na janela da conversa. Se você perguntou outras coisas antes, ou se uma instrução inicial moldou o tom, isso entra no cálculo e empurra a resposta numa direção.
Na prática, a mesma pergunta feita no começo de uma conversa limpa e feita depois de dez mensagens sobre outro assunto pode sair diferente, porque o contexto acumulado é diferente. Por isso testes de visibilidade de marca devem ser feitos em conversas novas e isoladas: misturar perguntas na mesma sessão contamina o resultado. Você quer medir a resposta do modelo à pergunta, não à conversa inteira.
Por que a resposta muda de uma semana para a outra?
Porque o modelo por trás do ChatGPT não é estático. A OpenAI atualiza seus modelos periodicamente, com novas versões, ajustes finos e mudanças de comportamento que ela comunica em seus canais oficiais. Quando isso acontece, o que o modelo "sabe" e a forma como ele responde podem mudar de um período para o outro, mesmo que a sua pergunta seja idêntica.
Há ainda uma diferença entre o conhecimento treinado e o que o modelo busca na web na hora. Quando a resposta vem da busca em tempo real, ela depende das páginas encontradas naquele momento, que também mudam. Esse processo de ancorar a resposta em fontes externas é o grounding, e ele adiciona a sua própria camada de variação por cima da variação do modelo.
A consequência: uma queda na presença da sua marca pode refletir uma atualização do modelo, uma mudança nas fontes da web, ou apenas o ruído normal de amostragem. Distinguir essas causas exige histórico, não uma foto.
O que a variação significa para quem monitora a marca na IA?
Significa que confiar numa única consulta é o erro mais comum e mais caro. Se você pergunta uma vez "qual a melhor empresa de X" e a sua marca não aparece, isso não prova que você é invisível; pode ter sido o sorteio daquela execução. Se aparece uma vez, também não prova que você domina o tema. Uma resposta é uma amostra de tamanho um, e amostra de tamanho um não sustenta conclusão.
A leitura confiável vem da repetição. Rodar a mesma pergunta várias vezes e medir em quantas delas a marca aparece transforma o sorteio em estatística. É a diferença entre "apareci" e "apareço em sete de cada dez respostas". O segundo é um número que você pode acompanhar, comparar com concorrentes e mover com trabalho. O share of voice no ChatGPT é construído exatamente sobre essa lógica de frequência, e medir mindshare entre modelos diferentes adiciona a comparação entre plataformas à comparação entre execuções.
Essa disciplina de medir presença em IA por frequência, e de melhorá-la com conteúdo, é o cerne do GEO (Generative Engine Optimization), a otimização para ser citado e recomendado pelos motores de resposta generativa.
Como separar variação normal de uma queda real de visibilidade?
Pela linha de base e pela amplitude. Quando você mede a mesma pergunta de forma repetida ao longo do tempo, descobre a faixa em que a frequência da marca naturalmente oscila, a sua linha de base. Uma resposta a menos numa rodada provavelmente está dentro dessa faixa. Uma queda que sai da faixa e se mantém por vários ciclos é sinal de mudança real, não de ruído.
Três hábitos tornam essa leitura possível:
- Meça em ciclos regulares, não quando bate a curiosidade. Cadência fixa cria um histórico comparável; medições avulsas geram só sustos.
- Use a média de várias execuções por ciclo, nunca uma só. A média absorve o ruído de amostragem e revela a tendência.
- Compare a marca com os concorrentes na mesma medição. Se todos caem juntos, a causa provável é uma mudança no modelo ou na categoria, não no seu trabalho; se só você cai, o problema é seu, e acionável.
É essa leitura por frequência e por histórico que a Promptis automatiza: roda as perguntas do seu mercado contra a IA em ciclos regulares, calcula uma média móvel em vez de uma foto única, e mostra a evolução da sua marca e dos concorrentes ao longo do tempo. O não determinismo deixa de ser um problema quando você para de tirar fotos e começa a acompanhar o filme.


