Por que o mesmo prompt gera respostas diferentes em execuções distintas?

LLMs são modelos probabilísticos: para cada token gerado, o modelo amostra de uma distribuição de probabilidades. Com temperatura acima de zero, a amostragem introduz variação. Isso significa que duas execuções idênticas do mesmo prompt podem produzir shortlists de marcas diferentes, mesmo sem nenhuma mudança no modelo ou no conteúdo indexado.

Quantas execuções são necessárias para ter uma medição confiável de mindshare?

A varredura padrão da Promptis usa 20 perguntas de categoria, 2 modos (busca web e conhecimento paramétrico) e 3 passagens por combinação, totalizando 120 chamadas por execução. Abaixo desse volume, o score oscila 10 a 15 pontos por semana por razões que nada têm a ver com a marca. A partir desse volume, a variância cai para uma faixa gerenciável.

GPT, Gemini e Claude dão as mesmas respostas para o mesmo prompt?

Não. Cada modelo foi treinado em corpus diferentes, com pesos diferentes, e usa arquiteturas distintas. Para o mesmo prompt sobre 'melhores ferramentas de CRM para PME', GPT pode citar três marcas, Gemini outras duas e Claude uma terceira lista. Medir mindshare em um modelo não equivale a medir em outro.

Como saber se uma queda no score de visibilidade é real ou ruído estatístico?

Olhar uma execução isolada não responde isso. A Promptis usa uma média móvel de três execuções consecutivas para separar sinal de ruído. Uma queda real aparece nas três passagens. Um pico ou vale isolado é, na maioria das vezes, variância de amostragem.

Como medir mindshare entre modelos de IA

Q: Qual a diferença entre o modo de busca web e o modo de conhecimento paramétrico?

No modo de busca web, o modelo consulta a internet em tempo real antes de responder: o resultado reflete o que está indexado agora. No modo de conhecimento paramétrico, o modelo responde só com o que aprendeu durante o treinamento, sem acesso à web: o resultado reflete o que estava consolidado meses antes do treino. Uma marca forte em um modo e fraca no outro tem um problema de frescor de conteúdo.

Faça a mesma pergunta para GPT, Claude e Gemini e você vai receber três shortlists diferentes. Faça a mesma pergunta duas vezes para o GPT e, com frequência, vai receber duas shortlists diferentes, pelos motivos que o artigo sobre por que o ChatGPT muda de resposta destrincha. Qualquer número de visibilidade que ignore essa variância está te enganando.

A varredura padrão da Promptis é vinte perguntas de categoria, dois modos (busca na web e conhecimento paramétrico puro) e três passagens por combinação. São 120 chamadas de modelo por execução. Parece muito até você perceber que qualquer coisa abaixo disso deixa o score oscilando dez ou quinze pontos por semana, por motivos que não têm nada a ver com a sua marca.

Por que modelos diferentes citam marcas diferentes?

Cada LLM (Large Language Model, ou modelo de linguagem de grande escala) foi treinado em um corpus diferente, com datas de corte distintas e pesos ajustados por processos de fine-tuning próprios. Para a mesma pergunta sobre "melhores ferramentas de CRM para pequenas empresas", GPT pode ter aprendido que a marca X é referência porque ela aparecia com frequência em artigos técnicos do seu corpus; Gemini pode ter visto mais avaliações de usuários que favorecem Y; Claude pode ter dado peso maior a fontes editoriais que citam Z.

Isso não é bug. É uma consequência direta de como LLMs são treinados.

O problema prático: se você mede visibilidade só em um modelo, você tem um retrato parcial. A parcela de potencial clientes que usa Gemini recebe recomendações diferentes das que chegam aos usuários de GPT. Medir apenas um é ignorar parte do mercado.

Para uma visão completa de como aumentar a presença da marca nas IAs, veja o guia de visibilidade da marca nas IAs.

Por que o mesmo modelo dá respostas diferentes em execuções distintas?

LLMs são modelos probabilísticos. Para cada token gerado, o modelo amostra de uma distribuição de probabilidades: a "temperatura" do modelo controla o quanto essa amostragem é determinística. Com temperatura acima de zero, duas execuções do mesmo prompt produzem saídas diferentes.

Isso tem uma consequência direta para a medição: uma única execução captura uma instância do comportamento do modelo, não o comportamento médio. É a diferença entre perguntar uma vez ao seu vendedor qual produto ele recomenda e calcular a média de cem respostas dele ao longo de um mês. A média te diz o que ele realmente acha.

A solução é volume. A varredura da Promptis usa três passagens por combinação de pergunta e modo precisamente para capturar a distribuição, não um ponto.

O que são os dois modos de execução e por que a divisão importa?

A divisão por modo importa mais do que o número de passagens.

Modo de busca web: o modelo acessa a internet antes de responder. O resultado reflete o que está indexado agora: artigos recentes, avaliações de usuários publicadas essa semana, notícias do setor. É o modo mais sensível a mudanças de curto prazo no conteúdo publicado sobre a marca.

Modo de conhecimento paramétrico: o modelo responde só com o que aprendeu durante o treinamento, sem acesso à web. O resultado reflete o estado do conhecimento consolidado meses antes do treino. Uma marca que publicou muito conteúdo de qualidade há um ano pode ter boa presença paramétrica mesmo que o conteúdo recente seja fraco.

Uma marca forte em um modo e fraca no outro está com um problema de frescor de conteúdo. Você só enxerga isso medindo os dois separadamente. Separar os scores por modo transforma um número genérico de visibilidade em um diagnóstico: o problema é o que está publicado agora, ou é a base histórica?

Para entender como calcular o share of voice por categoria, veja como calcular o share of voice da sua marca no ChatGPT.

Como a Promptis monta as 20 perguntas de categoria?

As perguntas não são genéricas. Elas são construídas a partir do perfil do negócio e organizadas em categorias que refletem intenções de compra reais:

Perguntas de recomendação: "qual é a melhor [produto/serviço] para [perfil de cliente]?"
Perguntas de comparação: "[marca A] ou [marca B]: qual escolher?"
Perguntas de avaliação: "o que dizem sobre [marca]?"
Perguntas de alternativa: "alternativas a [concorrente líder] para [caso de uso]"
Perguntas sem marca: queries de descoberta onde o modelo nomeia as marcas por conta própria, sem que o prompt as sugira

Esse mix é intencional. Perguntas sem marca são as mais difíceis de aparecer e, por isso, são as que mais valem: elas medem se o modelo te recomenda espontaneamente, não quando provocado. É o equivalente digital de um cliente que pergunta ao vendedor "o que você recomenda?" sem nomear nenhuma opção. Se quiser montar e rodar essas perguntas por conta própria, veja os prompts para testar a visibilidade da marca.

As 120 chamadas (20 perguntas x 2 modos x 3 passagens) cobrem o espaço suficiente para que os resultados convirjam para um score estável. Abaixo disso, a variância natural do modelo domina o número e o score vira ruído.

O que fazer quando a variância ainda é alta?

Variância persistente depois de 120 chamadas é um sinal, não um problema técnico. Ela indica que o modelo está genuinamente incerto sobre a sua marca: ora te menciona, ora não. Isso acontece por três razões principais:

Pouco conteúdo indexável sobre a marca. Se há poucas fontes externas que citam o negócio, o modelo tem pouca evidência para trabalhar.
Conteúdo datado. O modelo viu muita coisa sobre a marca no passado, mas o que está publicado hoje é escasso ou fraco. O modo paramétrico é forte; o modo web, fraco.
Marca pouco diferenciada. Quando a proposta de valor não é clara nas fontes que o modelo consome, ele não consegue fixar uma associação estável.

Cada um desses diagnósticos tem uma resposta editorial diferente. É por isso que a separação por modo (web vs. paramétrico) existe: ela aponta onde está o buraco.

Para entender por que marcas somem das respostas, veja por que sua marca some das respostas do ChatGPT.

Como medir mindshare entre modelos sem enlouquecer

Por que modelos diferentes citam marcas diferentes?

Por que o mesmo modelo dá respostas diferentes em execuções distintas?

O que são os dois modos de execução e por que a divisão importa?

Como a Promptis monta as 20 perguntas de categoria?

O que fazer quando a variância ainda é alta?

Perguntas frequentes

Leia também

Visibilidade da sua marca nas IAs: guia prático

Como calcular o share of voice da sua marca no ChatGPT