Antes de mexer em qualquer coisa para melhorar como o ChatGPT fala da sua marca, você precisa fotografar o estado atual. Essa fotografia tem nome: linha de base. É a sua visibilidade em IA medida hoje, antes de agir, e ela vira a régua contra a qual você compara tudo o que fizer depois. Sem ela, você nunca vai saber se uma mudança de conteúdo ajudou, atrapalhou ou não fez diferença, porque não terá com o que comparar.
O protocolo de primeira medição cabe em quatro decisões. Escolha o que vai congelar (um conjunto fixo de prompts, um modelo, um período de medição). Rode esse conjunto várias vezes para domar o não determinismo do modelo e tirar uma média estável. Registre o resultado de um jeito que dê para reabrir daqui a um mês (taxa de citação, posição e sentimento, por marca e por prompt). E marque a data da próxima medição junto com o que vai contar como melhora real. O resto deste artigo detalha cada uma dessas decisões.
Este artigo é o passo a passo de capturar o ponto zero. Ele difere de dois vizinhos do pilar. Os prompts para testar a visibilidade são a lista de perguntas que você vai usar; este aqui é o protocolo completo que organiza essas perguntas numa primeira medição confiável. E as métricas de visibilidade em IA são o mapa do que dá para medir; este é o procedimento de medir pela primeira vez. Se quiser o panorama do pilar inteiro, o guia de visibilidade reúne os aprofundamentos.
O que é uma linha de base de visibilidade em IA?
Linha de base, ou baseline, é a primeira medição da sua visibilidade em IA, feita antes de qualquer ação, e usada como ponto de comparação para todas as medições seguintes. É o número que responde "onde eu estava quando comecei". Toda melhora ou piora que você for reivindicar depois se mede em relação a ela.
A ideia vem direto do mundo da saúde. Quando você faz um exame de sangue, o laudo traz os seus valores e a faixa de referência. O médico não olha o número isolado, olha a variação em relação ao exame anterior. Visibilidade em IA funciona igual. Um relatório que diz "sua marca aparece em 4 de 10 respostas" não significa nada sozinho. Significa muito quando você sabe que três meses atrás eram 2 de 10, ou que o concorrente está em 8 de 10.
A linha de base existe para resolver um problema específico: o viés de quem mede o resultado torcendo por ele. Sem um ponto de partida registrado antes, é fácil rodar uma medição depois de uma ação, ver um número razoável e concluir que funcionou. Mas talvez já estivesse assim. Talvez estivesse melhor. A fotografia tirada antes de agir é a única defesa honesta contra essa armadilha, porque ela fixa o "antes" antes de você ter qualquer interesse no "depois".
O que congelar antes da primeira medição?
A comparação futura só é honesta se você mantiver constantes as coisas que, mudando, mudariam o resultado por conta própria. São três: o conjunto de prompts, o modelo e o modo, e o método de coleta. Mudar qualquer uma delas no meio do caminho contamina a comparação, porque você deixa de medir a sua visibilidade e passa a medir o efeito da mudança que você mesmo introduziu.
O conjunto de prompts
Escolha de dez a quinze perguntas que um cliente real faria ao ChatGPT no seu setor, com pelo menos uma de cada tipo, e congele a lista. A maior parte deve ser de descoberta orgânica, perguntas que não citam a sua marca ("qual o melhor sistema de gestão para uma pequena empresa?"), porque são elas que medem se o modelo lembra de você sozinho. Uma ou duas de marca ("a marca X é confiável?") completam o quadro de reputação. A montagem dessa lista por tipo de pergunta está detalhada nos prompts para testar a visibilidade.
O ponto inegociável é congelar. No mês que vem você vai rodar exatamente os mesmos prompts, palavra por palavra. Se trocar uma pergunta, qualquer diferença no resultado pode ser efeito da pergunta nova, e você nunca vai saber se a sua visibilidade mudou ou se só a régua mudou. Salve a lista num lugar fixo e reaproveite igual.
O modelo e o modo
Anote qual modelo você usou (por exemplo, a versão atual do ChatGPT) e decida entre dois modos: com busca na web ativada, em que o modelo consulta a internet na hora, ou no modo de conhecimento, em que ele responde só com o que aprendeu no treino. Os dois medem coisas diferentes e mudam em ritmos diferentes. O modo com busca reflete o seu conteúdo recente e se mexe rápido; o de conhecimento reflete o que o modelo absorveu no treino e se mexe devagar. Misturar os dois na mesma planilha suja a comparação. Se quiser acompanhar ambos, mantenha planilhas separadas, cada uma com a sua própria linha de base.
O método de coleta
Defina, antes de começar, como você vai ler cada resposta e o que vai anotar. Quantas rodadas por prompt, em que ordem você lança as perguntas, o que conta como "a marca apareceu" (só o nome citado, ou o site referenciado como fonte). Essas regras de leitura precisam valer igual no primeiro mês e em todos os seguintes. Decidir isso no calor da segunda medição, depois de ver os números, é a porta de entrada do viés que a linha de base existe para barrar.
Por que rodar o mesmo prompt várias vezes?
Porque o ChatGPT não é determinístico: a mesma pergunta pode trazer marcas diferentes a cada vez. Essa propriedade tem nome, não determinismo, e é o motivo pelo qual uma medição única engana. Você captura um instante ruidoso e o confunde com o retrato real. A defesa é repetir e olhar a frequência, não a foto.
Rode cada prompt pelo menos três vezes, idealmente em momentos diferentes do dia. Para cada um, anote em quantas das três rodadas a marca apareceu. "Apareceu em 2 de 3" é um dado muito mais firme do que "apareceu", porque ele já carrega a estabilidade da presença. Uma marca que surge em 3 de 3 está sólida na resposta do modelo; uma que surge em 1 de 3 está no limite, e pode sumir na próxima medição sem que nada tenha mudado de verdade.
A média entre as rodadas é a sua linha de base, não o melhor resultado nem o pior. A tentação de registrar a rodada em que a marca apareceu mais é grande, e é exatamente o que torna a comparação futura desonesta. Se você anotar o pico de hoje e a média de daqui a um mês, vai parecer que piorou mesmo se a presença estiver igual. Tire a média, registre a média, compare média com média.
Como registrar a linha de base?
Monte uma planilha simples com uma linha por prompt e colunas para cada marca que você acompanha (a sua e os concorrentes). Para cada cruzamento, registre as três métricas que cabem numa primeira medição: taxa de citação (em quantas rodadas a marca apareceu), posição (onde ela surgiu na resposta) e sentimento (com que tom o modelo falou dela). A taxa de citação é a métrica de entrada, porque é binária e direta: ou a marca está na resposta, ou não está.
Um esqueleto de planilha de baseline:
| Prompt | Marca | Citação (de 3) | Posição média | Sentimento |
|---|---|---|---|---|
| Melhor sistema de gestão para PME | Sua marca | 2/3 | 3º | neutro |
| Melhor sistema de gestão para PME | Concorrente A | 3/3 | 1º | positivo |
| Sistema de gestão para MEI online | Sua marca | 3/3 | 1º | positivo |
| Sistema de gestão para MEI online | Concorrente A | 1/3 | 4º | neutro |
| A marca X é confiável? | Sua marca | 3/3 | n/a | positivo |
Acima do detalhe por prompt, calcule um resumo: a taxa de citação geral da sua marca (some as aparições, divida pelo total de rodadas) e a dos principais concorrentes. Esse par de números é o coração da linha de base. "Minha marca: 47%. Concorrente A: 71%." É a frase que você vai querer ver mudar.
Carimbe a data e o modo no topo da planilha, sempre. "Linha de base, ChatGPT com busca, 17 de junho de 2026." Daqui a três meses, quando você abrir a planilha da nova medição ao lado desta, a data e o modo são o que garantem que você está comparando coisas comparáveis. Uma linha de base sem data é uma fotografia sem legenda: você sabe que aconteceu, mas não sabe quando nem em que condições.
Quando re-medir e o que conta como melhora real?
Defina a data da próxima medição no momento em que fecha a linha de base, não depois. Para o modo de conhecimento, que muda devagar, uma medição mensal pega bem a tendência. Para o modo com busca, se você publica conteúdo novo com frequência, quinzenal faz sentido. O erro a evitar é medir uma vez, ficar feliz ou ansioso com o número, e nunca mais repetir. Visibilidade em IA é um filme, e a linha de base é só o primeiro quadro.
Melhora real tem uma definição precisa, e ela existe justamente para você não se enganar com ruído. É a variação que aparece de forma consistente em várias rodadas e em mais de uma medição, acima da margem de oscilação natural do modelo. Se a sua taxa de citação saiu de 47% para 52% numa única rodada a mais, isso provavelmente é variância, não progresso. Se subiu de 47% para 65% e se manteve lá em duas medições seguidas feitas do mesmo jeito, aí sim você tem um sinal de que o trabalho funcionou.
A régua, repito, é sempre a mesma linha de base, medida do mesmo jeito. Mudou a lista de prompts entre uma medição e outra? A comparação perdeu a validade. Trocou de modelo ou de modo? São retas paralelas, não a mesma reta. A disciplina toda da primeira medição, congelar, repetir, registrar com data, serve a este momento: o dia em que alguém pergunta "melhorou?" e você responde com um número que aguenta ser questionado, em vez de uma impressão.
Foi para automatizar exatamente esse ciclo que a Promptis existe. A primeira análise que você roda é a sua linha de base automatizada: ela aplica um conjunto fixo de perguntas, repete em várias passagens para domar o não determinismo, e registra onde a sua marca aparece, em que posição e com que tom, por você, sem planilha. É grátis e não pede cartão para a primeira medição. A metodologia continua sendo esta; o que muda é quem faz o trabalho repetitivo de rodar, anotar e comparar.


