Eu: - Mas, sôtor, o valor de X não está acima do limite superior dos valores de referência?
Médico: - Ó meu amigo, isso é uma diferença cagagesimal!
Desde então, esta expressão ocorre-me frequentemente para qualificar as diferenças de estimativas pontuais nas sondagens eleitorais, analisadas pelos jornalistas à décima de ponto percentual. Por exemplo, é habitual os jornalistas escreverem que o candidato A subiu ou desceu 0,5% (entenda-se 0,5 pontos percentuais) da sondagem anterior para a sondagem actual e até construirem grandes dissertações sobre as causas da subida ou da descida. Ora, se as sondagens eleitorais cumprissem os requisitos para serem consideradas 'probabilísticas', o que não acontece, a estatística dir-nos-ia que tal diferença é menos do que cagagesimal. Na linguagem que os estatísticos usam, diz-se que não se pode rejeitar a hipótese de que a diferença entra as percentagens obtidas pelo candidato na sondagem 1 e na sondagem 2 seja zero. De outro modo, poder-se-ia dizer que há 'grande' probabilidade de que a percentagem de A na população seja igual no momento da sondagem 1 e no momento da sondagem 2. Isto acontece em todas as variações reportadas no Expresso, comparando as sondagens divulgadas nas duas últimas edições deste semanário. O que quero dizer, portanto, é que, na maioria das vezes, este exercício de comentar subidas e descidas é construído sobre diferenças nas amostras que não se pode garantir com um mínimo de confiança que correspondam a diferenças na população.
Em períodos eleitorais discute-se muito sobre a validade dos resultados das sondagens. Há uma discussão que é estatística (para nerds, como se diz neste blogue, onde reside uma parte dessa discussão), centrada em "intervalos de confiança", "margens de erro", "significância [das diferenças]". Aconselho todos os interessados no assunto a visitar o referido blogue. Há outra parte que é política e que habitualmente envolve suspeitas sobre a isenção das organizações que fazem as sondagens - curiosamente, este tipo de discussão preocupa-se menos com a falta de rigor com que os resultados das sondagens são "analisados" por jornalistas e comentadores! Não quero entrar agora em nenhuma dessas discussões, mas antes num assunto que fica entre ambas e que se traduz em falta de precisão ou mesmo em falta de validade das sondagens provocada por "erros" que nada têm que ver com o erro de amostragem e que, por isso, não podem ser medidos pelos estatísticos...
As discussões "para nerds" que envolvem fracções, raízes quadradas e até letras gregas, partem de um pressuposto não verificado e que costuma ser escrito desta forma: "todas as unidades de sondagem [neste caso, eleitores] têm uma probabilidade conhecida e não nula de pertencer à amostra". De facto, não se sabe qual é a probabilidade de cada eleitor ser seleccionado para a amostra, sendo este um dos factores de erro importantes que referi. O outro é a formulação das questões, o que devia ser trivial, mas parece que não é. Vou ilustrar com a sondagem publicada hoje no Expresso.
Em primeiro lugar, diz a ficha técnica que «O Universo é a população com 18 anos ou mais, residente em Portugal Continental e Regiões Autónomas, e habitando em lares com telefone da rede fixa». Ficam de fora os eleitores que residem nos cerca de 30% de lares sem telefone fixo. Mas vamos admitir que essa exclusão não afecta em nada a capacidade de generalização dos resultados.
Em números redondos, sabe-se que foram feitas 3000 tentativas de entrevista e concluídas 2500 entrevistas. Esta taxa de resposta é anormalmente elevada, segundo os padrões internacionais para entrevistas telefónicas. Dos que responderam, 500 foram considerados abstencionistas porque (ainda?) não sabem ou não responderam em que partido votariam. As percentagens foram, deste modo, estimadas a partir de 2000 respondentes.
O histórico das eleições para o Parlamento Europeu e a opinião de analistas convergem na ideia de que dificilmente a abstenção será menor do que 60%, ou seja, mantendo a redondeza dos números, há 1000 respondentes à sondagem que deveriam ter-se abstido! Ou seja, além de termos muito mais respondentes do que seria "normal" com apenas 3000 tentativas de entrevista, temos o dobro de "votantes", relativamente ao que seria de esperar com 2500 respondentes. Dito de outra forma, poderá verificar-se uma ou ambas das condições seguintes:
- Metade dos inquiridos que manifestaram intenção de votar não o irão fazer;
- A base de sondagem está enviesada de modo a favorecer a probabilidade de resposta e/ou de o respondente não ser abstencionista.
Num plano especulativo, porque não conheço o questionário nem os números brutos da sondagem, apenas as percentagens dos resultados e a ficha técnica divulgadas pelo Expreso, poderei dizer que a condição 1. (podendo depender de 2.) depende das perguntas efectuadas - se houver uma pergunta-filtro sobre a intenção de votar / abster e só se perguntar o voto aos não-abstencionistas encontra-se um resultado; se houver apenas uma pergunta sobre a intenção de voto nas listas, o resultado é diferente.
No que respeita à condição 2., há que saber como se constroem as bases de números de telefone a partir das quais se seleccionam os lares e quais são os mecanismos ditos aleatórios de selecção. Sobre este assunto, por acaso (?) tenho uma experiência pessoal a relatar: no espaço de cinco meses, o meu n.º de telefone foi seleccionado quatro vezes pela mesma empresa para sondagens de opinião sobre diversos assuntos, dois dos quais opiniões sobre política. Não sei quantas sondagens a dita empresa fez nesse período, mas sei que a probabilidade de o mesmo n.º ser seleccionado quatro vezes é mesmo muito baixa... a não ser que a condição 2. seja mais do que uma mera suspeita infundada...
Hoje recebi o 5.º telefonema da mesma empresa de sondagens no que vai de 2009! Não fui inquirido porque não pertencia ao universo.
ResponderEliminarE não há 5 sem 6. Hoje a 6ª vez em menos de 7 meses. Outra vez fora do universo.
ResponderEliminarE hoje a 7.ª!
ResponderEliminar