15/06/2009

O efeito Diana Mantra

Na sua crónica quinzenal no Público, Pedro Magalhães sugere uma auditoria às sondagens eleitorais, para avaliar «por exemplo, as opções de amostragem, a construção dos questionários, a formação dos inquiridores ou o trabalho de campo», podendo também «apreciar as consequências de opções alternativas no tratamento dos dados, nomeadamente das "não respostas" e dos "indecisos", assim como os desvios das amostras em relação a características conhecidas da população e as maneiras de os corrigir».
Num comentário no blogue Margens de Erro, eu defendi a publicação dos dados brutos das sondagens e estou completamente de acordo com o Pedro Magalhães quanto ao escrutínio público dos métodos de sondagem. As "opções de amostragem" e a "construção dos questionários" são os dois factores de erro a que atribuí maior importância no meu primeiro post sobre a validade das sondagens, no passado 30 de Maio. Voltarei, de forma breve, ao assunto, num próximo post. Para já, quero salientar que a informação da ficha técnica que os media publicam por obrigação legal é enganadora quanto à suposta precisão das sondagens. Padece daquilo a que passarei a designar o "efeito Diana Mantra". Exemplifico com esta ficha técnica da última sondagem da Aximage para o CM, publicada poucos dias antes das "Europeias":
«Erro probabilístico: Para o total de uma amostra aleatória simples com 1274 entrevistas, o desvio padrão máximo de uma proporção é 0,014 (ou seja, uma “margem de erro” - a 95% - de 2,75%).» Um impressionante bla bla que não tem nada que ver com a sondagem em causa :). Vejamos:
«Para o total de uma amostra aleatória simples com 1274 entrevistas». A mesma ficha diz que a amostra é «estratificada (região, habitat, sexo, idade, escolaridade, actividade e voto legislativo)» e não «aleatória simples». Daí poderá não vir grande nenhum mal ao mundo, já que o objectivo da estratificação (se for bem feita!) é aumentar a precisão. Mas há outro problema sobre o qual a ficha técnica não se pronuncia. No caso desta sondagem, ficamos a conhecê-lo ao ler a notícia do CM, mas noutros casos, nomeadamente as Eurosondagens que abordei no post já referido, nada se sabe! Voltando à notícia do CM, ficamos a saber que apenas 442 dos 1274 entrevistados mostra intenção de votar, ou seja, a amostra efectiva reduz-se a um terço dos anunciados 1274. Utilizando o mesmo método de cálculo da ficha técnica, a "margem de erro" desta sondagem não é 2,75%, mas sim 4,65%.
O responsável pela sondagem reconhece o problema: «as intenções de voto nos partidos registadas nas sondagens ficam dependentes dum número muito reduzido de eleitores, o que aumenta sensivelmente as designadas 'margens de erro' das percentagens previstas para cada concorrente. Para as eleições do próximo domingo, mesmo com mais de 1200 entrevistas, os intervalos de confiança das percentagens apuradas estendem-se em cerca de 10% para o PS e o PSD e 5 a 6% para os restantes principais concorrentes.» Perante isto, há uma questão óbvia: quem está disposto a comprar sondagens com "intervalos de confiança" de 10%? Não está em causa a sondagem "acertar" ou "falhar" a percentagem de votos de um partido que vier a verificar-se na eleição. O problema é que, dum ponto de vista jornalístico, estas amostras de reduzida dimensão, com enormes intervalos de "previsão", não têm qualquer valor, pelo que não consigo compreender o interesse dos media na sua aquisição - terão comprado gato por lebre? Ou foram aconselhados pela Diana Mantra?

14/06/2009

Qualidade do jornalismo tem baixado de forma acentuada

A primeira frase de uma notícia da Lusa chamou a minha atenção no Público online: «As temperaturas máximas vão descer quase para metade até terça-feira...»
Fiquei de tal modo espantado que resolvi googlá-la para ver em que medida os órgãos de informação repetem as barbaridades da Lusa sem o mínimo espírito crítico. Os resultados são muito interessantes: como o Público, também RR, Expresso, SIC, TSF e Sol, além de outros sítios noticiosos e blogues, afirmam que as temperaturas vão "descer quase para metade".

É verdade que já tenho chamado a atenção aqui no blogue para A difícil relação de alguns jornalistas com os números, o que terá levado a este comentário anónimo, mas a iliteracia de alguns jornalistas ainda me consegue surpreender, dada a crença que eu possuía sobre o nível cultural da profissão, que pensava ser acima da média...

A escala Celsius é uma escala relativa, i.e. o valor zero da escala não é absoluto, o que implica que não se possa estabelecer uma comparação pelo rácio de duas temperaturas, mas apenas pela diferença entre temperaturas. Reportando à notícia do Público, é lícito dizer que as temperaturas vão descer mais em Beja (-17º) do que no Porto (-2º), mas nunca se poderá dizer que a temperatura prevista para Beja na terça-feira (17º) é metade da prevista para hoje (35º).

Vejamos um exemplo. Admitamos que a temperatura em Beijós é hoje de 20 ºC, prevendo-se 15 ºC para amanhã e 10 ºC para terça-feira, i.e. haverá uma descida constante de 5 ºC em cada um dos próximos dois dias. Se convertermos a temperatura em ºF, a descida em cada dia será também constante (-9 ºF), passando de 68 ºF para 59 ºF e 50 ºF. A variação de 1 ºC corresponde à variação de 1,8 ºF. Mas, como existe uma 'ordenada na origem' desta função de conversão (a 0 ºC correspondem 32 ºF), o rácio das temperaturas não é o mesmo nestas duas escalas. A temperatura de terça-feira seria "metade" da de hoje na escala Celsius, mas seria quase "três quartos" da de hoje na escala Fahrenheit. Voltando ao exemplo do Público, se um jornalista americano tivesse o mesmo nível de literacia dos jornalistas portugueses que criaram e reproduziram a notícia, diria que a temperatura de Beja vai descer um terço até terça-feira! :)

P.S. O facto de a redução de temperaturas "prometida" por esta notícia não corresponder, nem de perto nem de longe, à previsão do Instituto de Meteorologia, também é um indício do nível a que chegou o jornalismo, particularmente na vertente online, mas não é o objecto deste post.

Adenda 14-6-2009 23:30
Fui acusado de "atitude anti-jornalista" por causa deste post. Com o argumento de que o objectivo da notícia era alertar para a descida de temperaturas e a notícia cumpria essa função. Eu não sei se as temperaturas vão descer significativamente ou não, limito-me a comparar as variações reportadas na notícia com as que são apresentadas no sítio do IM, declarada fonte da mesma.
Previsões no sítio do IM para as cidades referidas na notícia do Público (cidade: previsão hoje; previsão terça-feira)
Beja: 35; 33
Faro: 31; 31
Lisboa: 29; 29
C. Branco: 34; 30
Porto: 21; 25

Em resumo, a temperatura mantém-se em duas cidades, desce 4º numa e 2º noutra e sobe 4º noutra. Esta previsão justifica o alerta «Temperaturas vão baixar de forma acentuada», «quase para metade», o qual é reproduzido, eu diria, automaticamente, pelos principais media nacionais. Quando isto acontece em algo tão facilmente verificável como a previsão escarrapachada no sítio do IM, não é de admirar que aconteça, por exemplo, com o estudo de utilização da internet encomendado pela Microsoft, e muito menos com o spin que alimentou a lua-de-mel do Governo com os media durante a primeira metade da presente legislatura.

05/06/2009

Revolução Cultural na Educação

A Revolução vista por Carlos Fiolhais hoje no Público:

«Que haja alunos que ainda estudem alguma coisa não pode deixar de suscitar a nossa admiração».


A Revolução vista por outro Prof. de Coimbra: Link

É só rir :)

Público 05.06.2009 - 11h25 José Bento Amaro

«O PS lidera todas as sondagens desde que se iniciou a campanha eleitoral». O que contraria outra notícia do mesmo jornal: «Sondagem dá vitória ao PSD nas europeias, mas em situação de empate técnico». Uma vitória em situação de empate já é um fenómeno difícil de explicar, mas há melhor...

Continuando na notícia de hoje:
«As vantagens obtidas em relação ao PSD não são, no entanto, significativas e, tendo em conta as margens de erro, o empate técnico é um dos resultados mais previsíveis». Sobre isto é melhor ler Pedro Adão e Silva no Léxico Familiar!

A propósito de léxico, depois do Inglês Técnico, o léxico jornalístico anda agora muito empatado com o empate técnico.

04/06/2009

Post que diz que sondagem não tem validade não tem validade

Esta manhã foram difundidos na blogosfera e redes sociais dois posts de Cláudio Carvalho, afirmando que a sondagem da Marktest divulgada a noite passada "não tem validade" porque "não foi feita de forma rigorosa e profissional", nomeadamente a "amostra muito mal efectuada".
Eu não sei se a sondagem é "rigorosa e profissional", mas parece-me tão profissional como as outras que têm sido divulgadas (já chamei a atenção para eventuais problemas de validade exemplificando com uma delas).
Quanto a "amostra muito mal efectuada", alega o Cláudio Carvalho que a distribuição da amostra por regiões não corresponde à distribuição da população portuguesa por regiões. Há, pelo menos, duas conclusões a retirar deste argumento:
  1. Cláudio Carvalho não percebe nada de sondagens e não faz ideia de como "se efectua" uma amostra;
  2. Não é um "cidadão atento… muito atento".

Sobre 1. falo mais abaixo. Para já, demonstro 2. A distribuição da amostra difundida na ficha técnica e nos media é por Regiões Marktest (pode consultar aqui). É completamente errado somar as regiões da forma que o Cláudio fez, para chegar à brilhante "conclusão é que a amostragem foi mal elaborada". É brilhante, mas é inválida. Tem aqui a distribuição da pop. com mais de 15 anos, segundo os dados do INE, pelas Regiões Marktest. Comparando com a distribuição amostral, verifica-se que a amostra é proporcional à população, com desvios pouco significativos.

Quanto à conclusão 1. posso assegurar-lhe que é muito frequente a amostra por regiões não ser proporcional à população por regiões. Costuma-se chamar-se alocação optimizada ao método que distribui as unidades de sondagem de forma não proporcional pelos estratos (e.g. regiões), com base na variabilidade dos estratos e nos custos de entrevista. Se lhe chamam "optimizada" é porque não será assim tão "mal efectuada" :) Se quer comentar sobre amostras bem e mal efectuadas, é melhor comprar um livro sobre inquéritos por sondagem e estudar os diversos tipos de amostragem. Pode começar por ler uma introdução na wikipedia. Se não tem grande curiosidade sobre o assunto, pode, pelo menos, entender o que é uma amostra não proporcional no próprio sítio da Marktest.

02/06/2009

A difícil relação de alguns jornalistas com os números

Admito que não seja extremamente fácil saber se as diferenças entre os resultados de duas sondagens são ou não significativas. Agora, copiar números e fazer operações aritméticas simples deveria ser um pré-requisito para o acesso à profissão de jornalista! :) Também penso que saber calcular a taxa de mortalidade infantil devesse ser uma preocupação do Director de um dos mais conceituados diários portugueses quando se propõe usar essa posição para escrever sobre mortalidade infantil no dito diário.
Através deste post de Pedro Almeida Vieira, cheguei a esta afirmação no DN de hoje: «em 1979, com uma população bem menor do que a actual, morriam neste país 8000 crianças antes de cumprirem um ano de vida; hoje, morrem 320».
Em primeiro lugar, estranho os números. O INE diz que em 1979 morreram pouco mais de metade dos propalados 8000. Em segundo lugar, e isso é realmente o importante, pior do que comparar a evolução em números absolutos (8000 vs. 320), só mesmo compará-los com a população ("população bem menor do que a actual"). Ó sr. Director, se a natalidade for baixa, esse rácio é necessariamente baixo, já que, se não nascer ninguém, também não será fácil que morra alguém com menos de um ano de idade.
Está-se mesmo a ver que a taxa de mortalidade infantil se calcula dividindo óbitos de pessoas com menos de um ano por nados-vivos. É isso que apresento no quadro abaixo, na forma usual de permilagem. Não vale de nada o facto de a população ser agora "bem maior" do que em 1979. Se a taxa de mortalidade não se tivesse alterado de 1979 para cá, teríamos agora 2667 mortos com menos de um ano (última coluna), muito menos do que os 8000 que o sr. jornalista imaginou e bastante menos do que os 4172 que foram registados.


Obviamente, isto em nada diminui o mérito da redução deste indicador. A taxa de 2007 é 7,5 vezes menor do que a de 1979. É apenas a constatação de que o jornalista utiliza uma desinformação numérica para fazer valer a sua opinião - sem necessidade, porque os números correctos seriam suficientes.