Hay tres tipos de mentiras: Mentiras, mentiras asquerosas y estadísticas
Esta frase de Disraeli (primer ministro británico en la época de la reina Victoria) es la cita introductoria del libro de Darrell Huff: “Cómo mentir con estadísticas” (How to lie with statistics) que también podíamos titular “Cómo liarse con las estadísticas”.
Leyéndolo, parece que mentir con estadísticas es cosa común y que todo el mundo lo hace a propósito, pero quizá es que muchos ni siquiera saben analizarlas y no mienten para aprovecharse, sino simplemente se lían con las estadísticas. Esto último, parecería menos probable hoy en día, pues la formación de las personas que están al cargo de las estadísticas debería de ser mayor que en 1954, cuando Huff escribió el libro. Sin embargo, hay ejemplos que indican aún menos conocimiento, al menos en las noticias de prensa.
Para una descripción de las múltiples formas de mal-utilizar las estadísticas hay que leerse el libro, claro. Pero sin entrar en todos los detalles de la elección de muestras sesgadas, tomar las medias o promedios que más interesen, representar gráficas para dar impresiones falsas, etc., quiero mostrar tres noticias recientes con estadísticas mal utilizadas.
La primera noticia periodística parece incompetencia del redactor, sin más. Probablemente fuese un intento de alargar un poco el artículo y cubrir el espacio que le reservaban en la redacción. Es fácil darse cuenta del error que invalida todo el párrafo, pero es una nimiedad y no tiene mayor trascendencia. Veamos la noticia. El periódico escribe, a propósito de los cazadores furtivos de África:
… El Parque Nacional Kruger de Sudáfrica anunció … «Ha habido un aumento del 29,41% en el número de cazadores furtivos arrestados (22) en comparación con (17) para el mismo período en 2020»…
La diferencia de arrestos entre los dos años es de 5, lo que hace absurdo el dar ningún decimal (y menos dos) en el porcentaje. Si tomamos más decimales en la división, (depende de la calculadora que usemos), podíamos haber puesto que el aumento había sido de 29,411764705882 %, lo que a alguna gente le parecería el colmo de la precisión, pero no es así. En absoluto.
Como no se pueden detener fracciones de furtivos, los saltos entre 4, 5 y 6 detenidos son del 23,5 % – 29,4 % y 35,3 % luego cada arresto de más o de menos supone una variación aproximada del 6% sobre los 17 de 2020. Ésta es la máxima precisión que podemos dar en el porcentaje, que debería escribirse como 29±6 %. Más aún, dada las fluctuaciones estadísticas de las cifras de detenidos, que son bastante aleatorias por su misma naturaleza, este aumento puede no significar nada en absoluto. En efecto, las fluctuaciones de procesos aleatorios suelen cubrir un margen igual a la raiz cuadrada del valor medio de la magnitud. Tomando como media aproximada los 17 arrestos de 2020, debemos esperar una fluctuación totalmente aleatoria de unos 4 arrestos por año, lo que da poca significación a la cifra de 5 arrestos más en 2021. Para ver si el fenómeno aumenta realmente habrá que tener una serie de muchos más años a fin de poder “suavizar” las fluctuaciones y mostrar la tendencia que subyace. Todo lo demás es gratuito. En resumen, esta parte de la noticia no dice nada. Podía haberse suprimido sin ninguna pérdida de información diciendo simplemente que ha habido 5 arrestos más este año, aunque así no se llene el espacio asignado, claro.
La segunda noticia parece claramente un intento de exagerar el aumento del coste de la gasolina con fines propagandísticos. La entradilla del artículo indica un aumento del 23%, pero la gráfica publicada es la siguiente:

A primera vista, el precio de la gasolina parece haberse multiplicado por un factor 3 ó 4 (un 300 ó 400%) en un año, aunque esta impresión se debe simplemente a que han recortado la figura. Si ampliamos la figura para que incluya el cero de los precios, resulta esta otra gráfica:

Ahora da la impresión de que el aumento de precio es en realidad mucho menor. La intención de elegir el gráfico recortado, aunque la entradilla sea exacta, puede deberse a dar una impresión visual torticera y cubrirse las espaldas con la entradilla, pensando que el lector recuerda la impresión visual pero no se acuerda de la entradilla. O no. Puede ser simple ignorancia y ganas de aprovechar el espacio gráfico que es más preciado que el de texto. No me decido por una cosa u otra.
La tercera noticia, tampoco parece inocente. ¿Cómo tratar una encuesta electoral para favorecer un partido en concreto? Bueno, hay auténticos tratados sobre el tema, pero para darse cuenta de la tergiversación hay que analizar un poco los datos, cosa que quien es de la misma tendencia que el manipulador no va a hacer, y los de la tendencia opuesta ni siquiera leerán el medio en cuestión. El asunto parece un ejercicio de auto afirmación en los deseos políticos.
La noticia que comentamos aparecía en un post de una emisora, y decía:
Según la encuesta electoral … el Partido Popular sería la formación más votada… Este sondeo ha tomado como muestra a 1.100 personas de más de 18 años, entre los que se encontraban un 51,5% de mujeres y un 48,5% de hombres.
En este caso el número encuestas es de poco más de 1.000 con lo que el cambio de una persona de un grupo al otro supone un cambio del 0,1% . Se puede utilizar, pues, un decimal en los porcentajes de hombres y mujeres, votantes de cada partido, etc. Pero para que la encuesta será válida suponiendo que la distribución de encuestados sea representativa del electorado español, cosa que no se podría saber hasta después de las elecciones a las que se refiere la encuesta, y que nadie haya mentido en su intención de voto. Como esto es imposible, una encuesta bien hecha tiene que basarse al menos en una muestra que sea representativa de las últimas elecciones, es decir, la proporción de votantes de cada partido, en las anteriores elecciones, en la muestra debe coincidir con la distribución de voto real en dichas elecciones, y si no es así hay que “corregir” los datos de la encuesta para tener en cuenta la desviación. Esto es lo que se llama “cocinar” los datos. Esta “cocina” limita bastante la capacidad de predecir de las encuestas por lo que todos los resultados deben de tomarse con mucho más margen de incertidumbre que el expuesto. Pero aún suponiendo una total representatividad hay fallos evidentes. El siguiente párrafo de la noticia, por ejemplo, es absurdo:
Si se celebrasen las elecciones ahora, el Partido Popular conseguiría 6.649.061 votos, es decir ganaría más de un millón de votos respecto a las elecciones de noviembre de 2019 (5.047.040). Es decir, pasaría de 89 escaños a 123 y aglutinaría el 28,9% de los votos (21,0%, en 2019).
Los porcentajes de votos (28,9% frente al 21,0% en 2019) son correctos, pero ¿cómo vas a determinar, con solo 1.100 respuestas, que un partido va a sacar 6.649.061 votos y el otro 5.047.040? Basándonos en los datos que se dan de las elecciones de 2019, llegamos a la conclusión de que hubo ≈24 Millones de votos. Esta cifra sin embargo baja a 23 Millones para las previsiones a las que se refiere la encuesta, como se deduce de los resultados que se exponen de la misma, aunque no se menciona la razón del cambio. En todo caso el 0,1% de 23 ó 24 Millones de votos son 23.000 ó 24.000. Estamos muy lejos por tanto de poder precisar el número exacto de votos, tal como se muestra en la noticia. Se podría decir solamente 6.650.000 ± 23.000 votos, redondeando las decenas de millares de votos. Esto supone que, aún y todo, la encuesta predice correctamente millón y medio de votos más, lo que es altamente significativo ¿O no? Una cosa más que deberíamos preguntarnos es ¿Cuántos votos de diferencia con las anteriores elecciones serían significativos para asegurar que hay un incremento real del voto a tal o cual partido? Si suponemos que hay una componente aleatoria en el voto que no tiene que ver con la intención real de votar sino con cuestiones sobrevenidas, como enfermedad, desplazamientos, urgencias familiares, etc., podemos aplicar de nuevo la regla de la raíz cuadrada y veríamos que de los 5 Millones de votos para el PP en 2019 podemos esperar una fluctuación aleatoria de solamente unos 2.200 votos. Esta fluctuación es muy inferior a la imprecisión de la encuesta (unos 23.000 votos). Por lo tanto, la diferencia de millón y medio de votos es claramente significativa. Pero la noticia sigue
Por su parte, el PSOE de Pedro Sánchez, ha perdido la confianza de los ciudadanos, por lo que bajaría de los 6.792.100 votos de 2019 a los 6.073.883 votos.
Esto deja entender que el PSOE perdería mas de 700.000 votos debido exclusivamente a la (des)confianza del electorado. Sin embargo, la bajada del nº total de votantes de 24 a 23 Millones entre las dos elecciones, supone que el nº de votos del PSOE (sin que ocurriese ninguna pérdida de confianza) ya bajaría a 6.509.095 ± 23.000. La pérdida de votos que predice la encuesta es pues significativa, sí, pero bastante menor (solamente unos 436.000 votos “reales” perdidos) que los 700.000 que se insinúan sin ninguna explicación.
Es difícil imaginar que en este caso, el autor de la noticia no ha sido consciente de la forma de tratar los datos. ¿O sí? Puesto que las matemáticas no entran en el programa de estudios de periodismo ¡a saber cómo se arreglan los pobre licenciados con tantos datos! Puede que el redactor haya copiado, sin mas, el informe de la agencia de encuestas y tener estos errores heredados de ella. Desde luego la empresa que ha realizado la encuesta sí que sabe lo que hace, y quién se lo ha encargado, y quién le ha pagado, y tendrá que contentar al cliente ¿no?. Ellos sí que no pueden alegar ignorancia.