Rick Perlstein
29/09/2024
EE.UU.: Las encuestas no predicen hoy los resultados de las elecciones presidenciales mejor que hace un siglo
En 2016, pasé por la desolación de que mi candidata a la presidencia perdiera después de que los más respetados expertos en encuestas me dijeran que contaba con un 71,4%, un 85%, un 98,2% e incluso un 99% de posibilidades de ganar. Como historiador, andaba yo estudiando de qué manera la arrolladora victoria de Ronald Reagan en 1980 la habían avanzado todos los encuestadores menos uno, soberbiamente seguro de que la carrera estaba casi empatada. Acabo de terminar un excelente libro publicado en 2020 que confirma una intuición que he venido masticando desde entonces. Resulta que esto es prácticamente la norma histórica. Lost in a Gallup: Polling Failure in U.S. Presidential Elections, [Perdidos en una encuesta Gallup: Fracasos demoscópicos en las elecciones presidenciales norteamericanas] de W. Joseph Campbell, demuestra -por primera vez, curiosamente, dada la sólida capacidad persuasiva de sus conclusiones- que las encuestas presidenciales casi siempre se equivocan, sistemáticamente, siguiendo pautas profundas.
De modo inusual para cualquier narración histórica, el patrón ha sido casi el mismo durante sus buenos cien años. Primero alguien inventa un nuevo método para medir cómo va a votar la gente por un presidente, y lo hace tan bien que parece mágico. Ese fue el logro de una revista llamada The Literary Digest entre 1924 y 1932. Enviaron todas las papeletas de muestra que permitía la infraestructura tecnológica existente –en 1932, unos 20 millones– en tarjetas postales que hacían las veces de anuncios de subscripción. Luego, con sumo cuidado, contaban las que les llegaban. Durante tres elecciones consecutivas, acertaron tanto que el News and Observer declaró entre bromas y veras que “se ahorrarían millones en dinero y tiempo” dejando de celebrar elecciones y aceptando el escrutinio del Digest como definitivo”.
En 2008, ese fue el logro conseguido por Nate Silver, que acertó en 49 de los 50 estados; en 2012, consiguió 50 de 50, se anotó un libro éxito de ventas y, al parecer, en el periodo previo a las elecciones generó el 20% del tráfico de su nuevo patrono, The New York Times.
En la segunda parte del ciclo, el milagro de ayer sufre un fracaso espectacular, como en el enloquecido año de encuestas de 1936, cuando el triunvirato formado por George Gallup, Elmo Roper y Archibald Crossley inventó las encuestas políticas modernas, que le otorgaron la victoria a Roosevelt sobre Alf Landon, cuando el Digest sólo le otorgaba el 41% del voto popular. Su revolución técnica (consultar directamente a una muestra representativa del electorado) parecía tan obvia vista retrospectivamente que uno se pregunta cómo no se le ocurrió antes a nadie antes. Lo mismo ocurre con el modelo de Silver de agregar, evaluar y ponderar la precisión de las encuestas existentes de los estados.
Son arrogantes al respecto; eso también es un patrón. Eso es lo que tiende anticipar sus fracasos más espectaculares.
A principios de septiembre de 1948, Elmo Roper anunció que no publicaría más resultados, porque “el resultado está decidido”. Archibald Crossley prometió dejar de contar porque “había habido pocos cambios tardíos en 1936, 1940 y 1944”. Al igual que en 1928, la gente se preguntaba por qué molestarse siquiera en celebrar elecciones. Tan seguros estaban los expertos que el famoso titular de la primera edición del Chicago Daily Tribune “DEWEY DERROTA A TRUMAN” fue sólo uno de muchos. Un periódico alemán describió incluso lo que presento como una estridente celebración de la victoria de Dewey en Times Square.
Algo parecido a lo de 2016, cuando los periodistas vieron a los colaboradores de Clinton descorchar champán en el avión de campaña el día de las elecciones.
A continuación, los encuestadores hacen lo que cabría esperar: ajustan sus métodos... pero para librar la última guerra pasada. ¿Qué otra cosa pueden hacer?
En 1952, los tres famosos encuestadores, aterrorizados de que “otra metedura de pata como la de 1948 acabara con ellos”, como afirmó un periódico, fueron tan tímidos que todos predijeron un final de foto. Un columnista del Wall Street Journal se quejaba de que los encuestadores estaban actuando “tan tímidamente como el Oráculo de Delfos (recordado en la historia por su habilidad para formular respuestas que fueran correctas pasara lo que pasase)”. Al final, Dwight D. Eisenhower consiguió una victoria aplastante en todo el país.
George Gallup, a quien Time acababa de considerar el “Babe Ruth [el mayor jugador de béisbol de la época] de la profesión de encuestador” –¡huy!– alegó como coartada: “No se conoce hoy ningún método científico que pueda predeterminar con exactitud las intenciones de voto de las personas que están...indecisas”. Nate Silver ofreció la misma perogrullada 67 años después: “No es mucho lo que puede hacer un encuestador cuando un votante no se ha decidido”. Pero algo hay que intentar. Así que Gallup ponderó el 13% de su última muestra de 1952 que aún no se había decidido como 3 a 1 a favor del demócrata, al igual que en 1948. Pero esta vez, [los votantes] se decantaron mayoritariamente por el republicano. Huy, una vez más.
Ese error se abre a multitud de falacias conceptuales incorporadas a toda la empresa, si es que algo tan inevitable puede llamarse “error”. El rendimiento pasado no es garantía de resultados futuros; pero el rendimiento pasado es todo lo que tiene un encuestador para seguir adelante. Por eso, gran parte del proceso de elección y ponderación de las muestras es... bueno, se puede llamar “más arte que ciencia”. O puede llamarse “intuitivo”. O se puede llamar “ensayo y error”. Pero también se puede llamar algo “inventado”.
El electorado, según observa Campbell, es “una población autoseleccionada y efímera que sólo toma forma cuando llega el momento de votar”. Para modelar un electorado encuestando a individuos, hay que medir lo “probable” o “improbable” que es que ese encuestado vote. En 1949, Arch Crossley lo llamó “la gran pregunta a la que no hemos respondido”. En 2016, Pew publicó un estudio en el que explicaba la probabilidad de votar, como resumió The Atlantic, como “una enojosa predicción psicológica con la que los encuestadores nunca han acertado del todo.»
Lo intentan clasificando a los votantes en categorías: hombres o mujeres, jóvenes o viejos, religiosos o no. Esta última es una posible explicación de la debacle de 1980: los cristianos evangélicos pasaron de ser una de las categorías menos activas de votantes a ser bastante activos en 1976, cuando se presentó Jimmy Carter, a quien consideraban uno de los suyos. Pero, ¿cuántos de ellos llegarían a votar en 1980, después de que sus líderes echaran a Carter por sus supuestas herejías liberales? Con una “n” (en términos de ciencias sociales) tan pequeña para trabajar, no era más científico que lanzar a una diana con los ojos vendados.
Siempre hay algo. En 1966, cuando Reagan se presentó a gobernador de California, superó a las encuestas, al parecer porque muchos de los que le votaron se avergonzaban de confesarle a un desconocido que habían elegido a un actor tachado de extremista. ¿Cómo deberían haber ponderado los encuestadores el “efecto de timidez Reagan” en 1980? ¿Deberían haber conjurado una ponderación revisada en 1984, tal vez en sentido contrario, dado que los republicanos consiguieron en esos años que los votantes se sintieran tímidos en su liberalismo?
Se podía ir en cualquier dirección. Pero no se sabrá si se ha acertado hasta después de las elecciones, cuando lo único que puede hacer un encuestador al respecto es librar la última guerra la próxima vez.
Muchas de las decisiones metodológicas de los encuestadores son necesariamente subjetivas, incluso arbitrarias. Campbell enumera rápidamente media docena: cómo se indica el cargo de un candidato, el orden en que se indican las opciones, el sexo del entrevistador, si se hace por teléfono, Internet o en persona, incluso el día de la semana. Los encuestadores también pueden ser arbitrarios una vez obtenidas las cifras. Lost in a Gallup señala un fascinante experimento llevado a cabo por Nate Cohn para The New York Times. Pidió a cuatro encuestadores que interpretaran los mismos datos brutos de una encuesta de 2016 en Florida. Sus opciones de ponderación oscilaban entre la victoria de Clinton por cuatro puntos porcentuales y la de Trump por uno solo.
Concluía Cohn: “Está claro que el margen de error reportado debido al muestreo...ni siquiera se acerca a captar el error total de la encuesta ... Realmente hay mucha flexibilidad para que los encuestadores tomen decisiones que generen un resultado fundamentalmente diferente.»
Los encuestadores no tienden a interpretar todo esto como un acicate para la humildad. Leyendo el libro de Campbell, me encontré abriendo una sección en mis notas con el título de “Imbéciles”. Como George Gallup en el 48, excusándose en que sus errores eran culpa de su público: “La mayoría de los profanos no ven ninguna diferencia entre pronosticar unas elecciones y escoger al ganador de una carrera de caballos. A su debido tiempo se educará a estas personas en la diferencia”. O John Zogby en 2004, cuando se había unido al rebaño que decía que John Kerry tenía las de ganar. Esto se daba tan por sentado que, el día de las elecciones, el asesor principal Bob Shrum le dijo a Kerry: “¿Puedo ser el primero en llamarle señor Presidente?” Cuando resultó que esto era un error, Zogby se quejó: “No sé si alguien acabó hospitalizado a causa de mis predicciones”.
La cuestión estriba en el sesgo. Admitir la falibilidad de la empresa es malo para el negocio.
Y no nos equivoquemos, se trata de un negocio. Eso lleva a veces a los encuestadores a ser precavidos como rebaños, donde todos acaban cometiendo el mismo tipo de error, como en 1996, cuando la CBS/New York Times, Pew, Harris y ABC/Washington Post otorgaron la victoria a Clinton por un margen de 11 a 18 (ganó por 8,5). A veces, los intentos de diferenciación de productos impulsados por el mercado suscitan una tentación que hace que las cosas descarrilen. Según un informe de 1976 sobre el sector de las encuestas titulado Lies, Damn Lies, and Statistics [Mentiras, malditas mentiras y estadísticas], la frustración de Louis Harris por ser sólo el “segundo encuestador más conocido” le irritó tanto que cometió “errores de juicio en sus esfuerzos por aventajar a Gallup”. Como cuando publicó una encuesta para los periódicos dominicales antes de las elecciones de 1968 que mostraba a Humphrey superando a Nixon en la recta final por cuatro, cuando había ido a la zaga durante toda la campaña. Al fin y al cabo, los giros de guion venden.
En 2000, la apuesta de Gallup por la diferenciación del producto consistió en una encuesta de seguimiento diaria. Se anunciaba como “un retrato en continuo cambio de dónde se sitúa el público norteamericano”. Y así fue cambiando continuamente: durante tres días a principios de octubre, de Bush +11 a Gore +7.
Es un buen ejemplo de cómo los encuestadores pueden inventarse alegremente la realidad que pretenden describir. Todo lo que estas cifras podían ser era un artefacto estadístico de la realidad de que cuantos más votantes indecisos o “sin opinión” hay, menos predictiva puede ser una encuesta. Un sondeo tan ajustado era intrínsecamente engañoso. En su lugar, la implicación era que demostraba que el electorado era fantásticamente volátil. Lo que, como mínimo, hace más entretenida la carrera de caballos. “Me encantaría seguir las elecciones que sigue Gallup”, se lamentaba un profesional más responsable. “Son mucho más interesantes que las que yo estoy siguiendo”.
Hay otra consecuencia de los imperativos capitalistas del negocio de las encuestas que resulta un poco espeluznante. Desde 1936, los encuestadores se han ahorrado dinero deteniendo su recuento días o incluso semanas antes de las elecciones. Los encuestadores que se equivocaron en 1980, por ejemplo, pararon antes de poder medir las consecuencias del único debate de ese año, celebrado el martes anterior a las elecciones.
Era cuestión de dinero. En el libro Blue Smoke and Mirrors: How Reagan Won and Why Carter Lost the Election of 1980, de Jack Germond y Jules Witcover, se puede leer la clásica escena en la que Pat Caddell le da al presidente en el Air Force One la mala noticia de que está a punto de sufrir una derrota aplastante. Caddell lo sabe gracias a su presupuesto récord de 2 millones de dólares para encuestas, que le permitió realizar sondeos hasta el final. Los votantes que esperaban a Carter en la pista de Georgia, en cambio, estaban perdidos en sus Gallup: suponían que las elecciones estaban empatadas.
Debería esto constituir una lección imperecedera. Salvo que, en 2016 –allá vamos otra vez-, la encuesta estatal “de referencia” de Wisconsin, dirigida por la Facultad de Derecho de la Universidad de Marquette, dejó de contactar con los votantes nueve días antes de lo previsto, situó a Hillary Clinton nueve puntos por delante y luego se comió su proverbial cuervo cuando Donald Trump ganó ese estado fundamental en disputa.
El problema de la multitud de encuestas en los estados nos lleva a Nate Silver y sus epígonos. El método, a menudo imitado, de Silver, tal como lo resume Campbell, consiste en “evaluar y agregar encuestas nacionales a escala de los estsdos, y luego pasarlas por un modelo estadístico que tiene en cuenta el rendimiento anterior de las encuestas y el rigor de su metodología de encuesta...entre otras variables”. La idea, como en un seguro de riesgo compartido, es que con una megamuestra suficientemente grande, lo malo anula lo bueno.
Pero un agregador sólo puede ser igual de bueno que las encuestas que agrega y, como hemos visto, las malas predicciones suelen venir en manada.
También puede ser igual de bueno que su ponderación en función de los resultados anteriores. Pero, por supuesto, el rendimiento de esa encuesta de la Universidad de Marquette había sido intachable, hasta que dejó de serlo; como lo había sido la encuesta del Literary Digest de 1920; como lo habían sido las encuestas del triunvirato anteriores a 1948.
La vida sólo puede entenderse hacia atrás, pero debe vivirse hacia adelante. Por tanto, las decisiones subjetivas y arbitrarias las deben tomar en cuenta los agregadores, tanto como los encuestadores tradicionales, si no más.
Hay un joven analista político llamado Joshua Cohen, a quien admiro mucho por captar, poner en primer plano y aplicar hábilmente las herramientas necesariamente polifacéticas que debe utilizar un pronosticador político responsable. En su Substack, publicó una demoledora crítica en dos partes de Silver que contiene una documentación demoledora de lo atroz que puede ser su juicio a la hora de tomar estas decisiones. Hay un organismo de encuestas llamado Trafalgar Group que funciona como un equipo de propaganda, publicando “encuestas de choque” de tendencia republicana para llamar la atención de los medios. Trafalgar tuvo suerte en 2020 cuando otros encuestadores más responsables subestimaron la eventual fuerza republicana: Eso significaba que, como una ardilla ciega, Trafalgar fue la única que “llevaba razón”.
Así que Silver los calificó con una A- en fiabilidad. A pesar de que su director, un tal Robert Cahaly, es un defensor de la Gran Mentira [teoría conspirativa de Trump según la cual le “robaron” las elecciones presidenciales de 2020]. Silver negó entonces que “siempre” se inclinen en la dirección republicana, porque, al fin y al cabo, no empezaron hasta 2016.
Cohen argumenta que Silver no ha tenido verdadero éxito en ninguna elección desde 2012. Pero vaya si sabe sesgar. De hecho, cuando se trata de coartadas de encuestadores petulantes, el antiguo estadístico de béisbol es realmente el Babe Ruth de su especialidad.
Se suponía que Clinton-Trump 2016 iba a ser el Año de Silver. Pero empezó con una demostración de su estupidez. Buscando un método que pareciera científico para, por primera vez, aplicar FiveThirtyEight [página y método de Silver] a un proceso de primarias, dio con el recuento de apoyos. Utilizando este método, uno de sus colaboradores, Harry Enten, le otorgó a Donald Trump un “10% negativo” de posibilidades de ser designado como candidato. Sin embargo, para el momento de las elecciones generales, la Silver-manía estaba en pleno apogeo, acompañada en su terreno por gran número de imitadores de la construcción de agregados, puesto que, con la agregación, todo este problema de las encuestas se había resuelto de veras.
La del HuffPost le otorgaba a Clinton un 99% de posibilidades de ganar. La de Princeton estaba dirigida por un neurocientífico llamado Sam Wang que dijo que se comería un bicho en directo si ganaba Trump (y se lo comió).
En cuanto al propio Silver, respondió alegremente a las críticas con la observación de que, bueno, una probabilidad del 71,4% para Clinton significa una probabilidad del 28,6% para Trump. Así que ¿estaba siquiera realmente equivocado?
Para ser justos, todos los grandes encuestadores presidenciales hacen esto en mayor o menor medida. Después de todo, no equivocarse nunca es su propuesta de valor. Sesgar forma parte de su modelo de negocio.
En 1952, George Gallup declaró que no iban a “predecir el ganador sin certificaciones”. Luego, tras predecir un empate que resultó ser un arrollador triunfo de Eisenhower, publicó un anuncio a toda página en el Editor & Publisher afirmando que había acertado de pleno, citando sólo sus resultados sobre votantes decididos. Su competidor Elmo Roper mintió “diciendo que no había hecho ningún pronóstico y que nunca había afirmado que la carrera hubiera sido reñida”.
Como en el caso de Silver, Cohen da en el clavo:
“[Silver] Estaba en la cima del mundo tras las elecciones de 2012, con todo el mundo desesperado por oír del segundo mayor ganador de la carrera cómo había acertado tanto. Podría haber moderado su entusiasmo, explicando los límites de su papel en sus propias previsiones, cómo no había hecho técnicamente nunca ninguna llamada, lo mucho que había confiado en que acertara el conjunto del sector de las encuestas. En lugar de eso, les siguió el juego en la concepción mítica que de él tenían de él, atribuyéndose todo el mérito de “pronósticos” tan poco comprometidos como el 50,2% de posibilidades de ganar Florida que le otorgó a Obama. Nunca habría una incómoda explicación de por qué técnicamente no acertó en las elecciones, del modo en que explicó después de 2016 y 2022 que no se equivocó en las elecciones. Iba a por todas, apostando a que podía sostener plenamente su nueva imagen de genio clarividente”.
Que las encuestas no predicen hoy los resultados de las elecciones presidenciales mejor que hace un siglo es sólo una de las conclusiones de esta notable historia. Una segunda conclusión acecha más en segundo plano, pero creo que es la más importante de asimilar.
Durante la mayor parte de este siglo, esta labor fue objeto de una extraordinaria ambivalencia, incluso entre los encuestadores. En 1948, George Gallup llamó a las encuestas presidenciales (a diferencia de las encuestas temáticas, que tienen sus propios problemas) “este Frankenstein”. En 1980, Elmo Roper admitió que “nuestras técnicas de sondeo se han vuelto cada vez más sofisticadas y, sin embargo, parece que perdemos cada vez más elecciones”. Durante todo este tiempo, los periodistas convencionales han defendido con notable coherencia que eran calorías vacías que excluían activamente el auténtico compromiso cívico: “En lugar de tomarle el pulso a la democracia”, como dijo un crítico en 1949, “el Dr. Gallup escucha su lenguaje infantil”.
Los críticos ansiaban que las encuestas fallaran. Eric Sevareid dejó constancia en 1964 de su “secreto regocijo y alivio cuando las encuestas se equivocan”, lo que podría restituirnos “el misterio y el suspense del comportamiento humano eliminados por la disección clínica”. Si siempre tuvieran razón, como recogió James Reston en 1970, “¿quién votaría?”. Edward R. Murrow argumentó en 1952 que las encuestas “contribuían en algo a la deshumanización de la sociedad”, y se mostró encantado, ese mismo año, cuando “la gente sorprendió a los encuestadores... Devolvió al individuo, sospecho, cierto sentido de su propia soberanía” frente a la “mezquina tiranía de quienes afirman que pueden decirnos lo que pensamos”.
Aun así, la práctica creció como la espuma. Hubo una “extraordinaria expansión” de las encuestas para las elecciones de 1980, incluyendo los primeros casos de vinculación entre organizaciones de sondeos y medios de comunicación. Ese aumento vino acompañado de un apreciable fracaso de la calidad, lo cual dio lugar a una nueva crítica: las organizaciones de noticias “fabrican sus propias noticias y las difunden como si se tratara de un acontecimiento sobre el que no tienen ningún control”.
Y así, tras la debacle de 1980, los observadores de altas miras empezaron a preguntarse si las encuestas presidenciales habían “superado su utilidad”, si el sacerdocio acabaría “exclaustrado”. En 1992, el popular columnista Mike Royko fue más allá, proponiendo el sabotaje: quizás si la gente mintiera, tendrían que rendirse los encuestadores. En 2000, Alison Mitchell, de The New York Times, propuso una moratoria de las encuestas en las cuatro semanas previas a las elecciones, señalando l«el grado de entumecimiento... con el que las encuestas están consumiendo tanto la política como el periodismo”.
En su lugar, proliferaron las encuestas: un “bombardeo incesante”, se quejaba la American Journalism Review, con los medios obsesionados con cada dato estadísticamente insignificante. Y entonces empezó a ocurrir algo realmente inquietante: la gente dejó de quejarse.
Un último suspiro se dio en 2008, cuando Arianna Huffington revivió el llamamiento de Royko al sabotaje, hasta que, dos años después, adquirió el agregador Polling.com y lo rebautizó HuffPost Pollster. “Las encuestas, nos gusten o no”, proclamó la antigua escéptica, “suponen una gran parte de cómo nos comunicamos sobre política”.
Y así es.
Incluso a medida que se han ido atrofiando los recursos dedicados a cualquier otro tipo de periodismo, nos ha abrumado la cultura política basada en las encuestas, desplazando a todas las demás formas de pensar sobre la vida pública. Joshua Cohen cuenta la historia de Silver cuando, buscando alguna forma de ganar audiencia entre elecciones, se planteó crear un modelo para predecir los votos en el Congreso. Pero a los votantes, comentó sarcásticamente, “no les importa que se aprueben las leyes”.
Puede que los encuestadores no sean capaces de decirnos lo que pensamos en materia de política. Pero cada vez más, nos dicen cómo pensar en política: igual ellos. Seguir las encuestas se ha convertido en nuestra visión de lo que es la participación política. Nuestra terapia: titulares como el de AlterNet de la semana pasada, “El científico de datos que predijo correctamente las elecciones de 2020 apuesta ahora por una victoria aplastante de Harris”. Nuestro masoquismo político: “Madre mía, ¿te has enterado de la encuesta del New York Times?”. “No te preocupes, he oído que es un valor atípico ...»
El director de encuestas del Washington Post afirmó en cierta ocasión: “Hay algo adictivo en las encuestas y en las cifras de las encuestas”. Tiene razón. Cuando hablamos de “adictos a la política”, las encuestas son prácticamente la droga.
Por alguna razón, he sido capaz de renunciar a ellas, más allá de una leve indulgencia. Quizá sea mi budismo de pacotilla. Trato de mantenerme en el presente y, cuando se trata del futuro, de ceñirme a las cosas que puedo hacer. ¿Me ofrezco quizás como modelo a seguir?
Como “experto en política”, hay amigos, familiares e incluso desconocidos que siempre me preguntan: “¿Quién va a ganar?”. Yo les digo que no tengo ni idea. La gente siempre se queda un poco sorprendida: la predicción se ha convertido en aquello para lo que la gente cree que sirve el conocimiento experimentado en materia política.
Luego, la novedad de la respuesta se desvanece y ya podemos hablar. Más allá de la charla infantil de los sondeos. Sobre nuestra vida en común, sobre lo que queremos que ocurra y cómo podemos conseguirlo. Pero nada de predicciones sobre si este tipo de cosas van a prevalecer alguna vez. Nada de predicciones en absoluto.