LEARN LYRICS

Las estadísticas son persuasivas

Tanto que personas, organizaciones y países enteros

Basan algunas de sus decisiones más importantes en datos organizados

Pero hay un problema con eso

Cualquier conjunto de estadísticas podría tener algo acechando en su interior

Algo que puede dar vuelta los resultados por completo

Por ejemplo, imagina que necesitas elegir entre dos hospitales

Para la cirugía de un pariente anciano

De los últimos 1000 pacientes de cada hospital

900 sobrevivieron en el Hospital A

Mientras que solo 800 sobrevivieron en el Hospital B

Así que parece que el Hospital A es la mejor opción

Pero antes de que tomes tu decisión

Recuerda que no todos los pacientes llegan al hospital

Con el mismo nivel de salud

Y si dividimos a los últimos 1000 pacientes de cada hospital

Entre los que llegaron con buena salud y aquellos

Que llegaron con mala salud

El panorama empieza a verse muy diferente

El Hospital A solo tuvo 100 pacientes que llegaron con mala salud

De los cuales 30 sobrevivieron

Pero el Hospital B tuvo 400, y pudieron salvar a 210

Así que el Hospital B es la mejor opción

Para pacientes que llegan al hospital con mala salud

Con una tasa de supervivencia del 52.5%

¿Y qué pasa si la salud de tu pariente es buena

Cuando llega al hospital?

Curiosamente, el Hospital B sigue siendo la mejor opción

Con una tasa de supervivencia de más del 98%

Entonces, ¿cómo puede el Hospital A tener una mejor tasa de supervivencia general

Si el Hospital B tiene mejores tasas de supervivencia para pacientes

En cada uno de los dos grupos?

Con lo que nos hemos topado es un caso de la paradoja de Simpson

Donde el mismo conjunto de datos puede aparentar mostrar tendencias opuestas

Dependiendo de cómo se agrupe

Esto ocurre a menudo cuando los datos agregados ocultan una variable condicional

A veces conocida como una variable latente

Que es un factor adicional oculto que influye significativamente en los resultados

Aquí, el factor oculto es la proporción relativa de pacientes

Que llegan con buena o mala salud

La paradoja de Simpson no es solo un escenario hipotético

Aparece de vez en cuando en el mundo real

A veces en contextos importantes

Un estudio en el Reino Unido pareció mostrar

Que los fumadores tenían una tasa de supervivencia más alta que los no fumadores

En un período de veinte años

Es decir, hasta que al dividir a los participantes por grupo de edad

Se demostró que los no fumadores eran significativamente mayores en promedio

Y por lo tanto, más propensos a morir durante el período de prueba

Precisamente porque estaban viviendo más tiempo en general

Aquí, los grupos de edad son la variable latente

Y son vitales para interpretar correctamente los datos

En otro ejemplo

Un análisis de los casos de pena de muerte de Florida

Parecía no revelar disparidad racial en las sentencias

Entre acusados blancos y negros condenados por asesinato

Pero al dividir los casos por la raza de la víctima se contaba una historia diferente

En cualquiera de las dos situaciones

Los acusados negros eran más propensos a ser sentenciados a muerte

La tasa de sentencias general ligeramente más alta para los acusados blancos

Se debía a que los casos con víctimas blancas

Tenían más probabilidades de resultar en una sentencia de muerte

Que los casos donde la víctima era negra

Y la mayoría de los asesinatos ocurrieron entre personas de la misma raza

Entonces, ¿cómo evitamos caer en la paradoja?

Lamentablemente, no hay una respuesta única

Los datos se pueden agrupar y dividir de innumerables maneras

Y a veces las cifras generales pueden dar una imagen más precisa

Que los datos divididos en categorías engañosas o arbitrarias

Todo lo que podemos hacer es estudiar cuidadosamente las situaciones reales

Que las estadísticas describen

Y considerar si puede haber variables latentes presentes

De lo contrario, nos volvemos vulnerables a aquellos que usarían los datos

Para manipular a otros y promover sus propios intereses