LEARN LYRICS

Las estadísticas son persuasivas
Tanto que personas, organizaciones y países enteros
Basan algunas de sus decisiones más importantes en datos organizados
Pero hay un problema con eso
Cualquier conjunto de estadísticas podría tener algo acechando en su interior
Algo que puede dar vuelta los resultados por completo
Por ejemplo, imagina que necesitas elegir entre dos hospitales
Para la cirugía de un pariente anciano
De los últimos 1000 pacientes de cada hospital
900 sobrevivieron en el Hospital A
Mientras que solo 800 sobrevivieron en el Hospital B
Así que parece que el Hospital A es la mejor opción
Pero antes de que tomes tu decisión
Recuerda que no todos los pacientes llegan al hospital
Con el mismo nivel de salud
Y si dividimos a los últimos 1000 pacientes de cada hospital
Entre los que llegaron con buena salud y aquellos
Que llegaron con mala salud
El panorama empieza a verse muy diferente
El Hospital A solo tuvo 100 pacientes que llegaron con mala salud
De los cuales 30 sobrevivieron
Pero el Hospital B tuvo 400, y pudieron salvar a 210
Así que el Hospital B es la mejor opción
Para pacientes que llegan al hospital con mala salud
Con una tasa de supervivencia del 52.5%
¿Y qué pasa si la salud de tu pariente es buena
Cuando llega al hospital?
Curiosamente, el Hospital B sigue siendo la mejor opción
Con una tasa de supervivencia de más del 98%
Entonces, ¿cómo puede el Hospital A tener una mejor tasa de supervivencia general
Si el Hospital B tiene mejores tasas de supervivencia para pacientes
En cada uno de los dos grupos?
Con lo que nos hemos topado es un caso de la paradoja de Simpson
Donde el mismo conjunto de datos puede aparentar mostrar tendencias opuestas
Dependiendo de cómo se agrupe
Esto ocurre a menudo cuando los datos agregados ocultan una variable condicional
A veces conocida como una variable latente
Que es un factor adicional oculto que influye significativamente en los resultados
Aquí, el factor oculto es la proporción relativa de pacientes
Que llegan con buena o mala salud
La paradoja de Simpson no es solo un escenario hipotético
Aparece de vez en cuando en el mundo real
A veces en contextos importantes
Un estudio en el Reino Unido pareció mostrar
Que los fumadores tenían una tasa de supervivencia más alta que los no fumadores
En un período de veinte años
Es decir, hasta que al dividir a los participantes por grupo de edad
Se demostró que los no fumadores eran significativamente mayores en promedio
Y por lo tanto, más propensos a morir durante el período de prueba
Precisamente porque estaban viviendo más tiempo en general
Aquí, los grupos de edad son la variable latente
Y son vitales para interpretar correctamente los datos
En otro ejemplo
Un análisis de los casos de pena de muerte de Florida
Parecía no revelar disparidad racial en las sentencias
Entre acusados blancos y negros condenados por asesinato
Pero al dividir los casos por la raza de la víctima se contaba una historia diferente
En cualquiera de las dos situaciones
Los acusados negros eran más propensos a ser sentenciados a muerte
La tasa de sentencias general ligeramente más alta para los acusados blancos
Se debía a que los casos con víctimas blancas
Tenían más probabilidades de resultar en una sentencia de muerte
Que los casos donde la víctima era negra
Y la mayoría de los asesinatos ocurrieron entre personas de la misma raza
Entonces, ¿cómo evitamos caer en la paradoja?
Lamentablemente, no hay una respuesta única
Los datos se pueden agrupar y dividir de innumerables maneras
Y a veces las cifras generales pueden dar una imagen más precisa
Que los datos divididos en categorías engañosas o arbitrarias
Todo lo que podemos hacer es estudiar cuidadosamente las situaciones reales
Que las estadísticas describen
Y considerar si puede haber variables latentes presentes
De lo contrario, nos volvemos vulnerables a aquellos que usarían los datos
Para manipular a otros y promover sus propios intereses