Comentarios

Correlación y causalidad en estadística

Correlación y causalidad en estadística



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Un día, durante el almuerzo, una mujer joven estaba comiendo un tazón grande de helado, y un miembro de la facultad se acercó a ella y le dijo: "Será mejor que tengas cuidado, hay una alta correlación estadística entre el helado y el ahogamiento". Le he dado una mirada confusa, mientras elaboraba un poco más. "Los días con más ventas de helados también ven a la mayoría de las personas ahogarse".

Cuando terminó mi helado, los dos colegas discutieron el hecho de que el hecho de que una variable esté estadísticamente asociada con otra, no significa que una sea la causa de la otra. A veces hay una variable oculta en el fondo. En este caso, el día del año se esconde en los datos. Se vende más helado en los calurosos días de verano que en los nevados de invierno. Más personas nadan en verano y, por lo tanto, se ahogan más en verano que en invierno.

Cuidado con las variables al acecho

La anécdota anterior es un excelente ejemplo de lo que se conoce como una variable al acecho. Como su nombre indica, una variable al acecho puede ser difícil de detectar y difícil de detectar. Cuando encontramos que dos conjuntos de datos numéricos están fuertemente correlacionados, siempre debemos preguntarnos: "¿Podría haber algo más que esté causando esta relación?"

Los siguientes son ejemplos de una fuerte correlación causada por una variable al acecho:

  • El número promedio de computadoras por persona en un país y la esperanza de vida promedio de ese país.
  • El número de bomberos en un incendio y el daño causado por el incendio.
  • La altura de un estudiante de primaria y su nivel de lectura.

En todos estos casos, la relación entre las variables es muy fuerte. Esto normalmente se indica mediante un coeficiente de correlación que tiene un valor cercano a 1 o -1. No importa cuán cerca esté este coeficiente de correlación de 1 o -1, esta estadística no puede mostrar que una variable sea la causa de la otra variable.

Detección de variables al acecho

Por su naturaleza, las variables al acecho son difíciles de detectar. Una estrategia, si está disponible, es examinar qué sucede con los datos a lo largo del tiempo. Esto puede revelar tendencias estacionales, como el ejemplo del helado, que se oscurecen cuando los datos se agrupan. Otro método es observar los valores atípicos e intentar determinar qué los hace diferentes de los otros datos. A veces, esto proporciona una pista de lo que está sucediendo detrás de escena. El mejor curso de acción es ser proactivo; cuestionar supuestos y diseñar experimentos cuidadosamente.

¿Por qué eso importa?

En el escenario inicial, suponga que un congresista bien intencionado pero estadísticamente desinformado propuso prohibir todos los helados para evitar ahogamientos. Tal proyecto de ley incomodaría a grandes segmentos de la población, obligaría a varias empresas a la bancarrota y eliminaría miles de empleos a medida que la industria de helados del país cerrara. A pesar de las mejores intenciones, este proyecto de ley no disminuiría el número de muertes por ahogamiento.

Si ese ejemplo parece un poco exagerado, considere lo siguiente, que realmente sucedió. A principios de 1900, los médicos notaron que algunos bebés morían misteriosamente mientras dormían debido a problemas respiratorios percibidos. Esto se llamó muerte en la cuna y ahora se conoce como SIDS. Una cosa que sobresalió de las autopsias realizadas en aquellos que murieron de SMSL fue un timo agrandado, una glándula ubicada en el pecho. A partir de la correlación de las glándulas del timo agrandadas en los bebés con SMSL, los médicos presumieron que un timo anormalmente grande causó la respiración inadecuada y la muerte.

La solución propuesta fue reducir el timo con altas dosis de radiación, o eliminar la glándula por completo. Estos procedimientos tuvieron una alta tasa de mortalidad y provocaron incluso más muertes. Lo triste es que estas operaciones no tuvieron que haberse realizado. Investigaciones posteriores han demostrado que estos médicos se equivocaron en sus suposiciones y que el timo no es responsable del SMSL.

La correlación no implica causa

Lo anterior debería hacernos detener cuando pensamos que la evidencia estadística se usa para justificar cosas como los regímenes médicos, la legislación y las propuestas educativas. Es importante que se haga un buen trabajo en la interpretación de los datos, especialmente si los resultados que implican la correlación afectarán la vida de los demás.

Cuando alguien diga: “Los estudios muestran que A es una causa de B y algunas estadísticas lo respaldan”, esté listo para responder, “la correlación no implica causalidad”. Siempre esté atento a lo que se esconde debajo de los datos.