Regresión a la media

En estadística, la regresión hacia la media es el fenómeno en el que si una variable es extrema en su primera medición, tenderá a estar más cerca de la media en su segunda medición y, paradójicamente, si es extrema en su segunda medición, tenderá a haber estado más cerca de la media en su primera.^[1]^[2]^[3] Para evitar hacer inferencias equivocadas, la regresión hacia la media debe ser considerada en el diseño de experimentos científicos y la interpretación de los datos.^[4]

Las condiciones bajo las que se produce la regresión hacia la media dependen de la forma en que el término se defina matemáticamente. Sir Francis Galton observó por primera vez el fenómeno en el contexto de una regresión lineal simple de puntos de datos. Sin embargo, un enfoque menos restrictivo es posible. La regresión hacia la media se puede definir para cualquier distribución bivariante con idénticas distribuciones marginales. Existen dos tipo de definiciones.^[5] Una definición concuerda estrechamente con el uso común del término "regresión hacia la media". No todas esas distribuciones bivariadas muestran la regresión hacia la media en esta definición. Sin embargo, todas estas distribuciones de dos variables muestran regresión hacia la media bajo la otra definición.

Históricamente, lo que hoy se llama regresión hacia la media también se ha llamado la reversión a la media y la reversión a la mediocridad. En las finanzas, el término reversión a la media tiene un significado diferente. Jeremy Siegel lo utiliza para describir una series de tiempo financiera en la que "los retornos pueden ser muy inestables en el corto plazo, pero muy estables en el largo plazo." Más cuantitativamente, es aquella en la que la desviación estándar de los rendimientos anuales promedio disminuye más rápidamente que la inversa del periodo de mantenimiento, lo que implica que el proceso no es un paseo aleatorio, sino que los períodos de rendimientos más bajos se siguen sistemáticamente por períodos de mayor rentabilidad.^[6]

Consideremos un ejemplo simple: un grupo de estudiantes realiza un examen de 100 preguntas verdadera/falsa sobre un tema. Supongamos que todos los estudiantes eligen al azar todas sus respuestas. Entonces, la puntuación de cada alumno sería una realización de un conjunto de variables aleatorias independientes e idénticamente distribuidas, con una media de 50. Naturalmente, algunos estudiantes calificarán sustancialmente por encima de 50 y algunos sustancialmente por debajo de 50 por casualidad. Si se toma solo a los estudiantes que han obtenido una puntuación en el 10% superior y se les da una segunda prueba en la que volvieran a elegir al azar en todas las preguntas, de nuevo se espera que la puntuación media esté cerca de 50. Así, la media de estos estudiantes sería "una regresión" a la media de todos los estudiantes que tomaron la prueba original. No importa lo que un estudiante obtiene en la prueba original, la mejor predicción de su puntuación en la segunda prueba es de 50.

Si no existiera la suerte o el hecho de adivinar al azar las respuestas proporcionadas por los estudiantes a las preguntas de la prueba, a continuación, todos los estudiantes se anotan el mismo en la segunda prueba, ya que anotó en la prueba original, y no habría ninguna regresión hacia la media.

La mayoría de las situaciones reales se sitúan entre estos dos extremos: por ejemplo, se podría considerar los resultados del examen como una combinación de habilidad y suerte. En este caso, el subgrupo de estudiantes con calificaciones por encima del promedio se compone de aquellos que fueron calificados y no tenía especial mala suerte, junto con los que estaban no calificados, pero eran extremadamente afortunados. En una nueva prueba de este subconjunto, los no calificados será poco probable que repetir su golpe de suerte, mientras que el experto no tendrá una segunda oportunidad de tener mala suerte. Por lo tanto, los que le fue bien con anterioridad no es probable que haga tan bien en la segunda prueba.

El siguiente es un ejemplo de este segundo tipo de regresión hacia la media. Una clase de estudiantes toma dos ediciones de la misma prueba en dos días sucesivos. Se ha observado con frecuencia que los peores resultados en el primer día tienden a mejorar sus puntuaciones en el segundo día, y los mejores intérpretes en el primer día tienden a hacer peor en el segundo día. El fenómeno se produce porque las calificaciones de los estudiantes están determinadas en parte por la capacidad subyacente y en parte por casualidad. Para la primera prueba, algunos tendrán suerte, y una puntuación mayor que su capacidad, y algunos tendrán mala suerte y puntuación menor que su capacidad. Algunos de los estudiantes afortunados en la primera prueba tendrán suerte otra vez en la segunda prueba, pero más de ellos tendrá un promedio menor o por debajo de las puntuaciones promedio. Por lo tanto, un estudiante que tuvo suerte en la primera prueba es más probable que tenga una puntuación peor en la segunda prueba que una mejor puntuación. De manera similar, los estudiantes que obtengan una puntuación menor que la media en la primera prueba tenderán a ver que sus puntuaciones aumentan en la segunda prueba.

El concepto de regresión proviene de la genética y fue popularizado por Sir Francis Galton a finales del siglo XIX con la publicación de Regression towards mediocrity in hereditary stature.^[7] Galton observó que las características extremas (por ejemplo, la altura) de los padres no se transmiten por completo a su descendencia. Más bien, las características de la descendencia retroceden hacia un punto mediocre (un punto que desde entonces ha sido identificado como la media). Al medir las alturas de cientos de personas, fue capaz de cuantificar la regresión a la media, y estimar el tamaño del efecto. Galton escribió que "la regresión media de la descendencia es una fracción constante de sus respectivos mediados de los padres desviaciones". Esto significa que la diferencia entre un niño y sus padres para algunas características es proporcional a la desviación de sus padres de las personas típicas de la población. Si sus padres son dos pulgadas más altos que el promedio para los hombres y las mujeres, en promedio, será más corta que sus padres por algún factor (que, en la actualidad, llamaríamos uno menos el coeficiente de regresión) veces dos pulgadas. Para la altura, Galton estimó que este coeficiente era aproximadamente 2/3: la altura de un individuo medirá alrededor de un punto medio que es dos tercios de la desviación de los padres del promedio de la población.

Galton acuñó el término regresión para describir un hecho observable en la herencia de rasgos genéticos cuantitativos multifactoriales: a saber, que el descendiente de los padres que se encuentran en las colas de la distribución tiende a estar más cerca del centro, la media de la distribución. Él cuantificó esta tendencia, y al hacerlo inventó el análisis de regresión lineal, sentando así las bases para gran parte del modelado estadístico moderno. Desde entonces, el término "regresión" ha tomado una variedad de significados, y puede ser utilizado por los estadísticos modernos para describir fenómenos de sesgo de muestreo que tienen poco que ver con las observaciones originales de Galton en el campo de la genética.

La explicación de Galton para el fenómeno de regresión que observó se sabe ahora que es incorrecta. Él declaró: "Un niño hereda en parte de sus padres, en parte de sus antepasados. Hablando en general, cuanto más se remonta su genealogía, más numerosos y variados serán sus ancestros, hasta que dejen de diferir de cualquier muestra igualmente numerosa tomada al azar de la raza en general."^[7]. Esto es incorrecto, ya que un niño recibe su constitución genética exclusivamente de sus padres. No hay generación de saltos en el material genético: cualquier material genético de antepasados anteriores que los padres deben haber pasado a través de los padres, pero puede no haber sido expresado en ellos. El fenómeno se entiende mejor si asumimos que el rasgo heredado (por ejemplo, la altura) es controlado por un gran número de genes recesivos. Los individuos excepcionalmente altos deben ser homocigóticos para las mutaciones aumentadas de la altura en una porción grande de estos loci. Pero los loci que llevan estas mutaciones no son necesariamente compartidos entre dos individuos altos, y si estos individuos se aparean, su descendencia será en promedio homocigótica para mutaciones "altas" en menos loci que cualquiera de sus padres. Además, la altura no está totalmente determinada genéticamente, sino que también está sujeta a influencias ambientales durante el desarrollo, lo que hace que los hijos de padres excepcionales sean aún más propensos a estar más cerca del promedio que sus padres.