x
1

Remuestreo



En el ámbito de la estadística, se denomina remuestreo (resampling, en inglés) a una variedad de métodos que permiten realizar algunas de las siguientes operaciones:

Entre las técnicas comunes de remuestreo se encuentran bootstrapping, jackknifing y pruebas de permutación.

Bootstrapping es un método estadístico para estimar la distribución muestral de un estimador mediante el muestreo con reemplazo de la muestra original, la mayoría de las veces con el propósito de obtener estimaciones robustas de errores estándar e intervalos de confianza de un parámetro de la población como una media, mediana, proporción, razón de momios, coeficiente de correlación o coeficiente de regresión.[1]​ Se le ha llamado principio plug-in,[2]​ ya que es el método de estimación de los funcionales de una distribución de población mediante la evaluación de los mismos funcionales en la distribución empírica basada en una muestra. Se le llama un principio porque es demasiado simple para ser otra cosa, es solo una guía, no un teorema.

Por ejemplo,[2]​ al estimar la media de la población, este método utiliza la media de la muestra; para estimar la mediana de la población, utiliza la mediana de la muestra; para estimar la regresión lineal de la población, utiliza la regresión lineal de la muestra.

También se puede utilizar para construir pruebas de hipótesis. A menudo se usa como una alternativa robusta a la inferencia basada en suposiciones paramétricas cuando esas suposiciones están en duda, o cuando la inferencia paramétrica es imposible o requiere fórmulas muy complicadas para el cálculo de errores estándar. Las técnicas de bootstrapping también se utilizan en las transiciones de selección de actualización de filtros de partículas, algoritmos genéticos y métodos Monte Carlo de remuestreo/reconfiguración relacionados utilizados en física computacional.[3][4]​ En este contexto, el bootstrap se utiliza para reemplazar medidas de probabilidad ponderada secuencialmente empíricas por medidas empíricas. El bootstrap permite reemplazar las muestras con factores de ponderación bajos por copias de las muestras con factores de ponderación altos.

Jackknifing, es similar a bootstrapping, y se usa en inferencia estadística para estimar el sesgo y el error estándar (varianza) de una estadística, cuando se usa una muestra aleatoria de observaciones para calcularlo.[1]

Quenouille inventó este método con la intención de reducir el sesgo de la estimación de la muestra. Tukey amplió este método al suponer que si las réplicas pudieran considerarse distribuidas de manera idéntica e independiente, entonces podría hacerse una estimación de la varianza del parámetro de muestra y que se distribuiría aproximadamente como una variable t con n -1 grados de libertad (donde n es el tamaño de la muestra).[1]

La idea básica del estimador de varianza jackknife radica en volver a calcular sistemáticamente la estimación estadística, omitiendo una o más observaciones a la vez del conjunto de muestras. A partir de este nuevo conjunto de réplicas de la estadística, se puede calcular una estimación del sesgo y una estimación de la varianza de la estadística.

En lugar de usar jackknife para estimar la varianza, se puede aplicar en cambio al logaritmo de la varianza. Esta transformación puede resultar en mejores estimaciones, particularmente cuando la distribución de la varianza puede no ser normal.

Para muchos parámetros estadísticos, la estimación de varianza jackknife tiende asintóticamente al valor verdadero casi con seguridad. Desde un punto de vista técnico, se dice que la estimación jackknife es consistente. El jackknife es consistente para las medias muestrales, las varianzas muestrales, las estadísticas t centradas y no centradas (con poblaciones posiblemente no normales), el coeficiente de variación de la muestra, los estimadores de máxima verosimilitud, los estimadores de cuadrados mínimos , los coeficientes de correlación y los coeficientes de regresión.

El submuestreo es un método alternativo para aproximar la distribución muestral de un estimador.[5]​ Las dos diferencias claves con el bootstrap son: (i) el tamaño de la submuestra es más pequeño que el tamaño de la muestra y (ii) el muestreo se realiza sin reemplazo. La ventaja del submuestreo es que es válido en condiciones mucho más débiles en comparación con el bootstrap. En particular, un conjunto de condiciones suficientes es que se conoce la tasa de convergencia del estimador y que la distribución limitante es continua; además, el tamaño de la nueva muestra (o submuestra) debe tender a infinito junto con el tamaño de la muestra, pero a una tasa menor, de modo que su relación converja a cero. Si bien el submuestreo se propuso originalmente solo para el caso de datos independientes e idénticamente distribuidos (iid), la metodología se ha ampliado para abarcar también datos de series temporales; en este caso, se vuelven a muestrear bloques de datos posteriores en lugar de puntos de datos individuales. Hay muchos casos de interés aplicado en los que el submuestreo conduce a una inferencia válida, mientras que el bootstrapping no lo hace; por ejemplo, casos en los que la tasa de convergencia del estimador no es la raíz cuadrada del tamaño de la muestra o cuando la distribución limitante no es normal.



Referencias originales:

Referencias modernas:

Métodos computacionales:




Escribe un comentario o lo que quieras sobre Remuestreo (directo, no tienes que registrarte)


Comentarios
(de más nuevos a más antiguos)


Aún no hay comentarios, ¡deja el primero!