Análisis de componentes principales

En estadística, el análisis de componentes principales (en español ACP, en inglés, PCA) es una técnica utilizada para describir un conjunto de datos en términos de nuevas variables («componentes») no correlacionadas. Los componentes se ordenan por la cantidad de varianza original que describen, por lo que la técnica es útil para reducir la dimensionalidad de un conjunto de datos.

Técnicamente, el ACP busca la proyección según la cual los datos queden mejor representados en términos de mínimos cuadrados. Esta convierte un conjunto de observaciones de variables posiblemente correlacionadas en un conjunto de valores de variables sin correlación lineal llamadas componentes principales.

El ACP se emplea sobre todo en análisis exploratorio de datos y para construir modelos predictivos. El ACP comporta el cálculo de la descomposición en autovalores de la matriz de covarianza, normalmente tras centrar los datos en la media de cada atributo.

Debe diferenciarse del análisis factorial con el que tiene similitudes formales y en el cual puede ser utilizado como un método de aproximación para la extracción de factores.

El ACP construye una transformación lineal que escoge un nuevo sistema de coordenadas para el conjunto original de datos en el cual la varianza de mayor tamaño del conjunto de datos es capturada en el primer eje (llamado el Primer Componente Principal), la segunda varianza más grande es el segundo eje, y así sucesivamente. Para construir esta transformación lineal debe construirse primero la matriz de covarianza o matriz de coeficientes de correlación. Debido a la simetría de esta matriz existe una base completa de vectores propios de la misma. La transformación que lleva de las antiguas coordenadas a las coordenadas de la nueva base es precisamente la transformación lineal necesaria para reducir la dimensionalidad de datos. Además las coordenadas en la nueva base dan la composición en factores subyacentes de los datos iniciales.

El ACP es particularmente útil para reducir la dimensionalidad de un grupo de datos. Los primeros componentes principales describen la mayor parte de la varianza de los datos (más cuanto más correlacionadas estuvieran las variables originales). Estos componentes de bajo orden a veces contienen el aspecto "más importante" de la información, y los demás componentes se pueden ignorar. Existen diferentes técnicas para estimar el número de componentes principales que son relevantes; la técnica más apropiada dependerá de la estructura de correlaciones en los datos originales.^[1]

Supongamos que existe una muestra con n individuos para cada uno de los cuales se han medido m variables (aleatorias) ${displaystyle F_{j}.;}$ El ACP permite encontrar un número de factores subyacentes p < m que explican aproximadamente el valor de las m variables para cada individuo. El hecho de que existan estos p factores subyacentes puede interpretarse como una reducción de la dimensionalidad de los datos: donde antes necesitabamos m valores para caracterizar a cada individuo ahora nos bastan p valores. Cada uno de los p encontrados se llama componente principal, de ahí el nombre del método.

Existen dos formas básicas de aplicar el ACP:

El método parte de la matriz de correlaciones, consideremos el valor de cada una de las m variables aleatorias ${displaystyle F_{j},}$ . Para cada uno de los n individuos tomemos el valor de estas variables y escribamos el conjunto de datos en forma de matriz:

Obsérvese que cada conjunto

puede considerarse una muestra aleatoria para la variable ${displaystyle F_{j},}$ . A partir de los ${displaystyle m imes n}$ datos correspondientes a las m variables aleatorias, puede construirse la matriz de correlación muestral, que viene definida por:

${displaystyle mathbf {R} =[r_{ij}]in M_{m imes m},,qquad }$ donde ${displaystyle qquad r_{ij}={frac {{mbox{cov}}(F_{i},F_{j})}{sqrt {{mbox{var}}(F_{i}){mbox{var}}(F_{j})}}} .}$

Puesto que la matriz de correlaciones es simétrica entonces resulta diagonalizable y sus valores propios ${displaystyle lambda _{i},}$ verifican:

${displaystyle sum _{i=1}^{m}lambda _{i}=m}$

Debido a la propiedad anterior estos m valores propios reciben el nombre de pesos de cada uno de los m componentes principales. Los factores principales identificados matemáticamente se representan por la base de vectores propios de la matriz ${displaystyle mathbf {R} }$ . Está claro que cada una de las variables puede ser expresada como combinación lineal de los vectores propios o componentes principales.

El objetivo es transformar un conjunto dado de datos X de dimensión n x m a otro conjunto de datos Y de menor dimensión n x l con la menor perdida de información útil posible utilizando para ello la matriz de covarianza.

Se parte de un conjunto n de muestras cada una de las cuales tiene m variables que las describen y el objetivo es que, cada una de esas muestras, se describa con solo I variables, donde l < m. Además, el número de componentes principales l tiene que ser inferior a la menor de las dimensiones de X.

${displaystyle lleq min{n,m}}$

Los datos para el análisis tienen que estar centrados a media 0 (restándoles la media de cada columna) y/o autoescalados(centrados a media 0 y dividiendo cada columna por su desviación estándar).

${displaystyle mathbf {X} =sum _{a=1}^{l}mathbf {t} _{a}mathbf {p} _{a}^{T}+mathbf {E} }$

Los vectores ${displaystyle scriptstyle mathbf {t} _{a}}$ son conocidos como scores y contienen la información de cómo las muestras están relacionadas unas con otras además, tienen la propiedad de ser ortogonales. Los vectores ${displaystyle scriptstyle mathbf {p} _{a}}$ se llaman loadings e informan de la relación existente entre las variables y tienen la cualidad de ser ortonormales. Al coger menos componentes principales que variables y debido al error de ajuste del modelo con los datos, se produce un error que se acumula en la matriz ${displaystyle scriptstyle mathbf {E} }$ .

El PCA se basa en la descomposición en vectores propios de la matriz de covarianza. La cual se calcula con la siguiente ecuación:

${displaystyle {mbox{cov}}(X)={frac {X^{T}X}{n-1}}}$
${displaystyle {mbox{cov}}(X) {mathbf {p} _{a}}={lambda _{a}} {mathbf {p} _{a}}}$
${displaystyle sum _{a=1}^{m}lambda _{a}=1}$

Donde ${displaystyle scriptstyle lambda _{a}}$ es el valor propio asociado al vector propio ${displaystyle scriptstyle mathbf {p} _{a}}$ . Por último,

${displaystyle mathbf {t} _{a}=X mathbf {p} _{a}}$

Esta ecuación la podemos entender como que ${displaystyle scriptstyle mathbf {t} _{a}}$ son las proyecciones de X en ${displaystyle scriptstyle mathbf {p} _{a}}$ , donde los valores propios ${displaystyle scriptstyle lambda _{a}}$ miden la cantidad de varianza capturada, es decir, la información que representan cada uno de los componentes principales. La cantidad de información que captura cada componente principal va disminuyendo según su número es decir, el componente principal número uno representa más información que el dos y así sucesivamente.

La aplicación del ACP está limitada por varios supuestos^[2]

Se puede realizar el análisis de componentes principales (PCA) con perfiles de expresión génica. En un artículo publicado en 2019 en la revista Nature communications ^[4]se utiliza esta técnica con los perfiles de expresión de 19 muestras de diferentes cepas del complejo proteico de Mycobacterium tuberculosis, como resultado se obtiene que muestras pertenecientes al mismo linaje filogenético están agrupados estrechamente en el PCA.

Escribe un comentario o lo que quieras sobre Análisis de componentes principales (directo, no tienes que registrarte)

Comentarios
(de más nuevos a más antiguos)

Aún no hay comentarios, ¡deja el primero!