Las matrices H y M

26 de Octubre de 2008 · Imprimir Imprimir

Hemos comentado ya la relación del modelo de regresión multivariante y las proyecciones ortogonales sobre subespacios vectoriales. El modelo teórico Y = X \beta + \varepsilon expresa que el vector asociado a la variable dependiente Y \in R^n se puede expresar como la suma de dos componentes:

  • Una combinación lineal de las variables independientes o explicativas X \beta \in R^{k+1} \subset R^n -combinación que viene dada por los componentes del vector \beta-
  • Un vector de errores \varepsilon \in R^n

La esencia del problema de regresión reside en que el vector de errores \varepsilon es un vector aleatorio desconocido -cuyo comportamiento deseado describiremos más adelante a través de las hipótesis de Gauss-Markov-. En consecuencia, también es desconocido el componente X \beta y, en particular, el vector de los coeficientes \beta. Esto nos lleva a la necesidad de estimar estos elementos desconocidos.

La solución que se adopta es muy simple -y, sin embargo, sumamente eficaz-. Esta consiste en estimar X \beta con aquella combinación de las variables explicativas -a la que llamamos X B que más cerca se encuentra del valor de Y, haciendo así que la diferencia entre Y y XB, es decir, el vector de residuos e sea de módulo mínimo. Esto se consigue haciendo que XB sea la proyección ortogonal del vector Y sobre el subespacio vectorial generado por las variables explicativas -más la columna de unos-, es decir, haciendo que:

X B = X (X^t X)^{-1} X^t Y

Una vez determinado XB, el vector de residuos se obtiene mediante la simple diferencia Y -XB y se llega a que:

e = Y - X B = Y - X (X^t X)^{-1} X^t Y = [I-X (X^t X)^{-1} X^t] Y

Las matrices que aparecen en las anteriores expresiones premultiplicando el vector Y son de gran interés en el análisis de regresión y, dado que aparecerán más adelante, es interesante dedicar un post a presentar sus características.

  • La matriz H = X (X^t X)^{-1} X^t recibe el nombre de hat matrix, ya que cuando actúa sobre el vector Y tiene como efecto “ponerle un sombrero”, es decir, convertir el vector de los valores observados de la variable dependiente Y en el vector de los valores predichos \hat{Y}. La matriz  H es la matriz asociada a la proyección ortogonal sobre el subespacio vectorial generado por las columnas de la matriz X y se puede comprobar muy fácilmente que es simétrica, idempotente y semidefinida positiva. Su rango es k+1, igual que su traza.
  • La matriz M = I-X (X^t X)^{-1} X^t = I - H convierte el vector de los valores observados de la variable dependiente Y en el vector de residuos, es decir, e=M Y. Es la matriz asociada a la proyección ortogonal sobre el subespacio complemento ortogonal del subespacio vectorial generado por las columnas de la matriz X. Naturalmente, se trata de una matriz simétrica, idempotente y semidefinida positiva. Su rango es n-k-1, igual que su traza.

Deja un comentario