Las matrices H y M
Imprimir
Hemos comentado ya la relación del modelo de regresión multivariante y las proyecciones ortogonales sobre subespacios vectoriales. El modelo teórico expresa que el vector asociado a la variable dependiente
se puede expresar como la suma de dos componentes:
- Una combinación lineal de las variables independientes o explicativas
-combinación que viene dada por los componentes del vector
-
- Un vector de errores
La esencia del problema de regresión reside en que el vector de errores es un vector aleatorio desconocido -cuyo comportamiento deseado describiremos más adelante a través de las hipótesis de Gauss-Markov-. En consecuencia, también es desconocido el componente
y, en particular, el vector de los coeficientes
. Esto nos lleva a la necesidad de estimar estos elementos desconocidos.
La solución que se adopta es muy simple -y, sin embargo, sumamente eficaz-. Esta consiste en estimar con aquella combinación de las variables explicativas -a la que llamamos
que más cerca se encuentra del valor de
, haciendo así que la diferencia entre
y
, es decir, el vector de residuos
sea de módulo mínimo. Esto se consigue haciendo que
sea la proyección ortogonal del vector
sobre el subespacio vectorial generado por las variables explicativas -más la columna de unos-, es decir, haciendo que:
Una vez determinado , el vector de residuos se obtiene mediante la simple diferencia
y se llega a que:
Las matrices que aparecen en las anteriores expresiones premultiplicando el vector son de gran interés en el análisis de regresión y, dado que aparecerán más adelante, es interesante dedicar un post a presentar sus características.
- La matriz
recibe el nombre de hat matrix, ya que cuando actúa sobre el vector
tiene como efecto “ponerle un sombrero”, es decir, convertir el vector de los valores observados de la variable dependiente
en el vector de los valores predichos
. La matriz
es la matriz asociada a la proyección ortogonal sobre el subespacio vectorial generado por las columnas de la matriz
y se puede comprobar muy fácilmente que es simétrica, idempotente y semidefinida positiva. Su rango es
, igual que su traza.
- La matriz
convierte el vector de los valores observados de la variable dependiente
en el vector de residuos, es decir,
. Es la matriz asociada a la proyección ortogonal sobre el subespacio complemento ortogonal del subespacio vectorial generado por las columnas de la matriz
. Naturalmente, se trata de una matriz simétrica, idempotente y semidefinida positiva. Su rango es
, igual que su traza.
