De subespacios, subespacios generados, subespacios columna y matrices asociadas a una proyección ortogonal sobre el subespacio columna

16 de Octubre de 2008 · Imprimir Imprimir

Este post continúa con el objetivo de justificar la afirmación realizada al comienzo del anterior. En él se refrescaron los conceptos de aplicación lineal, proyección y proyección ortogonal. Toca ahora hablar de subespacios vectoriales y, más en concreto, de un cierto tipo de ellos. Finalmente uniremos todas estas definiciones y las relacionaremos con el modelo de regresión lineal múltiple.

Dado un espacio vectorial V se dice que un subconjunto W \subset V de vectores es un subespacio vectorial de V si restringidas la suma y el producto por un escalar definidas sobre V a W, éste es un espacio vectorial.

Expresado de otra forma, W \subset V es un subespacio vectorial de V si cumple que:

  • 0 \in W
  • u,v \in W \rightarrow u+v \in W
  • u \in W, \lambda \in R \rightarrow \lambda u \in W

Para entendernos, podemos decir que un subespacio vectorial es un espacio vectorial contenido dentro de otro espacio vectorial.

Dado un espacio vectorial V y un conjunto de vectores \{ v_1 , v_2 , \ldots , v_k\} \in V se llama subespacio vectorial generado por \{ v_1 , v_2 , \ldots , v_k\} al conjunto de todos los vectores de V que pueden obtenerse como combinación lineal de los vectores de \{ v_1 , v_2 , \ldots , v_k\}. Es muy sencillo comprobar que este conjunto es un subespacio vectorial y que, además, es el menor subespacio vectorial que contiene a todos los vectores \{ v_1 , v_2 , \ldots , v_k\}.

Dada una matriz M se llama subespacio columna de M al subespacio vectorial generado por el conjunto de vectores que conforman las columnas de la matriz M. La dimensión de este subespacio coincide con el rango de la matriz M. Además, si M es una matriz cualquiera, la matriz asociada a la proyección ortogonal sobre el subespacio columna de M es M(M^t M)^{-1} M^t.

Definidos todos los conceptos es hora de ir juntando las piezas del puzzle para justificar nuestra afirmación.

Consideremos la matriz X del modelo teórico de regresión, que recoge los valores que el conjunto de los n individuos toman en las k variables explicativas -además de la columna inicial de 1-. El subespacio columna de dicha matriz es el conjunto de todos los vectores que pueden obtenerse como combinación lineal de la columna de unos y los vectores que conforman las columnas de la matriz X, es decir, todas las combinaciones de la forma:

\alpha \left( \begin{array}{c} 1 \\ \cdots \\ 1 \end{array} \right) + \beta_1 X_1 + \ldots + \beta_k X_k

Además, la proyección ortogonal de los puntos del espacio sobre este subespacio vectorial tiene como matriz asociada a:

X (X^t X)^{-1} X^t

por lo que dado el vector de n componentes que recoge las puntuaciones de los individuos en la variable dependiente -Y \in R^n- tendremos que su proyección sobre el espacio columna de X es:

X (X^t X)^{-1} X^t Y

Esta proyección coincide con el valor que el modelo de ajuste estima para el vector de valores de la variable dependiente -\hat{Y}- ya que:

\hat{Y}=X B =X (X^t X)^{-1} X^t Y

Hemos comprobado que la estimación que el modelo de ajuste proporciona para el vector de los valores de la variable dependiente -el vector \hat{Y}- es precisamente la proyección del vector de los valores observados -el vector Y- sobre el subespacio vectorial generado por las columnas de la matriz X, es decir, por las variables explicativas. En otras palabras, la estimación para Y que proporciona el modelo de ajuste es la mejor combinación posible de las variables explicativas en el sentido de que es la combinación que más se aproxima al verdadero valor de Y.

Lógicamente, la diferencia entre Y e \hat{Y} es el vector de residuos que, por construcción, tiene un módulo \left( e^t e \right) ^{1/2} que resulta ser mínimo y que, además es ortogonal a todos los vectores del subespacio columna de X y, en particular, a las columnas de dicha matriz. En efecto, X^t e=0 ya que:

X^t e = X^t (Y- X B) = X^t \{Y - X (X^t X)^{-1} X^t Y \} = X^t Y - X^t X (X^t X) ^{-1} X^t Y = X^t Y - X^t Y = 0

El método de los mínimos cuadrados descompone el espacio vectorial R^n en la suma directa de dos subespacios vectoriales:

  • El espacio columna de la matriz X, es decir, el conjunto de todas las combinaciones lineales posibles de las variables explicativas y la columna de unos. En este subespacio vectorial, que tiene dimensión k+1, el método de los mínimos cuadrados selecciona el vector X B =X (X^t X)^{-1} X^t Y, que es la proyección de Y sobre el mencionado subespacio.
  • El complemento ortogonal del anterior subespacio. En este subespacio, de dimensión n-k-1, el método de los mínimos cuadrados selecciona el vector de residuos e=Y - XB = Y - X (X^t X)^{-1} X^t Y = (I-X (X^t X)^{-1} X^t) Y

De esta manera, cada vector de Y \in R^n se expresa de manera única como suma de sendos vectores correspondientes a cada uno de los subespacios, del siguiente modo:

Y = XB + e = X (X^t X)^{-1} X^t Y + (I-X (X^t X)^{-1} X^t) Y

Nótese que la matriz (I-X (X^t X)^{-1} X^t) es simétrica e idempotente y que, por tanto es la matriz asociada a la proyección sobre el complemento ortogonal al subespacio columna de la matriz X.

Un comentario »

  1. Ramiro ha dicho,

    24 de 24 de 2009 @ 5:44 pm

    Pésima página, deberían poner cosas mejores para favorecer el aprendizaje. Muy mala página… no te saca de ninguna duda

Deja un comentario