Datos centrados en el modelo de regresión lineal múltiple

20 de Octubre de 2008 · Imprimir Imprimir

Aunque desde el punto de vista teórico no reviste gran interés, trabajar con datos centrados es muy recomendable desde una perspectiva operativa. El motivo principal es la complejidad-temporal de los algoritmos de inversión de matrices -complejidad cúbica-. En pocas palabras, la complejidad de la tarea de invertir una matriz de orden (4,4) es mucho mayor que el doble que la complejidad de invertir una matriz de orden (2,2). Por este motivo, preferiremos invertir una matriz (k,k) que invertir una matriz (k+1,k+1). Esto es, precisamente, lo que se consigue al trabajar con datos centrados en el modelo de regresión lineal múltiple.

El teorema básico es el siguiente:

El modelo de regresión teórico con datos originales Y = X \beta + \varepsilon tiene como solución mínimo cuadrática:

\beta = \left( \begin{array}{c} { \bar{y} -b_1 \bar{x}_1- \ldots -b_k \bar{x}_k} \\ b_1 \\ \cdots \\ b_k\end{array} \right) y \varepsilon = e

si y sólo si el modelo de regresión teórico con datos centrados \tilde{Y} = \tilde{X} \tilde{\beta} + \varepsilon tiene como solución mínimo cuadrática:

\tilde{\beta} = \left( \begin{array}{c} b_1 \\ \cdots \\ b_k\end{array} \right) y \varepsilon = e

En efecto, consideremos la matriz X de las variables explicativas y la columna de unos -a la que denotaremos por 1-, que ocupa el primer lugar entre las columnas de dicha matriz. Es evidente que el espacio columna generado por la columna de unos es un subespacio vectorial del espacio columna de la matriz X y que si llamamos H_1 y H_X a las matrices asociadas a las proyecciones ortogonales sobre dichos subespacios tendremos -apoyándonos en el teorema demostrado en el post anterior- que \forall Y \in R^n:

H_1 Y = H_1 H_X Y

Por otra parte sabemos que:

H_X = X (X^t X)^{-1} X^t

H_1 = 1 (1^t 1)^{-1} 1^t = \frac {1}{n} 1 1^t

De donde se deduce que:

\frac {1}{n} 1 1^t Y = \frac {1}{n} 1 1 ^t X (X^t X)^{-1} X^t Y = \frac {1}{n} 1 1^t X B

de donde se obtiene fácilmente que el término independiente del modelo de ajuste con datos originales depende del resto de coeficientes de B según la expresión:

a= \bar{y} - b_1 \bar{x_1} - \ldots - b_k \bar{x_k}

por lo que la estimación minimo cuadrática de \beta resulta ser:

\beta =  \left( \begin{array}{c} { \bar{y} -b_1 \bar{x}_1- \ldots -b_k \bar{x}_k} \\ b_1 \\ \cdots \\ b_k\end{array} \right)

Por tanto, para cada uno de los n individuos del colectivo tendremos que:

y_i = \bar{y} - b_1 \bar{x_1} - \ldots - b_k \bar{x_k} + b_1 x_{i1} + \ldots + b_k x_{ik} + e_i

o, de modo equivalente:

y_i - \bar{y} = b_1 (x_{i1} - \bar{x}_1) + \ldots + b_k (x_{ik} - \bar{x}_k) + e_i

Dado que esta igualdad se verifica para cada uno de los n individuos del colectivo, podemos afirmar que:

\tilde{\beta} = \left( \begin{array}{c} b_1 \\ \cdots \\ b_k\end{array} \right) y \varepsilon = e

es la solución mínimo cuadrática del sistema de ecuaciones \tilde{Y} = \tilde{X} \tilde{\beta} + \varepsilon al que llamamos modelo teórico con datos centrados, y cuya expresión es:

\left(\begin{array}{c} y_{1}-\bar{y}\\ \vdots \\ y_{i}-\bar{y}\\ \vdots\\ y_{n}-\bar{y}\end{array}\right) =\left(\begin{array}{ccccc} x_{11}-\bar{x}_{1} \ \cdots \ x_{1j}-\bar{x}_{j} \ \cdots \ x_{1k}-\bar{x}_{k}\\ \cdots \ \cdots \ \cdots \ \cdots \ \cdots\\ x_{i1}-\bar{x}_{1} \ \cdots \ x_{ij}-\bar{x}_{j} \ \cdots \ x_{ik}-\bar{x}_{k}\\ \cdots \ \cdots \ \cdots \ \cdots \ \cdots\\ x_{n1}-\bar{x}_{1} \ \cdots \ x_{nj}-\bar{x}_{j} \ \cdots \ x_{nk}-\bar{x}_{k}\end{array}\right)\left(\begin{array}{c} \beta_{1}\\ \vdots\\ \beta_{j}\\ \vdots\\ \beta_{k}\end{array}\right)+\left(\begin{array}{c} \varepsilon_{1}\\ \vdots\\ \varepsilon_{i}\\ \vdots\\ \varepsilon_{n}\end{array}\right)

Los componentes de este modelo teórico de datos centrados son:

  • \tilde{Y}: el vector de los datos centrados de la variable dependiente:
  • \tilde{X}: la matriz de los datos centrados de las variables independientes -sin columna de unos-
  • \tilde{\beta}: el vector de los coeficientes de las variables -sin término independiente-
  • \varepsilon: el vector de los errores

Por tanto, para encontrar la solución mínimo cuadrática del modelo de regresión teórico con datos originales basta con encontrar la solución mínimo cuadrática del modelo de regresión teórico con datos centrados y calcular, a posteriori, el valor del término constante a través de la fórmula a= \bar{y} - b_1 \bar{x_1} - \ldots - b_k \bar{x_k}. La ventaja de trabajar con datos centrados, en vez de con datos originales reside en que la estimación mínimo cuadrática para el modelo de datos centrados es:

(\tilde{X}^t \tilde{X})^{-1} \tilde{X}^t \tilde{Y}

y la matriz

(\tilde{X}^t \tilde{X})

es de orden (k,k) mientras que la matriz

X^t X

es de orden (k+1, k+1).

4 comentarios »

  1. Restricciones lineales con datos centrados ‹ Análisis y comunicación de datos cuantitativos ha dicho,

    19 de 19 de 2008 @ 7:15 am

    [...] posts, en ocasiones puede interesar incluir las restricciones lineales sobre el modelo teórico con datos centrados. Como es evidente, las restricciones lineales excluirán, en este caso, al coeficiente [...]

  2. El modelo de ajuste con restricciones “pasa por la media” ‹ Análisis y comunicación de datos cuantitativos ha dicho,

    23 de 23 de 2009 @ 1:58 am

    [...] del término independiente en el caso de que el ajuste del modelo se esté efectuando mediante el método de datos centrados ya que es posible emplear la siguiente [...]

  3. F.Tusell ha dicho,

    28 de 28 de 2010 @ 2:26 am

    Bueno, aunque sin duda es cierto que reducir el orden de la matriz X’X en una unidad siempre ayuda, quizá no sea la motivación principal. De hecho, normalmente los programas de cálculo no invierten X’X, sino que recurren a la factorización QR o a métodos similares para solucionar el sistema de ecuaciones normales X’Xb = X’y.

    Quizá una motivación más fuerte para trabajar con desviaciones respecto a la media sea la mejor condición numérica del problema. Recuerdo un ejercicio que proponía hace años a mis alumnos en que una de las columnas eran valores de años, entre 1850 y 1980. Al tomar esta columna y dos o tres potencias suyas como regresores, el programa (MINITAB, en la época) advertía de la multicolinealidad aproximada de la matriz de diseño. Y es que la variable “Años” se veía como aproximadamente colineal con la columna de “unos”.

    En desviaciones respecto de la media, el problema desaparecía y la
    estimación se hacía sin problemas.

    En la época en que estamos, los programas de ordenador son en general
    más elaborados que la versión ya antigua de MINITAB que daba aquél problema; pero quizá aún siga ayudando en algunos casos expresar el problema en desviaciones respecto a la media.

  4. Juanjo ha dicho,

    28 de 28 de 2010 @ 5:04 am

    Interesante aportación con la que no podría estar más de acuerdo. ¿Sería posible contar con esos datos a los que aludes para utilizarlos en clase?

    En mi descargo, decir que el beneficio que yo planteaba en mi post inicial es más “tangible” para los alumnos de un curso de introducción, que suspirán de alivio cuando ven que la matriz que tienen que invertir (a mano, aunque sólo sea una vez) es 2×2 en vez de 3×3.

    Gracias por comentar.

Deja un comentario