El modelo de ajuste sometido a restricciones lineales

12 de Noviembre de 2008 · Imprimir Imprimir

El vector \beta del modelo teórico de regresión Y = X \beta + \varepsilon pertenece al espacio vectorial R^{k+1}. El cálculo del modelo de ajuste Y = X B+e consiste, por tanto, en encontrar un vector B=(a,b_1,\ldots,b_k)^t en R^{k+1} que consiga minimizar e^te.

Frente a la situación que se plantea en el párrafo anterior, en la que no existe ninguna restricción sobre el “espacio de búsqueda” de la solución B, es habitual considerar modelos de regresión en los que el modelo teórico está sometido a un conjunto de restricciones sobre los componentes del vector \beta. Por ejemplo, se puede obligar a que \beta_1 sea igual a 0 o a que \beta_1 + 2 \beta 2 =6. En general, una restricción lineal sobre el vector \beta será de la forma:

c_{0} \alpha + c_{1} \beta_1 + \ldots +c_{k} \beta_k = \gamma

Esta restricción limita el espacio de búsqueda de la solución B para \beta, en el sentido de que determina un subespacio afín de R^{k+1} de dimensión R^{k} y es en este subespacio afín en el que deberemos buscar el valor de \beta que haga mínima la suma de los cuadrados de los residuos. En concreto, cada restricción lineal añadida reduce en una unidad la dimensión del espacio de búsqueda.

Si deseamos considerar un conjunto de m restricciones lineales linealmente independientes sobre el vector \beta -con m<k+1- podemos emplear una representación matricial para expresarlas:

C \beta = \gamma

donde C es la matriz (m,k+1) de rango m que contiene los coeficientes de los elementos de \beta en las restricciones y \gamma es el vector (m,1) de los términos independientes de las restricciones. Por ejemplo, el conjunto de restricciones \beta_1=0 y \beta_1+ \beta_2 = 6 en un modelo con tres variables independientes vendría expresado por:

\left(\begin{array}{cccc} 0 \ 1 \ 0 \ 0\\ 0 \ 1 \ 1 \ 0\end{array}\right) \left(\begin{array}{c} \alpha\\ \beta_{1}\\ \beta_{2} \\ \beta_{3} \end{array}\right) = \left(\begin{array}{c} 0\\ 6\end{array}\right)

Una vez expresadas las restricciones lineales en forma matricial podemos plantearnos que, dado que el espacio de búsqueda se ha reducido, lo más razonable es que la solución que encontremos para \beta sea distinta de la que encontrábamos en un modelo sin restricciones. Cabe también preguntarse cómo afectará esta restricción del espacio de búsqueda a la suma de los cuadrados de los residuos aunque ya se puede barruntar que la suma de cuadrados de residuos en un modelo con restricciones no puede ser inferior a la de un modelo libre. Este post lo vamos a dedicar a dar respuesta a la primera cuestión, dejando el asunto de la suma de los cuadrados de los residuos para el siguiente.

El problema de encontrar la solución de \beta que hace mínima la suma de cuadrados de los residuos sujeto a la restricción C \beta = \gamma es un caso de optimización con restricciones, en el que el modo habitual de operar es confeccionar la llamada función lagrangiana, calcular sus derivadas respecto a las incógnitas de la función e igualarlas a cero. Resolviendo el sistema resultante se obtiene la solución óptima.

En efecto, la función lagrangiana en nuestro caso es:

L = (Y- X \beta)^t (Y - X \beta) + \lambda^t (\gamma - C \beta)

donde \lambda es un vector -multiplicador lagrangiano- de dimensión (m,1).

Operando de forma elemental sobre la función lagrangiana llegamos a que:

L = Y^t Y - 2 Y^t X \beta + \beta^t X^t X \beta + \lambda ^t (\gamma - C \beta)

Las derivadas respecto a \beta y \lambda^t son respectivamente:

\frac{\partial L}{\partial\beta}=-2X^{t}Y+2X^{t}X\beta-C^{t}\lambda

y

\frac{\partial L}{\partial\lambda^t}= \gamma-C \beta

Igualando a cero la primera derivada llegamos a que:

(X^t X) \beta = X^t Y + \frac {1}{2} C^t \lambda

y como la matriz X^t X tiene inversa:

B_C = \hat{\beta}=(X^t X)^{-1}X^tY + \frac {1}{2}(X^tX)^{-1}C^t \lambda = B + \frac {1}{2}(X^tX)^{-1}C^t \lambda

Por otra parte, igualando a cero la segunda derivada tenemos que:

\gamma = C \hat{\beta} = C B_C=C B + \frac{1}{2} C (X^tX)^{-1}C^t \lambda

Ahora, despejando \lambda de esta última expresión -lo que es posible dado que el rango de la matriz C es m- obtenemos:

\lambda = 2 [C(X^t X)^{-1}C^t]^{-1}(\gamma - C B)

y sustituyendo esta expresión en la obtenida para B_C:

B_C = B + (X^t X)^{-1} C^t [C (X^t X)^{-1} C^t]^{-1} (\gamma - C B)

Como se deduce de la expresión anterior, la diferencia B_C - B entre la estimación de \beta con restricciones y la estimación sin restricciones depende, entre otras cosas, del valor del factor \gamma- CB. Este factor será nulo cuando la estimación sin restricciones B cumpla las restricciones C \beta = \gamma y será tanto mayor cuanto más alejado se encuentre B de satisfacer las restricciones.

El vector de los residuos en este modelo con restricciones viene dado por Y - X B_C, es decir:

e_c = Y - X B_C = Y - X \{ B + (X^t X)^{-1} C^t [C (X^t X)^{-1} C^t]^{-1} (\gamma - C B) \}

Pero bajo el supuesto de que C \beta = \gamma podemos expresar (\gamma - CB) de la siguiente forma:

(\gamma - CB) = C \beta - CB = C (X^t X)^{-1} (X^t X) \beta - C (X^t X)^{-1} X^t Y = -C (X^t X)^{-1} X^t \varepsilon

Sustituyendo esta última expresión en la anterior, tenemos que:

e_c =  Y - X B + X (X^t X)^{-1} C^t [C (X^t X)^{-1} C^t]^{-1} C (X^t X)^{-1} X^t \varepsilon

Pero Y- X B = e = M \varepsilon. Si, además, llamamos P a la matriz simétrica e idempotente

P = X (X^t X)^{-1} C^t [C (X^t X)^{-1} C^t]^{-1} C (X^t X)^{-1} X^t

tenemos que:

e_c = M \varepsilon + P \varepsilon = (M+P) \varepsilon

Naturalmente, por ser tanto M como P, simétricas e idempotentes, también lo es M+P. Además, es muy fácil comprobar que MP=0 y que PM=0

En cualquier caso, la expresión encontrada permite el cálculo del modelo de ajuste bajo el conjunto de restricciones C \beta = \gamma -representado por la solución B_C- a partir del modelo de ajuste del modelo libre -representado por el vector B y nos facilitará el establecer una relación entre la suma de los cuadrados de los residuos sin restricciones SCR = e^t e y la suma de los cuadrados de los residuos bajo las restricciones impuestas SCR_C = {e_C}^t e_C.

6 comentarios »

  1. ¿Y qué ocurre con la suma de cuadrados de los residuos… ‹ Análisis y comunicación de datos cuantitativos ha dicho,

    18 de 18 de 2008 @ 2:42 pm

    [...] Sabemos que la estimación de con el conjunto de restricciones lineales nos lo proporciona la expresión: [...]

  2. Restricciones lineales con datos centrados ‹ Análisis y comunicación de datos cuantitativos ha dicho,

    19 de 19 de 2008 @ 7:18 am

    [...] de modo análogo a lo que hicimos en éste y en este otro post se llega a que la estimación de sujeta a las restricciones [...]

  3. Comparación de modelos en regresión lineal múltiple ‹ Análisis y comunicación de datos cuantitativos ha dicho,

    19 de 19 de 2008 @ 9:24 am

    [...] aplicamos estos conceptos al caso de las restricciones lineales en el modelo de regresión nos encontramos con que el modelo sin restricciones es un modelo mayor que el modelo sometido a [...]

  4. La distribución de las sumas de cuadrados de residuos ‹ Análisis y comunicación de datos cuantitativos ha dicho,

    1 de 1 de 2008 @ 4:14 pm

    [...] del post anterior podemos afirmar que y son dos variables aleatorias independientes ya que, como se ha comprobado con anterioridad, [...]

  5. Contraste acerca de la calidad global del modelo de regresión ‹ Análisis y comunicación de datos cuantitativos ha dicho,

    8 de 8 de 2008 @ 5:00 pm

    [...] disponemos para transformar un modelo en otro más pequeño es la imposición de un conjunto de restricciones lineales de la forma sobre los componentes del vector . Nos preguntaremos, por tanto, ¿cuál es el [...]

  6. El modelo de ajuste con restricciones “pasa por la media” ‹ Análisis y comunicación de datos cuantitativos ha dicho,

    23 de 23 de 2009 @ 2:24 am

    [...] ¿qué ocurre cuando al modelo teórico se le añaden restricciones lineales? ¿sigue pasando por la media? Dicho de otra forma: ¿se cumple la siguiente [...]

Deja un comentario