El teorema de Gauss-Markov

29 de octubre de 2008 · Imprimir Imprimir

El teorema de Gauss-Markov afirma que la estimación por mínimos cuadrados del modelo teórico de regresión es óptima y no sólo en el sentido de que hace mínimo el módulo del vector de residuos sino también en lo que se refiere a la variabilidad de la estimación B del parámetro desconocido \beta.

En este post vamos a presentar el enunciado del teorema -un tanto simplificado- y su demostración.

Teorema: Sea el modelo teórico de regresión Y = X \beta + \varepsilon. Si las hipótesis de Gauss-Markov se satisfacen, entonces el estimador de mínimos cuadrados B=(X^t X)^{-1} X^t Y es el mejor estimador lineal insesgado de \beta en el sentido de que dado cualquier otro estimador lineal insesgado CY de \beta la matriz Cov(CY)-Cov(B) es semidefinida positiva.

Antes de proceder a la demostración conviene aclarar el significado del teorema y, en particular, dos aspectos:

  • En primer lugar, ¿por qué cualquier estimador lineal de \beta es de la forma CY?
  • En segundo lugar, ¿cuáles son las consecuencias del caracter “semidefinido positivo” de la matriz Cov(CY)-Cov(B)?

Respecto a la primera cuestión, al hablar de estimadores lineales hacemos referencia a estimadores que sean combinaciones lineales de los elementos del vector Y y por tanto, de la forma CY, donde C es una matriz de orden (m,n) -siendo n el número de individuos-.

Respecto a la segunda cuestión debemos tener en cuenta dos hechos que se han comentado en anteriores posts:

Como consecuencia de estos dos hechos, afirmar que la matriz Cov(CY)-Cov(B) es semidefinida positiva es equivalente a afirmar que todos los componentes del vector CY tienen una varianza mayor o igual que la de los correspondientes elementos del vector B, por lo que la incertidumbre asociada al estimador CY es mayor que la incertidumbre del estimador B. A eso se refiere la optimalidad de B.

Una vez presentado y comentado el teorema de Gauss-Markov procederemos a su demostración.

Sabemos que:

E(CY)=C E(Y) = C X \beta

pero, por tratarse de un estimador insesgado debe ocurrir que:

C X \beta = \beta

o lo que es equivalente:

(CX-I) \beta= 0

Como esta igualdad debe cumplirse para cualquier vector \beta se deduce que el espacio vectorial generado por las columnas de la matriz CX-I tiene dimensión nula y, por tanto, el rango de la matriz CX-I es nulo con lo que CX=I

Por otra parte:

Cov(CY)=C Cov(Y) C^t = \sigma^2 C C^t

Además:

Cov(B)= \sigma^2 (X^t X)^{-1}

pero como CX=I podemos escribir:

Cov(B)= CX \sigma^2 (X^t X)^{-1} X^t C^t= \sigma^2 C X (X^t X)^{-1} X^t C^t

Es fácil comprobar que:

Cov(CY)-Cov(B) = \sigma^2 CC^t -\sigma^2 CX(X^t X)^{-1} X^t C^t

y sacando factor común:

Cov(CY)-Cov(B) = \sigma^2 C [I-X (X^t X)^{-1} X^t] C^t = \sigma^2 C M C^t

donde M es la matriz asociada a la proyección ortogonal sobre el subespacio complemento ortogonal del subespacio vectorial generado por las variables explicativas -y la columna de unos-. Recuérdese que esta matriz M es simétrica e idempotente y, por tanto, semidefinida positiva.

Naturalmente, C M C^t también es semidefinida positiva ya que dado cualquier vector u tendremos que u^t C M C^t u = (C^t u)^t M (C^t u) \ge 0 por ser M semidefinida positiva. Finalmente, por ser \sigma^2 \ge 0 tenemos que \sigma^2 C M C^t es semidefinida positiva, lo que concluye la demostración.

Se dice que B es el estimador BLUE de \beta. El término BLUE corresponde a las siglas Best Linear Unbiased Estimator, es decir, el estimador lineal e insesgado óptimo.

Un comentario »

  1. La distribución de las sumas de cuadrados de residuos ‹ Análisis y comunicación de datos cuantitativos ha dicho,

    1 de 1 de 2008 @ 4:09 pm

    [...] se refiere al comportamiento de los errores aleatorios pero que no es necesaria para demostrar el teorema homónimo-. La hipótesis adicional es la siguiente: El vector de errores aleatorios tiene una distribución [...]

Deja un comentario