El teorema de Gauss-Markov
Imprimir
El afirma que la estimación por mínimos cuadrados del modelo teórico de regresión es óptima y no sólo en el sentido de que hace mínimo el módulo del vector de residuos sino también en lo que se refiere a la variabilidad de la estimación del parámetro desconocido
.
En este post vamos a presentar el enunciado del teorema -un tanto simplificado- y su demostración.
Teorema: Sea el modelo teórico de regresión
. Si las hipótesis de Gauss-Markov se satisfacen, entonces el estimador de mínimos cuadrados
es el mejor estimador lineal insesgado de
en el sentido de que dado cualquier otro estimador lineal insesgado
de
la matriz
es semidefinida positiva.
Antes de proceder a la demostración conviene aclarar el significado del teorema y, en particular, dos aspectos:
- En primer lugar, ¿por qué cualquier estimador lineal de
es de la forma
?
- En segundo lugar, ¿cuáles son las consecuencias del caracter “semidefinido positivo” de la matriz
?
Respecto a la primera cuestión, al hablar de estimadores lineales hacemos referencia a estimadores que sean combinaciones lineales de los elementos del vector y por tanto, de la forma
, donde
es una matriz de orden (m,n) -siendo n el número de individuos-.
Respecto a la segunda cuestión debemos tener en cuenta dos hechos que se han comentado en anteriores posts:
- La diagonal principal de la matriz de covarianzas de un vector aleatorio recoge las varianzas de los componentes del vector aleatorio. En este caso, la diagonal principal de
recoge las varianzas de los elementos del estimador
y la diagonal principal de
recoge las varianzas de los elementos del estimador
.
- Si una matriz es semidefinida positiva todos los elementos de su diagonal principal son no negativos.
Como consecuencia de estos dos hechos, afirmar que la matriz es semidefinida positiva es equivalente a afirmar que todos los componentes del vector
tienen una varianza mayor o igual que la de los correspondientes elementos del vector
, por lo que la incertidumbre asociada al estimador
es mayor que la incertidumbre del estimador
. A eso se refiere la optimalidad de
.
Una vez presentado y comentado el teorema de Gauss-Markov procederemos a su demostración.
Sabemos que:
pero, por tratarse de un estimador insesgado debe ocurrir que:
o lo que es equivalente:
Como esta igualdad debe cumplirse para cualquier vector se deduce que el espacio vectorial generado por las columnas de la matriz
tiene dimensión nula y, por tanto, el rango de la matriz
es nulo con lo que
Por otra parte:
Además:
pero como podemos escribir:
Es fácil comprobar que:
y sacando factor común:
donde es la matriz asociada a la proyección ortogonal sobre el subespacio complemento ortogonal del subespacio vectorial generado por las variables explicativas -y la columna de unos-. Recuérdese que esta matriz
es simétrica e idempotente y, por tanto, semidefinida positiva.
Naturalmente, también es semidefinida positiva ya que dado cualquier vector
tendremos que
por ser
semidefinida positiva. Finalmente, por ser
tenemos que
es semidefinida positiva, lo que concluye la demostración.
Se dice que es el estimador de
. El término BLUE corresponde a las siglas Best Linear Unbiased Estimator, es decir, el estimador lineal e insesgado óptimo.

La distribución de las sumas de cuadrados de residuos ‹ Análisis y comunicación de datos cuantitativos ha dicho,
1 de 1 de 2008 @ 4:09 pm
[...] se refiere al comportamiento de los errores aleatorios pero que no es necesaria para demostrar el teorema homónimo-. La hipótesis adicional es la siguiente: El vector de errores aleatorios tiene una distribución [...]