Una estimación de la varianza de los errores

3 de noviembre de 2008 · Imprimir Imprimir

En el post relativo a las hipótesis de Gauss-Markov hemos concluido que la matriz de covarianzas del vector de los errores es Cov(\varepsilon)= \sigma ^2 I. Sin embargo, el escalar \sigma^2 es desconocido. Vamos a dedicar este post a encontrar un estimador insesgado de esta varianza.

Consideremos el vector de los residuos e. Tenemos que:

e = Y – X B = Y – \hat{Y} = (I-H) Y = M Y = M ( X \beta + \varepsilon)

Pero:

M X \beta = [I - X(X^t X)^{-1} X^t] X \beta = X \beta -X \beta = 0

de donde se deduce que e = M \varepsilon y, por tanto, la suma de los cuadrados de los residuos es:

e^t e = \varepsilon ^t M^t M \varepsilon

pero como M es simétrica e idempotente resulta que:

e^t e = \varepsilon^t M \varepsilon

Naturalmente e^t e es una variable aleatoria y, como tal, tiene una cierta esperanza matemática que vamos a calcular.

E[e^t e] = E[ \varepsilon^t M \varepsilon] = E \left ( {\displaystyle\sum_{i=1}^{n} \displaystyle\sum_{j=1}^{n} \varepsilon_i \varepsilon_j m_{ij}} \right) = \displaystyle\sum_{i=1}^{n} \displaystyle\sum_{j=1}^{n} m_{ij} E(\varepsilon_i \varepsilon_j)

Pero E(\varepsilon_i \varepsilon_j) = Cov(\varepsilon_i, \varepsilon_j), que según las hipótesis de Gauss-Markov, es nula si i \ne j, con lo que tenemos que:

E[e^t e]= \displaystyle\sum_{i=1}^{n} m_{ii} E(\varepsilon_i \varepsilon_i)=\displaystyle\sum_{i=1}^{n} m_{ii} \sigma^2 = \sigma^2tr(M)

Para determinar la traza de M debemos tener en cuenta que M=I_n – H y que, naturalmente, tr(M)=tr(I_{n}-H)=tr(I_{n})-tr(H)=n-tr(H).

En cuanto a la traza de H podemos recurrir al hecho de que dadas dos matrices A y B de órdenes respectivos (n,p) y (p,n) tr(AB)=tr(BA). Por tanto, tendremos que:

tr(H)=tr(X(X^t X)^{-1} X^t)= tr(X^tX (X^t X)^{-1})=tr(I_{k+1})=k+1

Hemos encontrado que tr(M)=n-k-1 por lo que:

E[e^t e] = (n-k-1) \sigma^2

así que:

s^2= \displaystyle \frac {e^t e}{n-k-1}

es un estimador insesgado de la varianza de los términos de error \varepsilon_i.

A la raíz cuadrada de este estimador insesgado se le da el nombre de error estándar de la estimación (vídeo en youtube) y su expresión es:

s = \sqrt{ \displaystyle \frac {e^t e} {n-k-1}} =  \sqrt {\displaystyle \frac {\displaystyle \sum_{i=1}^n (y_i- \hat{y_i})^2} {n-k-1}}

2 comentarios »

  1. Otras estimaciones insesgadas de la varianza de los errores ‹ Análisis y comunicación de datos cuantitativos ha dicho,

    20 de 20 de 2008 @ 8:44 am

    [...] Vimos que y que el valor esperado de la suma de cuadrados de los residuos era igual a: [...]

  2. Otras formas de comparar modelos ‹ Análisis y comunicación de datos cuantitativos ha dicho,

    20 de 20 de 2008 @ 5:01 pm

    [...] su parte, el índice compara dos estimaciones de la varianza de los errores: la que se obtiene en el modelo libre — y la que se obtiene en el modelo restringido –. Aunque el denominador de -que es – es menor [...]

Deja un comentario