La distribución de las sumas de cuadrados de residuos
Imprimir
Ya hemos visto que las sumas de cuadrados de residuos son variables aleatorias. En efecto, consideremos, por ejemplo, la suma de cuadrados de los residuos en un modelo sin restricciones . Sabemos que:
y, como es un vector aleatorio, podemos afirmar que
también es aleatorio.
Por un razonamiento análogo concluimos que:
- La suma de los cuadrados de los residuos en un modelo con restricciones es, también, una variable aleatoria, ya que
.
- El incremento en la suma de cuadrados de los residuso debido a la restricción es una variable aleatoria, ya que
.
Asimismo, hemos dedicado algún post anterior a calcular el valor esperado de las mencionadas sumas de cuadrados pero, hasta el momento, no nos hemos preguntado por otros aspectos de su distribución.
Pues bien, en esta ocasión vamos a encontrar la distribución de las sumas de cuadrados de los residuos. Para ello necesitamos una hipótesis adicional -que, habitualmente, se presenta junto a las hipótesis de Gauss-Markov ya que se refiere al comportamiento de los errores aleatorios pero que no es necesaria para demostrar el teorema homónimo-. La hipótesis adicional es la siguiente:
El vector de errores aleatorios
tiene una distribución normal multivariante.
Esta nueva hipótesis junto con las que anteriormente se han hecho acerca del vector de errores pueden resumirse en la siguiente:
El vector de errores aleatorios
sigue una distribución normal multivariante de media nula y matriz de covarianzas
.
Recuérdese que, en general, la correlación nula es condición necesaria pero no suficiente para la independencia de dos variables. Sin embargo, en el caso de la distribución normal multivariante, la correlación nula y la independencia entre dos variables del vector aleatorio son equivalentes. Podemos decir, por tanto, que los errores aleatorios constituyen un conjunto de
variables aleatorias independientes e idénticamente distribuidas con media nula y varianza
.
Ahora, aplicando el primer teorema presentado en el post anterior, podemos afirmar que:
sigue una distribución
de
grados de libertad.
sigue una distribución
de
grados de libertad.
sigue una distribución
de
grados de libertad.
Además, si consideramos el vector aleatorio , tenemos que sigue una distribución normal multivariante de media nula y matriz de covarianzas
por lo que los distintos
son variables aleatorias independientes e idénticamente distribuidas con distribución normal de media 0 y varianza 1. Ahora, aplicando el segundo teorema del post anterior podemos afirmar que
y
son dos variables aleatorias independientes ya que, como se ha comprobado con anterioridad,
.
El carácter independiente de y de
nos permite afirmar que:
se distribuye según una F de Fisher de grados de libertad en el numerador y
grados de libertad en el denominador.
Hemos encontrado que, bajo el supuesto de que las restricciones lineales se cumplen, la distribución de es una F de Fisher de
grados de libertad en el numerador y
grados de libertad en el denominador.

Selección del modelo más adecuado ‹ Análisis y comunicación de datos cuantitativos ha dicho,
3 de 3 de 2008 @ 3:59 pm
[...] en llamar y . De entre los tres índices, el único cuya distribución es conocida es . En efecto sabemos que, bajo el supuesto de que las restricciones impuestas se cumplen, la distribución de es una [...]