Contraste acerca de la calidad global del modelo de regresión
Imprimir
En posts anteriores hemos visto que:
- existen diversos indices para comparar -y seleccionar de entre ellos- modelos anidados.
- existen diversas fórmulas para expresar cada uno de estos índices en función de los demás.
- el índice
sigue una distribución
de Fisher y que, por tanto, podemos emplearlo para determinar si merece la pena un modelo complejo y más preciso -
- o un modelo más simple pero con una mayor suma de cuadrados de residuos -
-.
Vamos, ahora, a aplicar este conocimiento a un caso particular. Esto nos va a permitir evaluar la calidad global del modelo de regresión. Se trata, como siempre, de comparar dos modelos: el modelo grande y el modelo pequeño
, que en este caso son los siguientes:
- El modelo
es el que incluye en el modelo teórico todas las variables explicativas, sin imponer ninguna restricción sobre sus coeficientes.
- El modelo
es el que excluye del modelo teórico todas las variables explicativas. Se trata, por tanto, de un modelo en el que la variable dependiente se expresa únicamente en función de dos elementos: el término constante
y el error aleatorio
.
La forma de que disponemos para transformar un modelo en otro más pequeño
es la imposición de un conjunto de restricciones lineales de la forma
sobre los componentes del vector
. Nos preguntaremos, por tanto, ¿cuál es el conjunto de restricciones que transforma
en
? La respuesta es evidente: debemos imponer las siguientes
restricciones:
Como resulta muy fácil de ver, conviene, en este caso trabajar con datos centrados. De esta manera, la matriz de los coeficientes de las restricciones es una matriz identidad, lo que facilita sobremanera los cálculos. Por tanto, nuestro modelo teórico se establecerá sobre las matrices de datos centrados y tendrá la forma:
A este modelo teórico con datos centrados le añadiremos el conjunto de restricciones:
siendo
y
Conviene recordar que cuando se trabaja con datos centrados:
Además, las fórmulas para calcular y
bajo las restricciones en el caso de trabajar con datos centrados son:
y
Teniendo en cuenta que y que
resulta que:
Desarrollando esta expresión obtenemos que:
con lo que el modelo de ajuste sometido a las restricciones es:
y como
llegamos a que:
lo que viene a expresar que la mejor estrategia que cabe emplear para tratar de estimar la variable dependiente en ausencia de variables explicativas que nos proporcionen información sobre ella es emplear la media de dicha variable.
En cuanto al incremento que se produce en la suma de los cuadrados de los residuos por la inclusión de las restricciones -es decir, por la eliminación del modelo del conjunto de variables explicativas- podemos decir que su valor es:
pero
por lo que
Sólo nos resta calcular las sumas de cuadrados de residuos para los modelos y
.
Tenemos que:
y
por lo que
Finalmente:
Además:
y
de donde:
por lo que concluimos que:
En resumen:
o, en forma de sumatorios:
Estamos ya en disposición de calcular los tres índices de comparación de modelos anidados para este caso particular:
- En lo que se refiere al índice
:
Este índice, que es un caso particular del índice , recibe el nombre de coeficiente de determinación, y es una medida de la calidad global del conjunto de variables explicativas. Nos referiremos a él como
y mide qué parte de la variabilidad total de la variable dependiente alrededor de la media muestral resulta explicada por el conjunto de las variables explicativas. Un valor próximo a cero para
indica una mala calidad global del modelo, mientras que los valores próximos a uno son indicadores de una gran capacidad predictiva en el conjunto de variables explicativas.
- Por razones que más adelante veremos resulta necesario contar con un índice derivado de
al que llamaremos
ajustado y que denotaremos por
. Se trata de un caso particular del índice
, que en este caso particular toma el valor:
Nótese que tanto como
son estimaciones insesgadas de la varianza de los errores.
- Por último, el índice
será el que nos proporcionará el camino más simple para elegir entre el modelo con todas las variables y el modelo sin variables explicativas. Lo denotaremos por
y su valor es:
La distribución del índice es una
de Fisher-Snedecor de
grados de libertad en el numerador y
grados de libertad en el denominador.
El conocimiento de la distribución del índice nos permite contrastar las siguientes hipótesis:
- Hipótesis nula: el modelo
es apropiado, es decir, globalmente consideradas, las variables explicativas no resultan factores explicativos de la variable dependiente de donde se deduce que la calidad gobal del modelo de regresión no es suficiente.
- Hipótesis alternativa: el modelo
no es apropiado y el modelo
sí lo es. En otras palabras, merece la pena tomar en cuenta las variables explicativas -en un sentido global- a la hora de predecir los valores de la variable dependiente. Por tanto, la calidad global del modelo de regresión es suficiente.
Hemos obtenido, de este modo, un método para evaluar la calidad global del conjunto de variables explicativas en tanto que predictoras de la variable dependiente. Surge ahora una cuestión adicional: ¿existe algún subconjunto del conjunto de variables explicativas cuyo papel sea secundario en el sentido de que su exclusión del pool de variables explicativas apenas supondría un descenso en la capacidad predictiva del conjunto? Para responder a esta pregunta debemos cuestionarnos acerca de la calidad individual de cada una de las variables explicativas, pero eso será materia de un próximo post.
