Contraste acerca de la calidad global del modelo de regresión

8 de Diciembre de 2008 · Imprimir Imprimir

En posts anteriores hemos visto que:

  • existen diversos indices para comparar -y seleccionar de entre ellos- modelos anidados.
  • existen diversas fórmulas para expresar cada uno de estos índices en función de los demás.
  • el índice F_{\Omega,\omega} sigue una distribución F de Fisher y que, por tanto, podemos emplearlo para determinar si merece la pena un modelo complejo y más preciso -\Omega- o un modelo más simple pero con una mayor suma de cuadrados de residuos -\omega-.

Vamos, ahora, a aplicar este conocimiento a un caso particular. Esto nos va a permitir evaluar la calidad global del modelo de regresión. Se trata, como siempre, de comparar dos modelos: el modelo grande \Omega y el modelo pequeño \omega, que en este caso son los siguientes:

  • El modelo \Omega es el que incluye en el modelo teórico todas las variables explicativas, sin imponer ninguna restricción sobre sus coeficientes.

Y = \alpha + \beta_1 X_1+ \ldots + \beta_k X_k + \varepsilon

  • El modelo \omega es el que excluye del modelo teórico todas las variables explicativas. Se trata, por tanto, de un modelo en el que la variable dependiente se expresa únicamente en función de dos elementos: el término constante \alpha y el error aleatorio \varepsilon.

Y = \alpha + \varepsilon

La forma de que disponemos para transformar un modelo \Omega en otro más pequeño \omega es la imposición de un conjunto de restricciones lineales de la forma C \beta = \gamma sobre los componentes del vector \beta. Nos preguntaremos, por tanto, ¿cuál es el conjunto de restricciones que transforma \Omega en \omega? La respuesta es evidente: debemos imponer las siguientes k restricciones:

\beta_1 = \beta_2 = \ldots = \beta_k = 0

Como resulta muy fácil de ver, conviene, en este caso trabajar con datos centrados. De esta manera, la matriz C de los coeficientes de las restricciones es una matriz identidad, lo que facilita sobremanera los cálculos. Por tanto, nuestro modelo teórico se establecerá sobre las matrices de datos centrados y tendrá la forma:

Y_0 = X_0 \beta_0 + \varepsilon

A este modelo teórico con datos centrados le añadiremos el conjunto de restricciones:

C \beta_0 = \gamma

siendo

C = I_k

y

\gamma =0

Conviene recordar que cuando se trabaja con datos centrados:

B_0 = \left( { {X_0}^t X_0} \right)^{-1} {X_0}^t Y_0

Y_0 = Y - \bar{Y}

\hat{Y}_0 = \hat{Y} - \bar{Y}

\hat{Y}_0 = X_0 B_0

Además, las fórmulas para calcular B_0 y \triangle SCR bajo las restricciones en el caso de trabajar con datos centrados son:

B_{0C} = B_0 + \left( { {X_0}^t X_0} \right)^{-1} C^t [C\left( { {X_0}^t X_0} \right)^{-1} C^t]^{-1} \left(  \gamma - C B_0 \right)

y

\triangle SCR = \left( C B_0 - \gamma \right)^t[C\left( { {X_0}^t X_0} \right)^{-1} C^t]^{-1} \left( C B_0 - \gamma \right)

Teniendo en cuenta que C = I_k y que \gamma = 0 resulta que:

B_{0C} = B_0 + \left( { {X_0}^t X_0} \right)^{-1} I_k [I_k \left( { {X_0}^t X_0} \right)^{-1} I_k]^{-1} \left(  - I_k B_0 \right)

Desarrollando esta expresión obtenemos que:

B_{0C}=0

con lo que el modelo de ajuste sometido a las restricciones es:

\hat{Y}_{0C} = X_0 B_{0C} = 0

y como

\hat{Y}_{0C} = \hat{Y}_C - \bar{Y}

llegamos a que:

\hat{Y}_C = \bar{Y}

lo que viene a expresar que la mejor estrategia que cabe emplear para tratar de estimar la variable dependiente en ausencia de variables explicativas que nos proporcionen información sobre ella es emplear la media de dicha variable.

En cuanto al incremento que se produce en la suma de los cuadrados de los residuos por la inclusión de las restricciones -es decir, por la eliminación del modelo del conjunto de variables explicativas- podemos decir que su valor es:

\triangle SCR = \left( I_k B_0  \right)^t[I_k \left( { {X_0}^t X_0} \right)^{-1} I_k ]^{-1} \left( I_k B_0 \right) = \left( X_0 B_0 \right)^t \left( X_0 B_0 \right) = \hat{Y}^t_0 \hat{Y}_0

pero

\hat{Y}_0 = \hat{Y} - \bar{Y}

por lo que

\triangle SCR = \left( \hat{Y} - \bar{Y} \right)^t \left( \hat{Y} - \bar{Y} \right) = \sum_{i=1}^n \left( \hat{y}_i- \bar{y} \right)^2

Sólo nos resta calcular las sumas de cuadrados de residuos para los modelos \Omega y \omega.

Tenemos que:

SCR_{\omega} = {e_C}^t e_C = \left( Y_0 - X_0 B_{0C} \right)^t \left( Y_0 - X_0 B_{0C} \right) = {Y_0}^t Y_0

y

Y_0 = Y  - \bar{Y}

por lo que

SCR_{\omega} = \left( Y  - \bar{Y} \right)^t \left( Y  - \bar{Y} \right) = \sum_{i=1}^n \left( y_i - \bar{y} \right)^2

Finalmente:

SCR_{\Omega} = {e}^t e = \left( Y_0 - X_0 B_{0} \right)^t \left( Y_0 - X_0 B_{0} \right) = \left( Y_0-\hat{Y}_0 \right)^t \left( Y_0-\hat{Y}_0 \right)

Además:

Y_0 = Y - \bar{Y}

y

\hat{Y}_0 = \hat{Y} - \bar{Y}

de donde:

Y_0 - \hat{Y}_0 = Y - \hat{Y}

por lo que concluimos que:

SCR_{\Omega} = \left( Y - \hat{Y} \right)^t \left( Y - \hat{Y} \right) = \sum_{i=1}^n \left(y_i - \hat{y}_i \right)^2

En resumen:

SCR_{\omega} = SCR_{\Omega} + \triangle SCR

o, en forma de sumatorios:

\displaystyle{\sum_{i=1}^n \left( y_i - \bar{y} \right)^2 = \sum_{i=1}^n \left( y_i - \hat{y}_i \right)^2 + \sum_{i=1}^n \left( \hat{y}_i - \bar{y} \right)^2}

Estamos ya en disposición de calcular los tres índices de comparación de modelos anidados para este caso particular:

  • En lo que se refiere al índice R^2_{\Omega,\omega}:

R^2_{\Omega,\omega} = \frac{\triangle SCR}{SCR_{\omega}}= \frac{\sum_{i=1}^n \left( \hat{y}_i - \bar{y} \right)^2}{\sum_{i=1}^n \left( y_i - \bar{y} \right)^2} = R^2

Este índice, que es un caso particular del índice R^2_{\Omega,\omega}, recibe el nombre de coeficiente de determinación, y es una medida de la calidad global del conjunto de variables explicativas. Nos referiremos a él como R^2 y mide qué parte de la variabilidad total de la variable dependiente alrededor de la media muestral resulta explicada por el conjunto de las variables explicativas. Un valor próximo a cero para R^2 indica una mala calidad global del modelo, mientras que los valores próximos a uno son indicadores de una gran capacidad predictiva en el conjunto de variables explicativas.

  • Por razones que más adelante veremos resulta necesario contar con un índice derivado de R^2 al que llamaremos R^2 ajustado y que denotaremos por \bar{R^2}. Se trata de un caso particular del índice \bar{R}^2_{\Omega,\omega}, que en este caso particular toma el valor:

\displaystyle{\bar{R}^2 = 1 - \frac{\frac{\sum_{i=1}^n \left( y_i - \hat{y}_i\right)^2}{n-k-1}}{\frac{\sum_{i=1}^n \left( y_i - \bar{y} \right)^2}{n-1}}= 1 -\frac{s^2}{{s_C}^2}}

Nótese que tanto s^2 como {s_C}^2 son estimaciones insesgadas de la varianza de los errores.

  • Por último, el índice F_{\Omega, \omega} será el que nos proporcionará el camino más simple para elegir entre el modelo con todas las variables y el modelo sin variables explicativas. Lo denotaremos por F y su valor es:

F = \frac{\frac{\triangle SCR}{m}}{\frac{SCR_{\Omega}}{n-k-1}} = \frac{\frac{\sum_{i=1}^n \left( \hat{y}_i - \bar{y} \right)^2}{k}}{\frac{\sum_{i=1}^n \left( y_i - \hat{y}_i\right)^2}{n-k-1}}

La distribución del índice F es una F de Fisher-Snedecor de k grados de libertad en el numerador y n-k-1 grados de libertad en el denominador.

El conocimiento de la distribución del índice F nos permite contrastar las siguientes hipótesis:

  • Hipótesis nula: el modelo \omega es apropiado, es decir, globalmente consideradas, las variables explicativas no resultan factores explicativos de la variable dependiente de donde se deduce que la calidad gobal del modelo de regresión no es suficiente.
  • Hipótesis alternativa: el modelo \omega no es apropiado y el modelo \Omega sí lo es. En otras palabras, merece la pena tomar en cuenta las variables explicativas -en un sentido global- a la hora de predecir los valores de la variable dependiente. Por tanto, la calidad global del modelo de regresión es suficiente.

Hemos obtenido, de este modo, un método para evaluar la calidad global del conjunto de variables explicativas en tanto que predictoras de la variable dependiente. Surge ahora una cuestión adicional: ¿existe algún subconjunto del conjunto de variables explicativas cuyo papel sea secundario en el sentido de que su exclusión del pool de variables explicativas apenas supondría un descenso en la capacidad predictiva del conjunto? Para responder a esta pregunta debemos cuestionarnos acerca de la calidad individual de cada una de las variables explicativas, pero eso será materia de un próximo post.

Deja un comentario