Comparación de modelos en regresión lineal múltiple
Imprimir
Uno de los temas recurrentes en el modelo de regresión lineal múltiple es el referente a la comparación de modelos. En la tarea por tratar de predecir de la mejor manera posible la variable dependiente es crucial disponer de herramientas que permitan comparar entre sí distintas combinaciones de las variables explicativas, sujetas o no a ciertas restricciones.
Dada una variable dependiente y un conjunto de k variables explicativas
diremos que un modelo
es mayor que otro modelo
si el dominio del vector
en el modelo
es un subconjunto de dicho dominio en el modelo
.
Como el espacio de búsqueda del óptimo en el modelo es un subconjunto de dicho espacio de búsqueda en el modelo
es evidente que la suma de cuadrados de los residuos en el modelo
debe ser menor o igual que dicha suma de cuadrados en el modelo
, es decir:
De aquí se deduce que:
La fracción que aparece en la expresión anterior -cuyo valor se encuentra entre 0 y 1- es una medida de la aportación del modelo al modelo
. En efecto, el denominador de la fracción recoge la suma de cuadrados de los residuos del modelo
, es decir, la parte de la variación de la variable dependiente que el modelo
no ha sido capaz de explicar. Por su parte, el numerador recoge la reducción en la suma de cuadrados de los residuos por el hecho de pasar del modelo
al modelo
. Si el valor del cociente fuera 0 significaría que el modelo
no aporta nada -en comparación con el modelo
- a la explicación de la variable dependiente ya que
. En el extremo opuesto, para que el valor del cociente sea 1 es necesario que
, es decir, que el modelo
prediga perfectamente los valores de la variable dependiente, siendo capaz de explicar todo aquello que el modelo
dejó sin explicar.
Por razones que más adelante veremos, vamos a llamar al cociente analizado , es decir:
Si aplicamos estos conceptos al caso de las restricciones lineales en el modelo de regresión nos encontramos con que el modelo sin restricciones es un modelo mayor que el modelo sometido a restricciones. Por ese motivo, la aportación de eliminar las restricciones de un modelo que las tenga vendrá dada por:
Como ya hemos visto, bajo el supuesto , tenemos que:
y, por tanto:
Recordemos que la matriz es simétrica, idempotente y que cumple que
y
.
Por tanto, si recordamos que :
Los vectores ,
y
son, respectivamente, los catetos y la hipotenusa de un triángulo rectángulo -en efecto,
y
son ortogonales ya que
-. Ahora, si consideramos los vectores
y
y efectuamos su producto escalar tenemos que éste es igual a:
Por otra parte, dicho producto escalar es igual a:
Igualando ambas expresiones y despejando :
de donde se deduce que es el cuadrado del coseno del ángulo entre los vectores
y
siendo
el vector de los residuos en el modelo sin restricciones,
el vector de residuos en el modelo con restricciones y
el vector diferencia entre los dos anteriores.
Visto de otro modo, el coeficiente es:
y compara el vector de residuos sin restricciones con el vector de residuos sujeto a las restricciones
.
Por ser simétrica e idempotente es semidefinida positiva, y por tanto
. De aquí se deduce que:
.
Si la longitud de no es muy inferior a la de
entonces
estará muy próximo a cero, lo que es un indicador de que la eliminación de las restricciones no aporta demasiado en el sentido de reducir la suma de los cuadrados de los residuos. Si, por el contrario, la longitud de
es mucho menor que la de
entonces el valor de
será muy cercano a uno, lo que indica que la eliminación de las restricciones es muy provechosa en términos de reducción de la suma de los cuadrados de los residuos.
Por último, es necesario señalar que la expresión de los diversos vectores de residuos -en los modelos sin y con restricciones- en función del vector de errores resulta de gran interés para la presentación de sus propiedades geométricas -en particular, la ortogonalidad-, pero es inútil cuando se trata de efectuar un cálculo concreto, ya que, como siempre, el vector
es desconcido. Cuando se trata de efectuar el cálculo concreto de
hay que tomar en consideración que:

Otras formas de comparar modelos ‹ Análisis y comunicación de datos cuantitativos ha dicho,
20 de 20 de 2008 @ 4:57 pm
[...] la hora de comparar modelos, la alternativa de calcular no es única. Otros dos índices que se emplean con gran frecuencia son y . Estos índices se [...]