Actualización del documento de regresión y versión en euskera

7 de enero de 2009

Las vacaciones de navidad han servido para poder preparar una versión en euskera del documento de resumen sobre introducción a la regresión lineal múltiple (¡gracias Nerea!) y, también, para corregir algunas erratas de la versión en castellano.

Os los dejo para que dispongáis de ellos y, sobre todo, para recibir vuestros comentarios.

Indicadores relativizados

28 de diciembre de 2008

El asunto de la relativización de los indicadores económicos es un tema recurrente en este blog. En esta ocasión, sin embargo, vamos a apoyar los argumentos presentados en anteriores posts con datos procedentes de una investigación cuyo objetivo último es el de establecer una tipología de regiones europeas a partir de indicadores de desarrollo económico, estructura productiva y actividad innovadora.

Disponemos de datos para un total de 187 regiones europeas -seleccionadas según la nomenclatura NUTS en función de su grado de autonomía- referentes a un conjunto de variables de las que destacaremos el Producto Interior Bruto (PIB), y el número de personas no empleadas (DESEM). Si elaboramos un diagrama de dispersión con estas dos variables obtenemos el siguiente resultado:

modeloabsoluto

Se observa la existencia de una relación lineal directa y fuerte entre el número de personas no empleadas y el Producto Interior Bruto de las regiones europeas. Este hallazgo puede parecer contrario a la intuición: ¡¿resulta que cuanto mayor es el número de personas que no tienen trabajo es mayor el PIB?!.

La respuesta a esta pregunta es afirmativa y la explicación es sumamente sencilla: el origen de la paradoja se encuentra en la diferencia de tamaño entre las regiones europeas y en el hecho de que las regiones grandes tienden a tener muchas personas no empleadas -y también muchas personas con empleo- y un gran PIB mientras que las regiones pequeñas tienen pocas personas sin empleo y un PIB más reducido. En resumen, la correlación entre estas dos variables es una correlacion espuria, inducida por la variable tamaño de la región -medida en forma de número de habitantes, PIB o de otra forma apropiada-

El panorama cambia de forma drástica si consideramos las variables anteriores convenientemente relativizadas, es decir, el Producto Interior Bruto per capita (PIBPC) y la proporción de personas no empleadas (TDESEM). El diagrama de dispersión que se obtiene es el siguiente:

modelorelativo

Cuando consideramos los indicadores económicos regionales sin relativizar obtenemos:

  • correlaciones positivas entre indicadores que la teoría económica supone inversamente relacionados. Este efecto se debe a la correlación espuria inducida por la variable tamaño.
  • correlaciones con valores elevados, que “mejoran” de forma artificial los resultados de los análisis factoriales. Éstos presentan una mayor concentración de la varianza en las primeras dimensiones que la que se obtiene cuando las variables se han relativizado. Así, cuando no se relativizan los indicadores, las representaciones en los planos factoriales formados por los primeros ejes recogen una enorme proporción de varianza. Esto lleva a pensar que el análisis factorial “ha sido todo un éxito” cuando la realidad es que esta inercia recogida en los primeros ejes es, casi en su totalidad, debida a la diferencia de tamaño entre las regiones.

Documento sobre introducción al modelo de regresión lineal

16 de diciembre de 2008

Tras la tanda de posts relativos al modelo de regresión múltiple ha llegado el momento de poner orden en el caos. Con ese objetivo he elaborado un breve documento (21 páginas) que resume -sin demostraciones- los hechos básicos del modelo de regresión.

Espero vuestros comentarios para mejorar el documento.

Actualización: nueva versión del documento.

Un script de Octave para un ejemplo sencillo de regresión

10 de diciembre de 2008

Preparando un ejercicio de regresión lineal sencillo -con un par de variables explicativas- para la asignatura de Econometría I me he encontrado con la necesidad de tener que realizar muchos cálculos con matrices y se me ha ocurrido recurrir a GNU Octave.

Éste es el script que he elaborado. Puede ejecutarse desde Octave escribiendo Supermercados en el prompt.

PS: Es el famoso ejemplo de los supermercados (datos en formato gretl)

El package lmtest de R contiene tests avanzados para el análisis de regresión

9 de diciembre de 2008

Últimamente me he tomado muy en serio el objetivo de mejorar mi pericia en la utilización de R. En mi esfuerzo por dotarme de un conjunto de herramientas que me permita -de una vez por todas- desinstalar SPSS de mi ordenador me he suscrito a Planet R, un blog que presenta diariamente del orden de 10 o 12 actualizaciones de packages de R. Algunos son sumamente especializados pero otros parecen muy útiles y generales. En esta última categoría clasificaría yo el package lmtest que, entre otros, permite efectuar los siguientes contrastes:

Aquí está el manual con la descripción de las funciones. Yo ya me lo he instalado.