Distribución log-normal

23 de Julio de 2009

Llevo un par de días leyendo el interesante libro de Rein Taagepera de título Making Social Sciences More Scientific. La aportación fundamental del autor consiste en una comparación entre las formas de trabajo predominates en los ámbitos de las ciencias naturales y las ciencias sociales. Afirma Taagepera que las ciencias sociales son “menos ciencias” que las naturales y que, quizás, la aplicación de los métodos empleados en estas últimas podría mejorar los resultados y la imagen social de aquéllas.

Entre otras cosas, el autor critica la omnipresencia en las ciencias sociales de la distribución normal -y de la media aritmética-. En su opinión, en muchas ocasiones es una mejor opción la distribución log-normal y la media geométrica. El autor nos proporciona unos consejos prácticos para seleccionar la media que mejor se adapta a los datos de que disponemos. Cito:

Geometric means often express the central tendency better than arithmetic means. For the same reason, lognormal data fits often are called for, instead of desperate attempts to fit data into a Procrustean normal distribution. The following advice applies, with some reservations.

  • In the absence of any other information, if a variable can range from minus to plus infinity, a normal distribution is our best  bet, implying that the arithmetic mean is close to the median. (In the presence of further information, the bet may be off.)
  • In the absence of any other information, if a variable can have only positive values, a lognormal distribution is among our best bets, implying that the geometric mean is close to the median. (In the presence of further information, the bet may be off-we may have a gamma distribution or something else.)
  • However, if one tries a normal fit and standard deviation turns out less than one-half of the mean, then one might use this normal distribution. If standard deviation exceeds one-half of the mean, the normal fit should be abandoned in favor of lognormal.
  • If negative values are conceptually excluded but zero values do ocurr, then neither distribution can fit. Neither mean adequately reflects the median, but a pseudo-geometric mean might approximate it.
  • When there are grounds to hesitate between the arithmetic and geometric means, using the median might be the safest way, although it is awkward to calculte.

A este respecto resulta muy interesante el artículo de Limpert et al. (2001) de título Lognormal Distributions across the Sciences: Keys and Clues.

Classification and regression trees

23 de Junio de 2009

Una alternativa muy razonable a los métodos paramétricos de regresión y análisis discriminante es el llamado método CART, siglas de classification and regression trees. Este método, popularizado por Breiman, Friedman, Olshen y Stone en 1984, es de aplicación cuando se trata de predecir el valor de una variable dependiente cuantitativa -caso de la regresión- o cualitativa -caso de la clasificación- a partir del conocimiento de los valores que toman una serie de variables explicativas.

Trataremos en este post el caso de la clasificación, es decir, la situación en la que la variable dependiente es cualitativa, con dos o más modalidades.

En esencia, el método CART parte de un nodo raíz o nodo inicial, que contiene al conjunto de todos los individuos, y establece una partición de dicho conjunto en dos subconjuntos -llamados nodos hijos- siguiendo el criterio de minimizar la heterogeneidad interna de dichos nodos -lo que supone maximizar la heterogeneidad entre ellos-. Este paso se repite con cada uno de los nodos hijos y así sucesivamente hasta satisfacer el criterio de parada -por ejemplo, porque se ha obtenido un nodo completamente homogéneo o de un tamaño menor que un umbral previamente establecido-. Así, el resultado final de esta primera fase del método CART es un árbol binario -cada nodo padre se divide en dos nodos hijos- de nombre árbol máximo.

El conjunto de nodos terminales del árbol máximo constituye una partición del conjunto inicial de individuos. A cada uno de dichos nodos terminales se le asigna una etiqueta igual a la moda en dicho nodo de la variable cualitativa dependiente. Supongamos, por ejemplo, que la variable dependiente analizada es el sexo, con dos modalidades, H y M. Se asignaría la etiqueta H a aquellos nodos terminales en los que haya más H que M y la etiqueta M a los demás. La asignación de la etiqueta a los nodos terminales supone la existencia de un error de clasificación debido a la presencia en nodos terminales de individuos cuya modalidad en la variable dependiente no coincide con la etiqueta asignada a dicho nodo terminal. Naturalmente, el árbol máximo es el árbol con el mínimo error de clasificación.

A partir del árbol máximo comienza el llamado proceso de poda del árbol. Hemos comentado que el árbol máximo tiene un error de clasificación muy pequeño pero sólo a costa de una gran complejidad -un elevado número de nodos-. En la mayoría de las situaciones merece la pena incrementar en pequeña medida el error de clasificación para simplificar la estructura del árbol binario obtenido. Se obtiene de este modo un árbol llamado árbol óptimo -al menos desde el punto de vista del coste-complejidad-.

Es muy importante recordar que el error de clasificación calculado para el árbol óptimo tiende a sobrevalorar el verdadero poder explicativo de las variables independientes para explicar la variable dependiente. La práctica habitual es la de destinar una parte de la muestra total de individuos a “aprender el árbol” y otra parte de la muestra a contrastar la calidad del árbol.

Naturalmente, R dispone de paquetes que permiten la aplicación del método CART. Por ejemplo, el package rpart.

Nueva edición del libro de Gilbert Strang

22 de Junio de 2009

Hace unos días me llegó por correo la cuarta edición del libro Introduction to Linear Algebra del profesor del MIT Gilbert Strang. Después de unos cuantos años de estudiar y de explicar asignaturas relacionadas con el álgebra lineal y las matrices es, sin duda alguna, mi favorito.

El estilo del profesor Strang es directo. Los capítulos consisten en una breve -brevísima- presentación teórica seguida de un ejemplo, que se exprime de forma obsesiva hasta sacarle todo su jugo y, en particular, hasta poder formular conjeturas que, finalmente, son demostradas.

El índice es el siguiente:

  1. Introduction to Vectors
  2. Solving Linear Equations
  3. Vector Spaces and Subspaces
  4. Orthogonality
  5. Determinants
  6. Eigenvalues and Eigenvectors
  7. Linear Transformations
  8. Applications
  9. Numerical Linear Algebra
  10. Complex Vectors and Matrices

Para comprender bien los fundamentos del análisis multivariante es crucial un dominio del contenido de los capítulos 1 a 6 de este texto -los capítulos 7 a 10 pueden dejarse para un segundo curso de álgebra lineal-.

Además del libro, recomiendo los vídeos de la asignatura Linear Algebra 18.06 impartida en el MIT por el profesor Strang en otoño de 1999.

El paquete dynGraph de R

22 de Junio de 2009

Curioseando en los resúmenes de las comunicaciones de la conferencia useR! 2008 me he encontrado un interesante paquete -de nombre dynGraph- que permite el tratamiento de los resultados gráficos del paquete FactoMineR.

Con dynGraph es posible:

  • Mostrar sólo los individuos que superen una cierta suma de cosenos cuadrados.
  • Mover las etiquetas de individuos y variables de forma que no se solapen.
  • Establecer el tamaño de los individuos en función de su contribución o del valor que toman en alguna variable cuantitativa.

En resumen, el paquete permite un tratamiento adicional de los gráficos básicos que nos proporciona R.

Elecciones al Parlamento Vasco

30 de Marzo de 2009

Con más retraso del inicialmente previsto aquí está el análisis de los resultados correspondientes a las elecciones al Parlamento Vasco celebradas en la CAPV el pasado 1 de marzo.

Se trata de un análisis de componentes principales en el que los individuos son los distintos municipios de Euskadi y las variables son los porcentajes de votos obtenidos por cada uno de los partidos que, finalmente, obtuvieron algún escaño en el Parlamento. Los individuos están ponderados en función del censo electoral del municipio.

variableseleccionesmarzo20091

El gráfico de las variables -el círculo de correlación-, que se presenta más arriba, sitúa en la parte derecha a los partidos de ámbito nacional y a la izquierda a los partidos de ámbito regional. Podemos interpretar este primer eje como una oposición entre nacionalismo español -a la derecha- frente a nacionalismo vasco -a la izquierda-. Dado que este es el eje principal de inercia podemos entender que es, precisamente, esta oposición la que en mayor medida caracteriza las diferencias electorales entre los municipios del País Vasco. En cuanto al segundo eje de inercia -que se presenta en vertical- se observa fácilmente que opone a los partidos nominalmente “de izquierdas” -en la parte superior del gráfico- a los partidos “de derechas” -situados en la parte inferior-, con la excepción de Eusko Alkartasuna.

individuoseleccionesmarzo2009

En lo que se refiere al gráfico de los individuos -municipios en este caso-, estos se presentan coloreados según el territorio histórico al que pertenecen. Se observa cómo los territorios históricos se pueden concebir como unidades de destino en lo electoral. Dicho de otra forma, se observa una gran homogeneidad interna en los territorios históricos:

  • Los municipios alaveses -en color negro- están relacionados con los partidos de ámbito nacional y de derechas.
  • Los municipios guipuzcoanos -en color rojo- están relacionados con los partidos de ambito regional y de izquierdas.
  • Vizcaya -en color verde- aparece en una posición intermedia.

¿Comentarios?