Classification and regression trees

23 de Junio de 2009 · Imprimir Imprimir

Una alternativa muy razonable a los métodos paramétricos de regresión y análisis discriminante es el llamado método CART, siglas de classification and regression trees. Este método, popularizado por Breiman, Friedman, Olshen y Stone en 1984, es de aplicación cuando se trata de predecir el valor de una variable dependiente cuantitativa -caso de la regresión- o cualitativa -caso de la clasificación- a partir del conocimiento de los valores que toman una serie de variables explicativas.

Trataremos en este post el caso de la clasificación, es decir, la situación en la que la variable dependiente es cualitativa, con dos o más modalidades.

En esencia, el método CART parte de un nodo raíz o nodo inicial, que contiene al conjunto de todos los individuos, y establece una partición de dicho conjunto en dos subconjuntos -llamados nodos hijos- siguiendo el criterio de minimizar la heterogeneidad interna de dichos nodos -lo que supone maximizar la heterogeneidad entre ellos-. Este paso se repite con cada uno de los nodos hijos y así sucesivamente hasta satisfacer el criterio de parada -por ejemplo, porque se ha obtenido un nodo completamente homogéneo o de un tamaño menor que un umbral previamente establecido-. Así, el resultado final de esta primera fase del método CART es un árbol binario -cada nodo padre se divide en dos nodos hijos- de nombre árbol máximo.

El conjunto de nodos terminales del árbol máximo constituye una partición del conjunto inicial de individuos. A cada uno de dichos nodos terminales se le asigna una etiqueta igual a la moda en dicho nodo de la variable cualitativa dependiente. Supongamos, por ejemplo, que la variable dependiente analizada es el sexo, con dos modalidades, H y M. Se asignaría la etiqueta H a aquellos nodos terminales en los que haya más H que M y la etiqueta M a los demás. La asignación de la etiqueta a los nodos terminales supone la existencia de un error de clasificación debido a la presencia en nodos terminales de individuos cuya modalidad en la variable dependiente no coincide con la etiqueta asignada a dicho nodo terminal. Naturalmente, el árbol máximo es el árbol con el mínimo error de clasificación.

A partir del árbol máximo comienza el llamado proceso de poda del árbol. Hemos comentado que el árbol máximo tiene un error de clasificación muy pequeño pero sólo a costa de una gran complejidad -un elevado número de nodos-. En la mayoría de las situaciones merece la pena incrementar en pequeña medida el error de clasificación para simplificar la estructura del árbol binario obtenido. Se obtiene de este modo un árbol llamado árbol óptimo -al menos desde el punto de vista del coste-complejidad-.

Es muy importante recordar que el error de clasificación calculado para el árbol óptimo tiende a sobrevalorar el verdadero poder explicativo de las variables independientes para explicar la variable dependiente. La práctica habitual es la de destinar una parte de la muestra total de individuos a “aprender el árbol” y otra parte de la muestra a contrastar la calidad del árbol.

Naturalmente, R dispone de paquetes que permiten la aplicación del método CART. Por ejemplo, el package rpart.

Un comentario »

  1. jbm ha dicho,

    26 de 26 de 2009 @ 4:49 am

    Si hay pocos datos, la validación cruzada (cross validation) también da buenos resultados.

Deja un comentario