Classification and regression trees
Imprimir
Una alternativa muy razonable a los métodos paramétricos de regresión y análisis discriminante es el llamado , siglas de classification and regression trees. Este método, popularizado por , es de aplicación cuando se trata de predecir el valor de una variable dependiente cuantitativa -caso de la regresión- o cualitativa -caso de la clasificación- a partir del conocimiento de los valores que toman una serie de variables explicativas.
Trataremos en este post el caso de la clasificación, es decir, la situación en la que la variable dependiente es cualitativa, con dos o más modalidades.
En esencia, el método CART parte de un , que contiene al conjunto de todos los individuos, y establece una de dicho conjunto en dos subconjuntos -llamados nodos hijos- siguiendo el criterio de minimizar la interna de dichos nodos -lo que supone maximizar la heterogeneidad entre ellos-. Este paso se repite con cada uno de los nodos hijos y así sucesivamente hasta satisfacer el criterio de parada -por ejemplo, porque se ha obtenido un nodo completamente homogéneo o de un tamaño menor que un umbral previamente establecido-. Así, el resultado final de esta primera fase del método CART es un -cada nodo padre se divide en dos nodos hijos- de nombre árbol máximo.
El conjunto de del árbol máximo constituye una partición del conjunto inicial de individuos. A cada uno de dichos nodos terminales se le asigna una etiqueta igual a la moda en dicho nodo de la variable cualitativa dependiente. Supongamos, por ejemplo, que la variable dependiente analizada es el sexo, con dos modalidades, H y M. Se asignaría la etiqueta H a aquellos nodos terminales en los que haya más H que M y la etiqueta M a los demás. La asignación de la etiqueta a los nodos terminales supone la existencia de un error de clasificación debido a la presencia en nodos terminales de individuos cuya modalidad en la variable dependiente no coincide con la etiqueta asignada a dicho nodo terminal. Naturalmente, el árbol máximo es el árbol con el mínimo error de clasificación.
A partir del árbol máximo comienza el llamado proceso de del árbol. Hemos comentado que el árbol máximo tiene un error de clasificación muy pequeño pero sólo a costa de una gran complejidad -un elevado número de nodos-. En la mayoría de las situaciones merece la pena incrementar en pequeña medida el error de clasificación para del árbol binario obtenido. Se obtiene de este modo un árbol llamado árbol óptimo -al menos desde el punto de vista del coste-complejidad-.
Es muy importante recordar que el error de clasificación calculado para el árbol óptimo tiende a el verdadero poder explicativo de las variables independientes para explicar la variable dependiente. La práctica habitual es la de destinar una parte de la muestra total de individuos a “” y otra parte de la muestra a contrastar la calidad del árbol.
Naturalmente, R dispone de paquetes que permiten la . Por ejemplo, el package .

jbm ha dicho,
26 de 26 de 2009 @ 4:49 am
Si hay pocos datos, la validación cruzada (cross validation) también da buenos resultados.