Para saber la cantidad optima de variables en algoritmo randomForest (ver ejemplo de randomForest AQUI), puede usarse la función tuneRF que viene incluida en este package. Esta función gráfica el error OOB en cada iteración, aumentando la cantidad de variables en cada paso (para función de OOB ver nota publicada AQUI).
En el siguiente gráfico se puede identificar que al llegar a 8 variables se estabiliza el error:
El script:
library(randomForest); library(MASS);data(Boston) # para data set # Grafico del error OOB en cada iteracion tuneRF(x = Boston, # data set de entrenamiento y = Boston$medv, # variable a predecir mtryStart = 1, # cantidad de variables inicial stepFactor = 2, # incremento de variables ntreeTry = 100, # cantidad arboles a ejecutar en cada iteracion improve = .01 # mejora minina del OOB para seguir iteraciones )
Referencia
https://stat.ethz.ch/pipermail/r-help/2007-March/127679.html
Muchas gracias
ResponderEliminarSolo un error de tipeo: "para defunción de OOB ver nota publicada AQUI"
Saludos
corregido. gracias por la observación.
Eliminarbuenas tardes, quisiera saber sobre la importancia de las variables en randomForest, mas que todo su interpretación y algún criterio para elegir las adecuadas.
ResponderEliminar