jueves, 18 de junio de 2015

Cantidad de variables en Random Forest

Para saber la cantidad optima de variables en algoritmo randomForest (ver ejemplo de randomForest AQUI), puede usarse la función tuneRF que viene incluida en este package. Esta función gráfica el error OOB en cada iteración, aumentando la cantidad de variables en cada paso (para función de OOB ver nota publicada AQUI).


En el siguiente gráfico se puede identificar que al llegar a 8 variables se estabiliza el error:

















El script:
library(randomForest);
library(MASS);data(Boston) # para data set
 
 
# Grafico del error OOB en cada iteracion
tuneRF(x = Boston,       # data set de entrenamiento 
       y = Boston$medv,  # variable a predecir
       mtryStart  = 1,   # cantidad de variables inicial 
       stepFactor = 2,   # incremento de variables
       ntreeTry   = 100, # cantidad arboles a ejecutar en cada iteracion
       improve    = .01  # mejora minina del OOB para seguir iteraciones
      )


Referencia
https://stat.ethz.ch/pipermail/r-help/2007-March/127679.html





3 comentarios:

  1. Muchas gracias

    Solo un error de tipeo: "para defunción de OOB ver nota publicada AQUI"

    Saludos

    ResponderEliminar
  2. buenas tardes, quisiera saber sobre la importancia de las variables en randomForest, mas que todo su interpretación y algún criterio para elegir las adecuadas.

    ResponderEliminar