lunes, 22 de junio de 2015

Imputacion con RandomForest

Si se tiene un data set con NA (datos faltantes, missing, etc..), puede usarse la función rfImpute del package randomForest para completar los NA de todas las variables.


Conceptualmente seria así:






# imputacion con rfImpute del package randomForest
 
 
library(randomForest);
# --------------------------------------------
## Crea valores NA aleatoriamente en data set iris.na
iris.na <- iris
for (i in 1:4) iris.na[sample(150, sample(50)), i] <- NA
 
# --------------------------------------------
## Imputa valores NA en nuevo data set
iris.imputed <- rfImpute(Species ~ ., iris.na)

NOTAS: 
La función rfImpute solo imputa variables numéricas y factores.
Para imputar solo una variable, ver método con regresión lineal publicado AQUI
El excel con imagenes se descarga AQUI


Referencia:
http://stackoverflow.com/questions/20537186/getting-predictions-after-rfimpute




No hay comentarios:

Publicar un comentario