Random forest


El bosque aleatorio es un algoritmo estadístico que se utiliza para agrupar puntos de datos en grupos funcionales. Cuando el conjunto de datos es grande y/o hay muchas variables, resulta difícil agrupar los datos porque no se pueden tener en cuenta todas las variables, por lo que el algoritmo también puede dar una cierta probabilidad de que un punto de datos pertenezca a un determinado grupo.



 

Pasos del algoritmo


Así es como se produce la agrupación.

  • De todo el conjunto de datos se toma un subconjunto (conjunto de entrenamiento).
  • El algoritmo agrupa los datos en grupos y subgrupos. Si se trazan líneas entre los puntos de datos de un subgrupo, y líneas que conectan los subgrupos en el grupo, etc., la estructura se parecería a un árbol. Esto se llama árbol de decisión.
    • En cada división o nodo de este cluster/árbol/dendrograma las variables son elegidas al azar por el programa para juzgar si los puntos de datos tienen una relación estrecha o no.
  • El programa hace múltiples árboles, es decir, un bosque. Cada árbol es diferente porque para cada división en un árbol, las variables se eligen al azar.
  • A continuación, se utiliza el resto del conjunto de datos (no el conjunto de entrenamiento) para predecir qué árbol de los bosques realiza la mejor clasificación de los puntos de datos (en el conjunto de datos se conoce la clasificación correcta).
  • El árbol con mayor poder de predicción se muestra como resultado del algoritmo.



 

Utilizando el algoritmo


En un algoritmo de bosque aleatorio, el número de árboles cultivados (ntree) y el número de variables que se utilizan en cada división (mtry) pueden elegirse a mano; los ajustes de ejemplo son 500 árboles, 71 variables.



 


AlegsaOnline.com - 2020 / 2023 - License CC3