Aprendizaje por refuerzo

La biología del aprendizaje por refuerzo se puede encontrar en Condicionamiento operante y Recompensa

El aprendizaje por refuerzo (RL) consiste en enseñar a un agente informático a comportarse en un entorno diciéndole lo bien que lo hace. Es un área del aprendizaje automático inspirada en la psicología conductista.

El aprendizaje por refuerzo es diferente del aprendizaje supervisado porque nunca se muestran las entradas y salidas correctas. Además, el aprendizaje por refuerzo suele aprender sobre la marcha (aprendizaje en línea), a diferencia del aprendizaje supervisado. Esto significa que un agente tiene que elegir entre explorar o quedarse con lo que mejor conoce.

Introducción

Un sistema de aprendizaje por refuerzo se compone de una política ( π {\displaystyle \pi } $\pi$ ), una función de recompensa ( R {\displaystyle R} $R$ ), una función de valor ( v {\displaystyle v} $v$ ), y un modelo opcional del entorno.

Una política indica al agente lo que debe hacer en una determinada situación. Puede ser una simple tabla de reglas o una complicada búsqueda de la acción correcta. Las políticas pueden ser incluso estocásticas, lo que significa que en lugar de reglas la política asigna probabilidades a cada acción. Una política por sí misma puede hacer que un agente haga cosas, pero no puede aprender por sí misma.

Una función de recompensa define el objetivo de un agente. Toma un estado (o un estado y la acción realizada en ese estado) y devuelve un número llamado recompensa, que indica al agente lo bueno que es estar en ese estado. El trabajo del agente es obtener la mayor cantidad de recompensa posible a largo plazo. Si una acción produce una recompensa baja, el agente probablemente realizará una acción mejor en el futuro. La biología utiliza señales de recompensa, como el placer o el dolor, para asegurarse de que los organismos sigan vivos y se reproduzcan. Las señales de recompensa también pueden ser estocásticas, como una máquina tragaperras en un casino, donde a veces pagan y a veces no.

Una función de valor le dice a un agente cuánta recompensa obtendrá siguiendo una política π {\año de visualización \año de visualización \año} $\pi$ partiendo del estado s {\año de visualización s} $s$ . Representa lo deseable que es estar en un determinado estado. Como la función de valor no se le da al agente directamente, tiene que hacer una buena estimación basada en la recompensa que ha obtenido hasta ahora. La estimación de la función de valor es la parte más importante de la mayoría de los algoritmos de aprendizaje por refuerzo.

Un modelo es la copia mental del entorno que tiene el agente. Se utiliza para planificar acciones futuras.

Sabiendo esto, podemos hablar del bucle principal de un episodio de aprendizaje por refuerzo. El agente interactúa con el entorno en pasos de tiempo discretos. Piensa en ello como el "tic-tac" de un reloj. Con el tiempo discreto, las cosas sólo ocurren durante los "ticks" y los "tocks", y no entre ellos. En cada tiempo t = 0 , 1 , 2 , 3 , . {\displaystyle t=0,1,2,3,... } $t=0,1,2,3,...$ el agente observa el estado del entorno S t {\displaystyle S_{t}} $S_{t}$ y elige una acción A t {\displaystyle A_{t}} $A_{t}$ basada en una política π {\displaystyle \pi } $\pi$ . En el siguiente paso de tiempo, el agente recibe una señal de recompensa R t + 1 {\displaystyle R_{t+1}} $R_{t+1}$ y una nueva observación S t + 1 {\displaystyle S_{t+1}}. $S_{t+1}$ . La función de valor v ( S t ) {\displaystyle v(S_{t})} $v(S_{t})$ se actualiza utilizando la recompensa. Esto continúa hasta que se alcanza un estado terminal S T {estilo de visualización S_{T}}. $S_{T}$

Aprendizaje por refuerzo

Introducción

Búsqueda por letra