Profundo Q-Learning:
”
Con probabilidad E seleccionamos una acción aleatoria por curiosidad.
de lo contrario, seleccione la acción que maximice la función de valor de acción asumida Q (que denota la ganancia acumulada a largo plazo de jugar el juego).
- ¿Qué hace la gente cuando empieza a perder pasión en su campo?
- Cómo ser más valiente arriesgando
- ¿Fue Joseph Goebbels un narcisista?
- ¿Cuál es la diferencia entre sentirse inadecuado y sentirse inferior?
- ¿Qué es lo que te molesta y subconscientemente ignoras todos los días?
”
El parámetro E se llama compensación de exploración y explotación.
Cuanto más alta es E, más curioso es el comportamiento del algoritmo.