¿Hay algún algoritmo que modele el comportamiento de la curiosidad?

Profundo Q-Learning:

Con probabilidad E seleccionamos una acción aleatoria por curiosidad.

de lo contrario, seleccione la acción que maximice la función de valor de acción asumida Q (que denota la ganancia acumulada a largo plazo de jugar el juego).

El parámetro E se llama compensación de exploración y explotación.

Cuanto más alta es E, más curioso es el comportamiento del algoritmo.