No puedes aprender aquello que no puedes muestrear Aumenta la temperatura para entrenar agentes más curiosos. Simple y efectivo. De “Entrenando a un Agente Generalmente Curioso”: Diseñamos un conjunto diverso de tareas donde un agente LLM necesita recopilar información estratégica para tener éxito, luego entrenamos un LLM con datos autogenerados para preferir trayectorias de mayor rendimiento. El comportamiento resultante aprendido puede transferirse sin entrenamiento previo a tareas no vistas, mostrando su potencial para construir agentes de toma de decisiones generales.
249