Non puoi apprendere ciò che non puoi campionare Aumenta la temperatura per addestrare agenti più curiosi. Semplice ed efficace. Da “Addestrare un Agente Generalmente Curioso”: Progettiamo un insieme diversificato di compiti in cui un agente LLM ha bisogno di raccogliere informazioni strategiche per avere successo, quindi addestriamo un LLM su dati auto-generati per preferire traiettorie ad alte prestazioni. Il comportamento risultante appreso può trasferirsi zero-shot a compiti mai visti, dimostrando il suo potenziale per costruire agenti di decisione generali.
225