Ви не можете вивчити те, що не можете спробувати Збільште температуру, щоб навчити більше допитливих агентів. Просто і ефективно. З розділу "Дресирування взагалі допитливого агента": Ми розробляємо різноманітний набір завдань, де агенту LLM потрібен стратегічний збір інформації для успіху, а потім навчаємо LLM на самостійно згенерованих даних, щоб віддавати перевагу більш ефективним траєкторіям. Отримана в результаті вивчена поведінка може перенести нульовий постріл на невидимі завдання, демонструючи свій потенціал для побудови загальних агентів прийняття рішень.
241