Du kan inte lära dig det som du inte kan prova Skruva upp temperaturen för att träna fler nyfikna agenter. Enkelt och effektivt. Från "Träna en allmänt nyfiken agent": Vi utformar en mångsidig uppsättning uppgifter där en LLM-agent behöver strategisk informationsinsamling för att lyckas, sedan träna en LLM på självgenererad data för att föredra högre presterande banor. Det resulterande beteendet som lärs in kan överföras till osynliga uppgifter, vilket visar dess potential att bygga upp allmänna beslutsfattande agenter.
264