Anda tidak dapat mempelajari apa yang tidak dapat Anda cicipi Naikkan suhu untuk melatih agen yang lebih penasaran. Sederhana dan efektif. Dari "Melatih Agen yang Umumnya Penasaran": Kami merancang beragam tugas di mana agen LLM membutuhkan pengumpulan informasi strategis untuk berhasil, kemudian melatih LLM pada data yang dihasilkan sendiri untuk memilih lintasan berkinerja lebih tinggi. Perilaku yang dihasilkan yang dipelajari dapat mentransfer zero-shot ke tugas yang tidak terlihat, menunjukkan potensinya untuk membangun agen pengambilan keputusan umum.
222