🆕 Formazione di Ragionatori Agenti La novità di oggi è il trionfante ritorno di @willccbb sul palco AIE nella track RL - ora come parte di @PrimeIntellect! Molti costruttori di agenti stanno fondamentalmente facendo "RL a mano". Spiega concisamente gli attuali algoritmi RL in una slide (!) ma poi sostiene che RL - in particolare per modelli aperti - è bloccato nel territorio delle domande e risposte su matematica e codice. La nuova tendenza è il RL agentico multi-turno, e la nuova libreria di verificatori è l'ultimissimo toolkit per costruire un agente e trasformarlo in un ciclo RL. Più persone dovrebbero esplorare la costruzione di modelli di agenti migliori e Will + PI stanno rendendo possibile tutto ciò per tutti!
feedsImage
47,56K