Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sono estremamente entusiasta del potenziale della fedeltà e dell'interpretabilità del chain-of-thought. Ha influenzato significativamente il design dei nostri modelli di ragionamento, a partire da o1-preview.
Poiché i sistemi di intelligenza artificiale spendono più risorse computazionali, ad esempio, su problemi di ricerca a lungo termine, è fondamentale avere un modo per monitorare il loro processo interno. La meravigliosa proprietà dei CoT nascosti è che, mentre iniziano a essere ancorati in un linguaggio che possiamo interpretare, la procedura di ottimizzazione scalabile non è avversaria alla capacità dell'osservatore di verificare l'intento del modello - a differenza, ad esempio, della supervisione diretta con un modello di ricompensa.
La tensione qui è che se i CoT non fossero nascosti per impostazione predefinita, e considerassimo il processo come parte dell'output dell'IA, ci sarebbe un grande incentivo (e in alcuni casi, necessità) a mettere supervisione su di esso. Credo che possiamo lavorare per ottenere il meglio di entrambi i mondi qui: addestrare i nostri modelli a essere bravi a spiegare il loro ragionamento interno, ma allo stesso tempo mantenere la capacità di verificarlo occasionalmente.
La fedeltà del CoT è parte di una direzione di ricerca più ampia, che è l'addestramento per l'interpretabilità: impostare obiettivi in modo che almeno una parte del sistema rimanga onesta e monitorabile su scala. Stiamo continuando ad aumentare il nostro investimento in questa ricerca presso OpenAI.

16 lug, 00:09
I modelli di ragionamento moderni pensano in inglese semplice.
Monitorare i loro pensieri potrebbe essere uno strumento potente, ma fragile, per supervisionare i futuri sistemi di intelligenza artificiale.
Io e i ricercatori di molte organizzazioni pensiamo che dovremmo lavorare per valutare, preservare e persino migliorare la monitorabilità del CoT.

264,15K
Principali
Ranking
Preferiti