Abbiamo pubblicato un documento di posizione, insieme a molti altri nel settore, che chiede di lavorare sulla fedeltà del ragionamento a catena. Questa è un'opportunità per addestrare modelli che siano interpretabili. Stiamo investendo in quest'area in OpenAI, e questa prospettiva è riflessa nei nostri prodotti:
Jakub Pachocki
Jakub Pachocki16 lug, 00:23
Sono estremamente entusiasta del potenziale della fedeltà e dell'interpretabilità del chain-of-thought. Ha influenzato significativamente il design dei nostri modelli di ragionamento, a partire da o1-preview. Poiché i sistemi di intelligenza artificiale spendono più risorse computazionali, ad esempio, su problemi di ricerca a lungo termine, è fondamentale avere un modo per monitorare il loro processo interno. La meravigliosa proprietà dei CoT nascosti è che, mentre iniziano a essere ancorati in un linguaggio che possiamo interpretare, la procedura di ottimizzazione scalabile non è avversaria alla capacità dell'osservatore di verificare l'intento del modello - a differenza, ad esempio, della supervisione diretta con un modello di ricompensa. La tensione qui è che se i CoT non fossero nascosti per impostazione predefinita, e considerassimo il processo come parte dell'output dell'IA, ci sarebbe un grande incentivo (e in alcuni casi, necessità) a mettere supervisione su di esso. Credo che possiamo lavorare per ottenere il meglio di entrambi i mondi qui: addestrare i nostri modelli a essere bravi a spiegare il loro ragionamento interno, ma allo stesso tempo mantenere la capacità di verificarlo occasionalmente. La fedeltà del CoT è parte di una direzione di ricerca più ampia, che è l'addestramento per l'interpretabilità: impostare obiettivi in modo che almeno una parte del sistema rimanga onesta e monitorabile su scala. Stiamo continuando ad aumentare il nostro investimento in questa ricerca presso OpenAI.
158,44K