DApp Store | Web3 Hub for hendelser og spill

Populære emner

Hvis du ikke trener CoT-ene dine til å se fine ut, kan du få litt sikkerhet ved å overvåke dem. Dette virker bra å gjøre! Men jeg er skeptisk til at dette vil fungere pålitelig nok til å være bærende i en sikkerhetssak. I tillegg til at RL skaleres opp, forventer jeg at CoT-er blir mindre og mindre lesbare.

For å være tydelig: CoT-overvåking er nyttig og kan la deg oppdage forekomster av modellens hackingbelønninger, falsk justering osv. Men fravær av dårlige «tanker» er ikke bevis på at modellen er på linje. Det er mange eksempler på prod LLM-er som har villedende CoT-er.

Mange alvorlige sikkerhetsfeil krever sannsynligvis resonnement, noe som ofte er vanskelig for LLM-er å gjøre uten å vise hånden i CoT. Sannsynligvis. Ofte. Mange forbehold.

Forfatterne av denne artikkelen sier dette; Jeg er bare mer pessimistisk enn dem om hvor nyttig dette vil være.

65,85K

Topp

Rangering

Favoritter

Trendende onchain

Trendende på X

Nylig toppfinansiering

Mest lagt merke til