Je partage ici les préoccupations de Leike (et d'autres), mais je suis entièrement d'accord pour dire que c'est une excellente chose à faire et j'endosse par la présente le document.
Jan Leike
Jan Leike16 juil., 04:27
Si vous ne formez pas vos CoTs à avoir une belle apparence, vous pourriez obtenir une certaine sécurité en les surveillant. Cela semble bon à faire ! Mais je suis sceptique quant à la fiabilité de cette méthode pour être suffisamment solide dans un cas de sécurité. De plus, à mesure que l'IA par renforcement est mise à l'échelle, je m'attends à ce que les CoTs deviennent de moins en moins lisibles.
11,99K