Ми опублікували позиційний документ, в якому взяли участь багато представників галузі, закликаючи працювати над вірністю ланцюжка думок. Це можливість навчити моделі бути інтерпретованими. Ми інвестуємо в цю сферу в OpenAI, і ця перспектива відображена в наших продуктах:
Jakub Pachocki
Jakub Pachocki16 лип., 00:23
Я надзвичайно захоплений потенціалом вірності та інтерпретації ланцюга думок. Це суттєво вплинуло на дизайн наших моделей міркувань, починаючи з o1-preview. Оскільки системи штучного інтелекту витрачають більше на роботу обчислень, наприклад, над довгостроковими дослідницькими проблемами, дуже важливо, щоб у нас був якийсь спосіб моніторингу їх внутрішнього процесу. Чудова властивість прихованих CoT полягає в тому, що, хоча вони починаються на мові, яку ми можемо інтерпретувати, масштабована процедура оптимізації не є змагальною для здатності спостерігача перевірити намір моделі - на відміну, наприклад, від прямого нагляду з моделлю винагороди. Напруга тут полягає в тому, що якщо CoT не були приховані за замовчуванням, і ми розглядаємо процес як частину виводу ШІ, є багато стимулів (а в деяких випадках і необхідність) встановити на нього нагляд. Я вважаю, що ми можемо працювати над тим, щоб досягти найкращого з обох світів тут – навчити наших моделей чудово пояснювати свої внутрішні міркування, але в той же час зберігати здатність час від часу перевіряти їх. Вірність CoT є частиною ширшого дослідницького напрямку, який полягає в навчанні інтерпретації: постановці цілей таким чином, щоб принаймні частина системи залишалася чесною та підлягала моніторингу за допомогою масштабу. Ми продовжуємо збільшувати наші інвестиції в це дослідження в OpenAI.
158,5K