トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
検証の非対称性と「検証者の法則」に関する新しいブログ記事:
検証の非対称性(一部のタスクは解決するよりも検証する方がはるかに簡単であるという考え)は、RLが最終的に一般的に機能するようになったため、重要なアイデアになりつつあります。
検証の非対称性の例としては、数独パズル、Instagram などの Web サイトのコード作成、BrowseComp 問題 (答えを見つけるのに ~100 の Web サイトが必要ですが、答えが得られたら簡単に検証できます) などがあります。
他のタスクは、2つの900桁の数字を合計したり、一部のデータ処理スクリプトを合計したりするなど、検証の対称性がほぼあります。しかし、他のタスクは、実行可能な解決策を提案する方が、それを検証するよりもはるかに簡単です(たとえば、長いエッセイの事実確認や、「バイソンだけを食べる」などの新しいダイエットを述べるなど)。
検証の非対称性について理解しておくべき重要なことは、事前に何らかの作業を行うことで非対称性を改善できるということです。たとえば、数学の問題の解答キーがある場合や、Leetcodeの問題のテストケースがある場合などです。これにより、望ましい検証の非対称性に関する一連の問題が大幅に増加します。
「検証者の法則」では、タスクを解決するためのAIのトレーニングの容易さは、タスクの検証可能性に比例すると述べています。解決可能で検証が容易なタスクは、すべてAIによって解決されます。タスクを解決するために AI をトレーニングする能力は、タスクに次のプロパティがあるかどうかに比例します。
1.客観的な真実:誰もが良い解決策が何であるかに同意します
2.検証が速い:任意のソリューションを数秒で検証できます
3.検証にスケーラブル:多くのソリューションを同時に検証できます
4. 低ノイズ:検証は、ソリューションの品質に可能な限り密接に関連しています
5.継続的な報酬:単一の問題に対して多くの解決策の良さをランク付けするのは簡単です
検証者の法則を明白に具体化しているのは、AIで提案されているほとんどのベンチマークは検証が容易で、これまでに解決されているという事実です。過去10年間に人気のあるベンチマークのほぼすべてが基準#1-4に適合していることに注意してください。基準#1-4を満たさないベンチマークは、人気を得るのに苦労するでしょう。
なぜ検証可能性がそれほど重要なのですか?AIで発生する学習量は、上記の基準が満たされたときに最大化されます。各ステップに多くの信号がある多くの勾配ステップを取ることができます。イテレーションのスピードは重要であり、デジタル世界の進歩が物理世界の進歩よりもはるかに速いのはそのためです。
GoogleのAlphaEvolveは、検証の非対称性を活用した最大の例の1つです。これは、上記のすべての基準に適合するセットアップに焦点を当てており、数学やその他の分野で多くの進歩をもたらしています。過去20年間にAIで行ってきたこととは異なり、列車セットがテストセットと同等である設定ですべての問題が最適化されるという新しいパラダイムです。
検証の非対称性はいたるところにあり、測定できるものはすべて解決されるギザギザの知能の世界を考えると、ワクワクします。

298.77K
トップ
ランキング
お気に入り