トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Shane Gu
双子座 - RL、CoT、多言語。シニアスタッフRS @GoogleDeepMind MTV.🇯🇵 -生まれました🇨🇳🇨🇦。例:@OpenAI (JP:@shanegJP)
アジア人:私たちは自分たちの混乱を解決します

Patrick Shen7月18日 03:03
Cluelyは、その立ち上げ時に、9つの産業を殺すと主張しました。
私たちはただ一つ、チートを殺すためにここにいます。
True lyは、AI支援インタビューにリアルタイムでフラグを立てるオープンソースツールです。Zoom、Meets、Teamsなどで動作します。
オンライン面接の未来はここにあります。
1.97K
アジア人と戦うには、アジア人が必要です

Patrick Shen7月18日 03:03
Cluelyは、その立ち上げ時に、9つの産業を殺すと主張しました。
私たちはただ一つ、チートを殺すためにここにいます。
True lyは、AI支援インタビューにリアルタイムでフラグを立てるオープンソースツールです。Zoom、Meets、Teamsなどで動作します。
オンライン面接の未来はここにあります。
199
トレーニング前チームとトレーニング後チームが仲良くする必要がある理由

David Mizrahi7月18日 06:21
私たちの新しい研究「事前トレーニングデータがターゲットタスクと一致すると言語モデルが改善される」を共有できることを嬉しく思います
はい、当たり前のことのように聞こえますが(実際はそうです!)、通常、これは暗黙的かつ間接的にのみ起こり、ベンチマーク→データを直感的に選択し、改良→繰り返す→です。
私たちは、事前トレーニングデータをベンチマークと明示的に一致させるとどうなるのか疑問に思いました。その結果、強力なベースラインで 2x+ のコンピューティング乗数が得られ、ベンチマークの選択がモデルの機能をどのように形成 (および制約) するかを研究するための原則的な方法を提供する、非常に単純なアプローチが実現しました。
ボーナス: 500+ モデルのトレーニングによる広範なスケーリング法則により、モデルのスケーリングに応じて最適なデータ選択がどのように進化するかが明らかになります。
🧵 (1/14)

2.65K
Grokチームは、人間のデータ運用を内部化しています(例:日本人のAIチューターの役割の採用)。おそらく、より多くのフロンティアラボがデータ労働力の所有と運用について考えているでしょう。

Koki Ikeda | SoftBank7月15日 22:12
Grokを開発している「xAI」では、日本語のAIチューターを募集しています。
この仕事には、日本語のテキスト、オーディオ、およびビデオデータのラベル付けと注釈付けが含まれます。日本からフルリモートで仕事をすることができ、給与はアメリカの基準と同等の高時給です。
🗣️ 日本語を母国語とする人
🧑 💻 完全リモート
💰 時給35〜65ドル(5200〜9600円)
🕐 6ヶ月契約(延長の可能性あり)

8.34K
Grokチームは、人間のデータ運用を内部化しています(例:日本人のAIチューターの役割の採用)。Scale AIの移行を考えると、より多くのフロンティアラボがデータ労働力の所有と運用について考えるようになるでしょう。

Koki Ikeda | SoftBank7月15日 22:12
Grokを開発している「xAI」では、日本語のAIチューターを募集しています。
この仕事には、日本語のテキスト、オーディオ、およびビデオデータのラベル付けと注釈付けが含まれます。日本からフルリモートで仕事をすることができ、給与はアメリカの基準と同等の高時給です。
🗣️ 日本語を母国語とする人
🧑 💻 完全リモート
💰 時給35〜65ドル(5200〜9600円)
🕐 6ヶ月契約(延長の可能性あり)

293
ICMLに所属していて、RLや多言語に興味がある方は、ぜひ@marafinkelsに挨拶してください。私たちは過去数ヶ月間、Geminiの重大な品質問題を解決するためのRLメソッドを出荷するために緊密に協力しました。彼女は素晴らしい研究アイデアも持っています!双子座×アカデミアが連絡を取り合うことを願っています。

Mara Finkelstein2024年11月27日
LLM は通常、標準テスト セットの自動メトリックを使用して評価されますが、メトリック + テスト セットは独立して開発されます。これは重大な問題を提起します:優先順位を付けるテストセットで優れているように、特に自動メトリックを設計できますか?答え:はい!

5.73K
Shane Gu reposted
検証の非対称性と「検証者の法則」に関する新しいブログ記事:
検証の非対称性(一部のタスクは解決するよりも検証する方がはるかに簡単であるという考え)は、RLが最終的に一般的に機能するようになったため、重要なアイデアになりつつあります。
検証の非対称性の例としては、数独パズル、Instagram などの Web サイトのコード作成、BrowseComp 問題 (答えを見つけるのに ~100 の Web サイトが必要ですが、答えが得られたら簡単に検証できます) などがあります。
他のタスクは、2つの900桁の数字を合計したり、一部のデータ処理スクリプトを合計したりするなど、検証の対称性がほぼあります。しかし、他のタスクは、実行可能な解決策を提案する方が、それを検証するよりもはるかに簡単です(たとえば、長いエッセイの事実確認や、「バイソンだけを食べる」などの新しいダイエットを述べるなど)。
検証の非対称性について理解しておくべき重要なことは、事前に何らかの作業を行うことで非対称性を改善できるということです。たとえば、数学の問題の解答キーがある場合や、Leetcodeの問題のテストケースがある場合などです。これにより、望ましい検証の非対称性に関する一連の問題が大幅に増加します。
「検証者の法則」では、タスクを解決するためのAIのトレーニングの容易さは、タスクの検証可能性に比例すると述べています。解決可能で検証が容易なタスクは、すべてAIによって解決されます。タスクを解決するために AI をトレーニングする能力は、タスクに次のプロパティがあるかどうかに比例します。
1.客観的な真実:誰もが良い解決策が何であるかに同意します
2.検証が速い:任意のソリューションを数秒で検証できます
3.検証にスケーラブル:多くのソリューションを同時に検証できます
4. 低ノイズ:検証は、ソリューションの品質に可能な限り密接に関連しています
5.継続的な報酬:単一の問題に対して多くの解決策の良さをランク付けするのは簡単です
検証者の法則を明白に具体化しているのは、AIで提案されているほとんどのベンチマークは検証が容易で、これまでに解決されているという事実です。過去10年間に人気のあるベンチマークのほぼすべてが基準#1-4に適合していることに注意してください。基準#1-4を満たさないベンチマークは、人気を得るのに苦労するでしょう。
なぜ検証可能性がそれほど重要なのですか?AIで発生する学習量は、上記の基準が満たされたときに最大化されます。各ステップに多くの信号がある多くの勾配ステップを取ることができます。イテレーションのスピードは重要であり、デジタル世界の進歩が物理世界の進歩よりもはるかに速いのはそのためです。
GoogleのAlphaEvolveは、検証の非対称性を活用した最大の例の1つです。これは、上記のすべての基準に適合するセットアップに焦点を当てており、数学やその他の分野で多くの進歩をもたらしています。過去20年間にAIで行ってきたこととは異なり、列車セットがテストセットと同等である設定ですべての問題が最適化されるという新しいパラダイムです。
検証の非対称性はいたるところにあり、測定できるものはすべて解決されるギザギザの知能の世界を考えると、ワクワクします。

298.72K
誰もができるインパクトのある仕事は、LLMを使用して、ワークフロー、CoT、およびインスピレーションの多くをジャーナル化およびデジタル化することです。
生活や仕事で自分自身を自動化し、拡張するためのコンテキストエンジニアリング。

Thariq7月15日 05:51
ジャーナル& To Dos
私はいくつかのカスタムコマンドを持っています:
/journal コマンドを使用して、その日の新しいジャーナルエントリを作成します。
/todos は、新しい To Do を作成したり、他のユーザーを完了としてマークしたりできるコマンドです。To Doは、ファイル内のトピックごとに整理されています。例: '
クロードは、To Doを追加すると、私のコードやプロジェクトなどでより多くのコンテキストを検索することがよくありますが、これは非常に便利です。
794
トップ
ランキング
お気に入り
Trending onchain
Trending on X
Recent top fundings
Most notable