Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Shane Gu
Близнюки - RL, CoT, багатомовність. Старший склад РС @GoogleDeepMind МТВ. 🇯🇵 -народився 🇨🇳🇨🇦. Наприклад: @OpenAI (Японія: @shanegJP)
Користувач Shane Gu поділився
🚨 Олімпіада з математики + штучний інтелект:
Ми запустили Gemini 2.5 Pro від Google на свіжих проблемах IMO 2025. Завдяки ретельному підказкам і дизайну воронки продажів він вирішив 5 з 6 — чудово підходить для завдань, що вимагають глибокого розуміння та креативності.
Модель могла виграти золото! 🥇
#AI #Math #LLMs #IMO2025
116,75K
Азіати: ми самі виправимо безлад

Patrick Shen18 лип., 03:03
Під час їхнього запуску Cluely стверджувала, що це вб'є 9 галузей.
Ми тут для того, щоб убити лише одного: обман.
Meet Truely — інструмент з відкритим вихідним кодом, який позначає інтерв'ю за допомогою штучного інтелекту в режимі реального часу. Працює з Zoom, Meets, Teams тощо.
Майбутнє онлайн-інтерв'ю вже тут.
1,97K
Щоб боротися з азіатами, потрібні азіати

Patrick Shen18 лип., 03:03
Під час їхнього запуску Cluely стверджувала, що це вб'є 9 галузей.
Ми тут для того, щоб убити лише одного: обман.
Meet Truely — інструмент з відкритим вихідним кодом, який позначає інтерв'ю за допомогою штучного інтелекту в режимі реального часу. Працює з Zoom, Meets, Teams тощо.
Майбутнє онлайн-інтерв'ю вже тут.
197
Чому команди до та після тренування мають ладнати

David Mizrahi18 лип., 06:21
Раді поділитися нашою новою роботою: "Мовні моделі вдосконалюються, коли дані попереднього навчання відповідають цільовим завданням"
Так, це звучить очевидно (і це так!), але зазвичай це відбувається лише неявно і опосередковано: інтуїтивно вибираєте дані → бенчмарку → уточнюєте → повторюєте.
Ми задалися питанням: що станеться, якщо ми явно зіставимо дані передтренувальної підготовки з бенчмарками? Результатом є надзвичайно простий підхід, який дає множники обчислень 2x+ над сильними базовими лініями та дає нам принциповий спосіб вивчити, як вибір еталонних показників формує (і обмежує!) можливості моделі.
Бонус: широкі закони масштабування з навчання 500+ моделей, які показують, як оптимальний відбір даних еволюціонує в міру масштабування моделей.
🧵 (1/14)

2,65K
Команда Grok вивчає людські дані (наприклад, набір на посаду репетитора зі штучного інтелекту для японців). Швидше за все, все більше передових лабораторій думають про володіння та управління робочою силою з обробки даних.

Koki Ikeda | SoftBank15 лип., 22:12
"xAI", яка розробляє Grok, шукає японського репетитора зі штучного інтелекту.
Робота включає маркування та анотування японських текстових, аудіо- та відеоданих. Ви можете працювати повністю віддалено з Японії, а оплата здійснюється за високою погодинною ставкою, еквівалентною американським стандартам.
🗣️ Носій японської мови
🧑 💻 Повністю віддалений
💰 Погодинна ставка $35–65 (5200-9600 ієн)
🕐 Контракт на 6 місяців (з можливістю продовження)

8,34K
Команда Grok вивчає людські дані (наприклад, набір на посаду репетитора зі штучного інтелекту для японців). З огляду на перехід на масштабний штучний інтелект, ймовірно, все більше передових лабораторій думають про володіння та управління робочою силою з даними.

Koki Ikeda | SoftBank15 лип., 22:12
"xAI", яка розробляє Grok, шукає японського репетитора зі штучного інтелекту.
Робота включає маркування та анотування японських текстових, аудіо- та відеоданих. Ви можете працювати повністю віддалено з Японії, а оплата здійснюється за високою погодинною ставкою, еквівалентною американським стандартам.
🗣️ Носій японської мови
🧑 💻 Повністю віддалений
💰 Погодинна ставка $35–65 (5200-9600 ієн)
🕐 Контракт на 6 місяців (з можливістю продовження)

291
Якщо ви працюєте в ICML і цікавитеся RL або багатомовністю, будь ласка, привітайтеся з @marafinkels! Протягом останніх кількох місяців ми тісно співпрацювали, щоб випустити метод RL для вирішення критичної проблеми з якістю Gemini. У неї також є чудові дослідницькі ідеї! Сподіваюся, Gemini x academia залишаться на зв'язку.

Mara Finkelstein27 лист. 2024 р.
LLM зазвичай оцінюються за допомогою автоматичних метрик на стандартних тестових наборах, але метрики + тестові набори розробляються незалежно. У зв'язку з цим постає важливе питання: чи можемо ми розробляти автоматичні показники спеціально для того, щоб досягти успіху в тестових наборах, які ми ставимо пріоритетними? Відповідь: Так!

5,73K
Користувач Shane Gu поділився
Новий допис у блозі про асиметрію верифікації та "закон верифікатора":
Асиметрія верифікації – ідея про те, що деякі завдання набагато легше перевірити, ніж вирішити – стає важливою ідеєю, оскільки ми маємо РЛ, який нарешті працює в цілому.
Чудовими прикладами асиметрії верифікації є такі речі, як головоломки судоку, написання коду для веб-сайту на кшталт instagram та проблеми BrowseComp (потрібно ~100 веб-сайтів, щоб знайти відповідь, але легко перевірити, як тільки ви отримаєте відповідь).
Інші завдання мають майже симетрію верифікації, наприклад, підсумовування двох 900-значних чисел або деякі сценарії обробки даних. Проте для інших завдань набагато простіше запропонувати можливі рішення, ніж перевірити їх (наприклад, перевірка фактів у довгому есе або заява про нову дієту на кшталт «їжте лише зубра»).
Важливо розуміти про асиметрію верифікації те, що ви можете покращити асиметрію, попередньо виконавши певну роботу. Наприклад, якщо у вас є ключ відповіді на математичну задачу або якщо у вас є тест-кейси для задачі Leetcode. Це значно збільшує набір проблем з бажаною асиметрією верифікації.
«Закон верифікатора» стверджує, що легкість навчання ШІ для вирішення завдання пропорційна тому, наскільки це завдання піддається перевірці. Всі завдання, які можливо вирішити і легко перевірити, будуть вирішені за допомогою штучного інтелекту. Можливість навчити ШІ вирішувати завдання пропорційно тому, чи має завдання такі властивості:
1. Об'єктивна істина: всі згодні з тим, що таке хороші рішення
2. Швидка перевірка: будь-яке рішення можна перевірити за кілька секунд
3. Масштабується для верифікації: багато рішень можна перевірити одночасно
4. Низький рівень шуму: верифікація максимально тісно корелює з якістю рішення
5. Безперервна винагорода: легко оцінити ефективність багатьох рішень для однієї проблеми
Одним з очевидних проявів закону верифікатора є той факт, що більшість контрольних показників, запропонованих в ШІ, легко перевірити і поки що вирішені. Зверніть увагу, що практично всі популярні бенчмарки за останні десять років підходять під критерії #1-4; Бенчмарки, які не відповідають критеріям #1-4, будуть боротися за те, щоб стати популярними.
Чому верифікованість така важлива? Обсяг навчання в ШІ, що відбувається, максимізується, коли задовольняються вищезазначені критерії; Ви можете зробити багато градієнтних кроків, де кожен крок має багато сигналу. Швидкість ітерацій має вирішальне значення — це причина того, що прогрес у цифровому світі був набагато швидшим, ніж прогрес у фізичному світі.
AlphaEvolve від Google є одним із найкращих прикладів використання асиметрії верифікації. Він зосереджений на установках, які відповідають усім вищезазначеним критеріям, і призвів до низки досягнень у математиці та інших галузях. На відміну від того, що ми робили в штучному інтелекті протягом останніх двох десятиліть, це нова парадигма, яка полягає в тому, що всі проблеми оптимізуються в умовах, коли набір поїздів еквівалентний тестовому набору.
Асиметрія верифікації є скрізь, і це захоплююче розглядати світ зубчастого інтелекту, де все, що ми можемо виміряти, буде вирішено.

298,72K
Ефективна робота, яку може виконати кожен, — це використовувати LLM для ведення щоденника та оцифрування якомога більшої частини вашого робочого процесу, CoT та натхнення.
Контекст-інжиніринг для автоматизації та доповнення себе в житті та роботі.

Thariq15 лип., 05:51
Журнали та справи
У мене є кілька призначених для користувача команд:
/journal, яка створить новий запис у журналі за день.
/todos — команда, яка дозволить мені створювати нові завдання або позначати інші як виконані. Завдання впорядковані за темами у файлах, наприклад '
Клод часто шукає мій код, проекти і т.д. для отримання більшого контексту, коли я додаю завдання, що дуже корисно.
792
Найкращі
Рейтинг
Вибране
Актуальне ончейн
Популярні в X
Нещодавнє найкраще фінансування
Найбільш варте уваги