Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Shane Gu
Gemini - RL, CoT, мультиязычность. Старший персонал RS @GoogleDeepMind MTV. 🇯🇵 -родился 🇨🇳🇨🇦. ex: @OpenAI (JP: @shanegJP)
Shane Gu сделал репост
🚨 Олимпиадная математика + ИИ:
Мы запустили Google Gemini 2.5 Pro на свежих задачах IMO 2025. С помощью тщательной настройки и проектирования пайплайна он решил 5 из 6 — это замечательно для задач, требующих глубокого понимания и креативности.
Модель может выиграть золото! 🥇
#ИИ #Математика #LLMs #IMO2025
218,88K
Азиаты: мы сами исправим свои ошибки

Patrick Shen18 июл., 03:03
На момент запуска Cluely заявила, что убьет 9 отраслей.
Мы здесь, чтобы убить только одну: мошенничество.
Познакомьтесь с Truely — инструментом с открытым исходным кодом, который в реальном времени отмечает интервью с помощью ИИ. Работает с Zoom, Meets, Teams и другими.
Будущее онлайн-интервью уже здесь.
1,99K
Чтобы бороться с азиатами, нужны азиаты

Patrick Shen18 июл., 03:03
На момент запуска Cluely заявила, что убьет 9 отраслей.
Мы здесь, чтобы убить только одну: мошенничество.
Познакомьтесь с Truely — инструментом с открытым исходным кодом, который в реальном времени отмечает интервью с помощью ИИ. Работает с Zoom, Meets, Teams и другими.
Будущее онлайн-интервью уже здесь.
234
Почему командам предтренировки и посттренировки нужно ладить

David Mizrahi18 июл., 06:21
Рады поделиться нашей новой работой: "Языковые модели улучшаются, когда данные для предварительного обучения соответствуют целевым задачам"
Да, это звучит очевидно (и так оно и есть!), но обычно это происходит только неявно и косвенно: интуитивно выбираем данные → бенчмаркинг → уточнение → повторение.
Мы задумались: что произойдет, если мы явно сопоставим данные для предварительного обучения с бенчмарками? Результат — очень простой подход, который дает 2x+ множители вычислений по сравнению с сильными базовыми моделями и предоставляет нам принципиальный способ изучения того, как выбор бенчмарков формирует (и ограничивает!) возможности модели.
Бонус: обширные законы масштабирования от обучения 500+ моделей, которые показывают, как оптимальный выбор данных эволюционирует по мере масштабирования моделей.
🧵 (1/14)

2,66K
Команда Grok интернализирует операции с человеческими данными (например, набор на роль AI-наставника для японского языка). Вероятно, больше лабораторий на переднем крае задумываются о владении и управлении трудозатратами на данные.

Koki Ikeda | SoftBank15 июл., 22:12
"xAI," который разрабатывает Grok, ищет японского AI-наставника.
Работа включает в себя маркировку и аннотирование японских текстов, аудио и видеоданных. Вы можете работать полностью удаленно из Японии, а оплата будет на высоком почасовом уровне, эквивалентном американским стандартам.
🗣️ Носитель японского языка
🧑💻 Полностью удаленная работа
💰 Почасовая ставка от 35 до 65 долларов (5200-9600 иен)
🕐 Контракт на 6 месяцев (с возможностью продления)

8,37K
Команда Grok интернализирует операции с человеческими данными (например, набор на роль AI-наставника для японского языка). Учитывая переход Scale AI, вероятно, больше лабораторий на переднем крае подумают о владении и управлении трудозатратами на данные.

Koki Ikeda | SoftBank15 июл., 22:12
"xAI," который разрабатывает Grok, ищет японского AI-наставника.
Работа включает в себя маркировку и аннотирование японских текстов, аудио и видеоданных. Вы можете работать полностью удаленно из Японии, а оплата будет на высоком почасовом уровне, эквивалентном американским стандартам.
🗣️ Носитель японского языка
🧑💻 Полностью удаленная работа
💰 Почасовая ставка от 35 до 65 долларов (5200-9600 иен)
🕐 Контракт на 6 месяцев (с возможностью продления)

309
Если вы на ICML и интересуетесь RL или многоязычностью, пожалуйста, поздоровайтесь с @marafinkels! Мы тесно работали последние несколько месяцев, чтобы разработать метод RL для решения критической проблемы качества Gemini. У нее также отличные идеи для исследований! Надеюсь, Gemini и академическое сообщество останутся на связи.

Mara Finkelstein27 нояб. 2024 г.
Обычно LLM оцениваются с помощью автоматических метрик на стандартных тестовых наборах, но метрики и тестовые наборы разрабатываются независимо. Это поднимает важный вопрос: можем ли мы разработать автоматические метрики, которые будут особенно эффективны на тех тестовых наборах, которые мы приоритизируем? Ответ: Да!

5,74K
Shane Gu сделал репост
Новая запись в блоге о асимметрии верификации и "законе верификатора":
Асимметрия верификации — это идея о том, что некоторые задачи гораздо легче проверить, чем решить, и она становится важной концепцией, поскольку у нас есть RL, который наконец работает в общем случае.
Отличные примеры асимметрии верификации — это такие вещи, как судоку, написание кода для веб-сайта, подобного Instagram, и задачи BrowseComp (требуется ~100 веб-сайтов, чтобы найти ответ, но легко проверить, когда у вас есть ответ).
Другие задачи имеют почти симметрию верификации, такие как сложение двух 900-значных чисел или некоторые скрипты обработки данных. Однако другие задачи гораздо легче предложить осуществимые решения, чем проверить их (например, проверка фактов длинного эссе или утверждение новой диеты, такой как "едим только бизонов").
Важно понимать, что асимметрию верификации можно улучшить, выполнив некоторую работу заранее. Например, если у вас есть ключ ответов к математической задаче или если у вас есть тестовые случаи для задачи Leetcode. Это значительно увеличивает набор задач с желаемой асимметрией верификации.
"Закон верификатора" гласит, что легкость обучения ИИ решать задачу пропорциональна тому, насколько проверяемой является эта задача. Все задачи, которые можно решить и легко проверить, будут решены ИИ. Способность обучать ИИ решать задачу пропорциональна тому, имеет ли задача следующие свойства:
1. Объективная истина: все согласны с тем, что такое хорошие решения
2. Быстрая верификация: любое данное решение можно проверить за несколько секунд
3. Масштабируемая верификация: многие решения можно проверить одновременно
4. Низкий уровень шума: верификация как можно более тесно связана с качеством решения
5. Непрерывная награда: легко оценить качество многих решений для одной проблемы
Одним очевидным воплощением закона верификатора является тот факт, что большинство предложенных в ИИ бенчмарков легко проверить и до сих пор были решены. Обратите внимание, что практически все популярные бенчмарки за последние десять лет соответствуют критериям #1-4; бенчмарки, которые не соответствуют критериям #1-4, будут испытывать трудности с тем, чтобы стать популярными.
Почему проверяемость так важна? Объем обучения в ИИ максимизируется, когда вышеуказанные критерии удовлетворены; вы можете сделать много градиентных шагов, где каждый шаг имеет много сигнала. Скорость итерации критична — это причина, по которой прогресс в цифровом мире был гораздо быстрее, чем прогресс в физическом мире.
AlphaEvolve от Google является одним из величайших примеров использования асимметрии верификации. Он сосредоточен на настройках, которые соответствуют всем вышеуказанным критериям, и привел к ряду достижений в математике и других областях. В отличие от того, что мы делали в ИИ за последние два десятилетия, это новая парадигма, в которой все задачи оптимизируются в условиях, где обучающая выборка эквивалентна тестовой выборке.
Асимметрия верификации повсюду, и это захватывающе — представить мир зазубренного интеллекта, где все, что мы можем измерить, будет решено.

298,72K
Влиятельная работа, которую может сделать каждый, — это использовать LLM для ведения журнала и цифровизации как можно большей части вашего рабочего процесса, CoTs и вдохновения.
Контекстная инженерия для автоматизации и дополнения себя в жизни и работе.

Thariq15 июл., 05:51
Журналы и Задачи
У меня есть несколько пользовательских команд:
/журнал команда, которая создаст новую запись в журнале на день.
/задачи команда, которая позволит мне создавать новые задачи или отмечать другие как выполненные. Задачи организованы по темам в файлах, например, ‘
Клод часто ищет мой код, проекты и т. д. для получения дополнительного контекста, когда я добавляю задачу, что очень полезно.
809
Топ
Рейтинг
Избранное
В тренде ончейн
В тренде в Х
Самые инвестируемые
Наиболее известные