Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Будівля @EurekaLabsAI. Раніше директор AI @ Tesla, команда засновників @ OpenAI, CS231n/PhD @ Stanford. Мені подобається тренувати великі глибокі 🧠🤖💥 нейронні мережі
Дифузійні відеомоделі, але тепер - **в реальному часі**!
Прості відеофільтри працюють у режимі реального часу, але можуть виконувати лише базове перефарбування та стилі. Моделі з дифузією відео (Veo та друзі) – це магія, але для їх генерації потрібно багато секунд/хвилин. MirageLSD – це магія в реальному часі. На відміну від простих відеофільтрів, дифузійні моделі насправді *розуміють*, на що вони дивляться, тому вони можуть розумно стилізувати всі частини стрічки (наприклад, надягати капелюхи на голови, або світлові шаблі в руки тощо). І ними можна керувати довільно, наприклад, за допомогою текстових підказок.
Настроювані інтелектуальні відеофільтри з часом відкривають безліч цікавих ідей:
- Перетворюйте трансляції з камери на альтернативні реальності
- режисувати та знімати власні фільми, розігруючи сцени з реквізитом. У реальному часі = > миттєвий зворотний зв'язок/огляд.
- Ігри з кодом Vibe навколо простих сфер/блоків, а потім використовуйте модель дифузії в реальному часі, щоб текстурувати свою гру, щоб зробити її красивою.
- стилізувати і налаштовувати будь-який відеопотік: ігри, відео, ... наприклад, Skyrim, але "БІЛЬШ EPIC"? DOOM II, але сучасна якість Unreal Engine з однією лише підказкою? Фільм жахів, але "милий, рожевий і тільки зайчики"? Я не знаю!
- Zoom фон дзвінка+++
- віртуальна примірка одягу в режимі реального часу
- Окуляри: наприклад, мультфільмізувати свій зір у реальному часі?
- тепер ми можемо створити дзеркало Гаррі Поттера в Erised, показуючи «сиру стрічку» вас у дзеркалі, але доповнене вашими найглибшими бажаннями (як робить висновок штучний інтелект).
- Не знаю, я, мабуть, сумую за найбільшим, стільки всього!
(Розкриття інформації: Я (дуже маленький) ангельський інвестор у Decart, я був схвильований, тому що imo ця технологія стане дуже хорошою дуже швидко, і вона здається загальною, потужною, але вона також технічно дуже складна. Вітаю команду з запуском!)

Decart18 лип., 04:44
Представляємо MirageLSD: першу модель штучного інтелекту з дифузією в прямому ефірі (LSD)
Вводьте будь-який відеопотік, з камери або відеочату на екран комп'ютера або гру, і перетворюйте його в будь-який світ за вашим бажанням в режимі реального часу (затримка <40 мс).
Ось як це працює (з демонстраційною версією, яку ви можете використовувати!):
326,62K
Я часто говорю про те, що 99% уваги – це увага LLM, а не людська. Як виглядає наукова робота для LLM замість людини? Це точно не pdf. Є величезне місце для надзвичайно цінного «дослідницького додатку», який з'ясовує це.

Michael Levin10 лип., 22:47
Мене постійно дратує, що я не встигаю прочитати потік крутих паперів, які все швидше і швидше приходять від чудових людей у відповідних сферах. Інші вчені стикаються з такою ж проблемою і також не мають часу читати більшість моїх довгих концептуальних робіт. Так для кого ж ми пишемо ці статті?
Я припускаю, що принаймні до тих пір, поки вони не зіткнуться з тією ж проблемою у своїй роботі, штучний інтелект буде єдиним, хто дійсно матиме пропускну здатність, щоб читати всі ці речі. Я не говорю конкретно про сьогоднішні мовні моделі – припустимо, що ми маємо на увазі будь-який неминучий штучний інтелект, який здатний читати літературу та впливати на дослідження (чи то розмовляючи з людьми, чи запускаючи платформи автоматизації лабораторій/роботів-науковців).
Отже, як ми маємо писати, знаючи, що багато нашої аудиторії буде штучним інтелектом (плюс кіборги, гіброти, доповнені люди тощо)? Можливо, ще занадто рано знати, що робити, але нам краще почати думати про це, тому що припускати, що нашою аудиторією завжди будуть сьогоднішні люди, здається неприйнятним. Якщо серйозно ставитися до ідеї про те, що одного дня впливова аудиторія буде зовсім іншою, і що речі, які ми пишемо зараз, у певному сенсі є тренувальним набором для справді різноманітних майбутніх істот, як змінюється наше письмо? Чи ні?
Що скажете ви @danfaggella @mpshanahan @Plinz @blaiseaguera ?
498,05K
Як створити процвітаючу спільноту з відкритим вихідним кодом, пишучи код, як це роблять 🦠 бактерії . Бактеріальний код (геноми) бувають:
- малі (кожен рядок коду коштує енергії)
- модульні (організовані в групи оперонів, що змінюються)
- самодостатні (легко «копіюються і вставляються» за допомогою горизонтального перенесення генів)
Якщо фрагменти коду невеликі, модульні, самодостатні та тривіальні для копіювання та вставки, спільнота може процвітати за рахунок горизонтального перенесення генів. Для будь-якої функції (гена) або класу (оперона), які ви пишете: чи можете ви уявити, що хтось йде "yoink", не знаючи решти вашого коду, або повинен імпортувати щось нове, щоб отримати вигоду? Чи може ваш код бути популярною суттю GitHub?
Цей посібник зі стилю кодування дозволив бактеріям колонізувати кожен екологічний куточок від холодного до гарячого, від кислого або лужного в глибинах Землі та вакууму космосу, поряд із божевільним різноманіттям вуглецевого анаболізму, енергетичного метаболізму тощо. Він чудово справляється зі швидким прототипуванням, але... Вона не може побудувати складне життя. Для порівняння, геном еукаріотів є значно більшим, складнішим, організованим і зв'язаним монорепо. Значно менш винахідливий, але необхідний для складної життєдіяльності - для побудови цілих органів і координації їх діяльності. Завдяки нашій перевазі інтелектуального дизайну можна скористатися обома перевагами. Створіть еукаріотичний монорепозиторійний кістяк, якщо потрібно, але максимізуйте бактеріальну ДНК.

538,7K
Гонка за LLM "когнітивне ядро" - модель в кілька мільярдів параметрів, яка максимально жертвує енциклопедичними знаннями заради здібностей. Він живе завжди включено і за замовчуванням на кожному комп'ютері як ядро персональних комп'ютерів LLM.
Повільно кристалізуються його особливості:
- Нативний мультимодальний текст/зображення/аудіо як на вході, так і на виході.
- Архітектура в стилі матрьошки, що дозволяє збільшувати і опускати можливості під час тестування.
- Міркування, також з циферблатом. (система 2)
- Агресивне використання інструментів.
- Тонке налаштування слотів LoRA на пристрої для тестового навчання, персоналізації та кастомізації.
- Делегує та двічі перевіряє лише потрібні частини з оракулами в хмарі, якщо інтернет доступний.
Він не знає, що правління Вільгельма Завойовника закінчилося 9 вересня 1087 року, але він смутно впізнає ім'я і може знайти дату. Він не може переказувати SHA-256 з порожнього рядка як e3b0c442..., але він може швидко обчислити його, якщо ви дійсно цього хочете.
Те, чого LLM персональним комп'ютерам не вистачає в широких світових знаннях і здатності вирішувати проблеми найвищого рівня, це компенсується наднизькою латентністю взаємодії (особливо в міру дозрівання мультимодальних систем), прямим/приватним доступом до даних і стану, безперервністю в автономному режимі, суверенітетом («не ваші ваги, не ваш мозок»). Тобто багато з тих же причин, з яких ми любимо, використовувати і купувати персональні комп'ютери замість того, щоб тонкі клієнти отримували доступ до хмари через віддалений робочий стіл або близько того.
1,03M
Найкращі
Рейтинг
Вибране
Актуальне ончейн
Популярні в X
Нещодавнє найкраще фінансування
Найбільш варте уваги