Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Reddit був великим джерелом навчальних даних для OpenAI. Вранці мені доводиться більше копати. Чи знає хтось про юридичну угоду між Reddit та OpenAI щодо використання цих даних?
І які права, якщо такі є, роблять/повинні мати користувачі Reddit щодо використання цих даних?

19 лип., 09:50
Уявіть, що якщо через якийсь пост, який ви написали багато років тому на reddit, stackexchange, у своєму власному блозі тощо, ви зможете отримати частку доходу, який отримують o3 або sonnet або постачальники послуг хостингу LLM з відкритим вихідним кодом.
Якщо дані, створені людиною в Інтернеті, є викопним паливом для досягнення AGI, люди повинні мати можливість отримувати отриману цінність пропорційно своєму внеску.
Натомість те, що відбувається зараз, є
> великі технологічні компанії платять грудки за створення наборів даних і отримання ліцензії
> побудувати модель фундаменту
> прив'яжіть API для стягнення $/місяць або $ за N токенів
> отримати дохід, залучити приватні оцінки на $10 або $100 млрд, ціни на акції зростають
Люди-OG, чиї дані були критично важливими, нічого не отримують від цих гігантських захоплень значень.
Скептики можуть сказати: «О, ми тепер використовуємо синтетичні дані для навчання, тому що вважаємо ШІ кращим за людей». Але, брате, ви просто використовуєте більші моделі, зроблені раніше з людських даних, щоб зробити синтетичні дані для підготовки менших, але розумніших моделей. Це просто означає, що менша модель не існувала б без першої моделі і, згідно з генологією, людських даних OG. Знову ж таки, людські OG заслуговують на те, щоб частина цінності була зафіксована в їхньому гаманці.
У зв'язку з тим, що RLHF стає все більш критичним для посттренування, користувачів просять натискати великі пальці вгору або вниз в інтерфейсах чат-ботів. Ця перевага використовується для ще більшого вдосконалення моделі, яка потім використовується для стягнення більше $/місяць або $ за N токенів для наступного випуску LLM. Але ви, так, люди, не в змозі побачити, що будь-яка з цих цінностей передається вашому гаманцю.
Очевидно, що доступ до передових графічних процесорів і викопного палива людських даних мав вирішальне значення для створення найбільш конкурентоспроможних пропозицій LLM. Проте лише акціонери tsmc, nvidia, google тощо, а також венчурні капіталісти, ангельські інвестори openai, anthropic тощо отримують всю вартість. Нормальні люди, чий цифровий слід був використаний, в кінцевому підсумку отримують арахіс.
Незалежно від того, яку дату експерти в галузі штучного інтелекту або сучасні філософи встановлюють для досягнення AGI, шлях до AGI вистилається крадіжкою прав власності людей на їхні дані або цифрові дії.
Ось найважливіша порада: як ми можемо побудувати ринок даних без ризику контрагента, який здатний безперервно вимірювати внесок кожної одиниці цифрової дії людини в отримання цінності будь-якої комерційної моделі та розподіляти роялті назад людині? Уявіть, що ми матимемо конвеєр, де будь-який із цих гігантів зможе використовувати людські дані для створення все кращих і кращих моделей, а також гарантувати, що звичайні люди зможуть отримувати належні виплати від своїх цифрових дій. Яким же чудовим буде цей світ! Справедливий розподіл.
Просто роздуми в пізню п'ятницю!
420
Найкращі
Рейтинг
Вибране