Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Shane Gu
Gemini - RL, CoT, vícejazyčnost. Vedoucí pracovníci RS @GoogleDeepMind MTV. 🇯🇵 -narozen 🇨🇳🇨🇦 . Příklad: @OpenAI (JP: @shanegJP)
Shane Gu repostoval/a
🚨 Olympiáda matematika + AI:
Spustili jsme Gemini 2.5 Pro od Googlu na čerstvých problémech IMO 2025. Díky pečlivému pobízení a návrhu zřetězení vyřešil 5 ze 6 – což je pozoruhodné pro úkoly vyžadující hluboký vhled a kreativitu.
Model mohl vyhrát zlato! 🥇
#AI #Math #LLMs #IMO2025
116,75K
Asiaté: spravíme si vlastní nepořádek

Patrick Shen18. 7. 03:03
Při jejich spuštění Cluely tvrdil, že by to zničilo 9 průmyslových odvětví.
Jsme tu, abychom zabili jen jedno: podvádění.
Meet Truely – nástroj s otevřeným zdrojovým kódem, který v reálném čase označuje pohovory s pomocí umělé inteligence. Funguje se službami Zoom, Meets, Teams a dalšími.
Budoucnost online pohovorů je tady.
1,96K
Abyste mohli bojovat proti Asiatům, potřebujete Asiaty

Patrick Shen18. 7. 03:03
Při jejich spuštění Cluely tvrdil, že by to zničilo 9 průmyslových odvětví.
Jsme tu, abychom zabili jen jedno: podvádění.
Meet Truely – nástroj s otevřeným zdrojovým kódem, který v reálném čase označuje pohovory s pomocí umělé inteligence. Funguje se službami Zoom, Meets, Teams a dalšími.
Budoucnost online pohovorů je tady.
190
Proč spolu musí týmy před školením a po školení vycházet

David Mizrahi18. 7. 06:21
S radostí se s vámi podělíme o naši novou práci: "Jazykové modely se zlepšují, když předtrénovaná data odpovídají cílovým úkolům"
Ano, zní to samozřejmě (a je to tak!), ale obvykle se to děje pouze implicitně a nepřímo: intuitivně vyberte data → benchmarku → zpřesnit → opakovat.
Zajímalo nás: co se stane, když explicitně přiřadíme data z předtrénování k benchmarkům? Výsledkem je naprosto jednoduchý přístup, který poskytuje 2x+ výpočetních násobitelů na silných výchozích liniích a poskytuje nám principiální způsob, jak studovat, jak volby benchmarků utvářejí (a omezují!) možnosti modelu.
Bonus: rozsáhlé zákony škálování z trénování 500+ modelů, které odhalují, jak se optimální výběr dat vyvíjí s tím, jak se modely škálují.
🧵 Fotografie (1/14)

2,64K
Grok tým se zabývá internalizací lidských dat (např. nábor na pozici lektora AI pro japonštinu). Pravděpodobně více hraničních laboratoří přemýšlí o vlastnictví a provozování datové práce.

Koki Ikeda | SoftBank15. 7. 22:12
Společnost "xAI", která vyvíjí Grok, hledá japonského lektora umělé inteligence.
Tato práce zahrnuje označování a anotování japonských textových, zvukových a obrazových dat. Z Japonska můžete pracovat plně na dálku a mzda je na vysoké hodinové sazbě odpovídající americkým standardům.
🗣️ Rodilý mluvčí japonštiny
🧑 💻 Plně vzdálené
💰 Hodinová sazba 35–65 $ (5200-9600 jenů)
🕐 Smlouva na 6 měsíců (s možností prodloužení)

8,33K
Grok tým se zabývá internalizací lidských dat (např. nábor na pozici lektora AI pro japonštinu). Vzhledem k přechodu na umělou inteligenci na škálování pravděpodobně více hraničních laboratoří přemýšlí o vlastnictví a provozování datové práce.

Koki Ikeda | SoftBank15. 7. 22:12
Společnost "xAI", která vyvíjí Grok, hledá japonského lektora umělé inteligence.
Tato práce zahrnuje označování a anotování japonských textových, zvukových a obrazových dat. Z Japonska můžete pracovat plně na dálku a mzda je na vysoké hodinové sazbě odpovídající americkým standardům.
🗣️ Rodilý mluvčí japonštiny
🧑 💻 Plně vzdálené
💰 Hodinová sazba 35–65 $ (5200-9600 jenů)
🕐 Smlouva na 6 měsíců (s možností prodloužení)

284
Pokud jste v ICML a máte zájem o RL nebo vícejazyčnost, pozdravte @marafinkels! V posledních několika měsících jsme úzce spolupracovali na dodání metody RL, která by vyřešila kritický problém s kvalitou Gemini. Má také skvělé nápady na výzkum! Doufám, že Gemini x academia zůstanou v kontaktu.

Mara Finkelstein27. 11. 2024
LLM jsou obvykle vyhodnocovány s automatickými metrikami na standardních testovacích sadách, ale metriky + testovací sady jsou vyvíjeny nezávisle. To vyvolává zásadní otázku: Můžeme navrhnout automatické metriky specificky tak, aby vynikaly v testovacích sadách, které upřednostňujeme? Odpověď: Ano!

5,72K
Shane Gu repostoval/a
Nový příspěvek na blogu o asymetrii verifikace a "zákonu verifikátora":
Asymetrie verifikace – myšlenka, že některé úlohy je mnohem snazší ověřit než vyřešit – se stává důležitou myšlenkou, protože máme RL, který konečně funguje obecně.
Skvělými příklady asymetrie ověřování jsou věci jako sudoku, psaní kódu pro webové stránky jako instagram a problémy BrowseComp (trvá ~100 webových stránek, než najdete odpověď, ale snadno ji ověříte, jakmile odpověď máte).
Jiné úlohy mají téměř symetrii ověřování, jako je sečtení dvou 900místných čísel nebo některé skripty pro zpracování dat. Jiné úkoly je však mnohem snazší navrhnout pro ně proveditelná řešení, než je ověřit (např. ověření faktů v dlouhé eseji nebo stanovení nové diety jako "jezte pouze bizony").
Důležitou věcí, kterou je třeba pochopit o asymetrii ověřování, je, že asymetrii můžete zlepšit tím, že si předem uděláte nějakou práci. Například pokud máte klíč odpovědí na matematický problém nebo pokud máte testovací případy pro problém Leetcode. To značně zvyšuje množinu problémů s žádoucí verifikační asymetrií.
"Zákon ověřovatele" říká, že snadnost trénování umělé inteligence k vyřešení úkolu je úměrná tomu, jak ověřitelný úkol je. Všechny úkoly, které je možné řešit a snadno ověřit, budou řešeny umělou inteligencí. Schopnost vycvičit umělou inteligenci k řešení úkolu je úměrná tomu, zda má úkol následující vlastnosti:
1. Objektivní pravda: všichni se shodnou na tom, jaká jsou dobrá řešení
2. Rychlé ověření: jakékoli dané řešení lze ověřit během několika sekund
3. Škálovatelné ověření: lze ověřit mnoho řešení současně
4. Nízký šum: ověření je co nejtěsněji spojeno s kvalitou řešení
5. Průběžná odměna: je snadné seřadit dobrotu mnoha řešení pro jeden problém
Jedním ze zřejmých příkladů zákona ověřovatele je skutečnost, že většinu benchmarků navržených v AI lze snadno ověřit a dosud byla vyřešena. Všimněte si, že prakticky všechny populární benchmarky za posledních deset let vyhovovaly kritériím #1-4; Benchmarky, které nesplňují kritéria #1-4, by se těžko staly populárními.
Proč je ověřitelnost tak důležitá? Množství učení v AI, ke kterému dochází, je maximalizováno, když jsou splněna výše uvedená kritéria; Můžete udělat spoustu kroků se sklonem, kde každý krok má velký signál. Rychlost iterací je rozhodující – je to důvod, proč je pokrok v digitálním světě mnohem rychlejší než pokrok ve fyzickém světě.
AlphaEvolve od Googlu je jedním z největších příkladů využití asymetrie ověřování. Zaměřuje se na nastavení, která splňují všechna výše uvedená kritéria, a vedla k řadě pokroků v matematice a dalších oblastech. Na rozdíl od toho, co jsme dělali v oblasti umělé inteligence v posledních dvou desetiletích, je to nové paradigma v tom, že všechny problémy jsou optimalizovány v prostředí, kde je vlaková sada ekvivalentní testovací sadě.
Asymetrie ověřování je všudypřítomná a je vzrušující uvažovat o světě zubaté inteligence, kde se vyřeší vše, co můžeme změřit.

298,72K
Působivá práce, kterou může každý udělat, je používat LLM k zaznamenávání a digitalizaci co největší části vašich pracovních postupů, CoT a inspirace.
Kontextové inženýrství pro automatizaci a rozšíření sebe sama v životě a práci.

Thariq15. 7. 05:51
Deníky & To Dos
Mám několik vlastních příkazů:
/journal, který vytvoří nový záznam deníku pro daný den.
/todos Příkaz, který mi umožní vytvořit nový soubor To DOS nebo označit ostatní jako dokončené. To dos jsou uspořádány podle témat v souborech, např. '
Claude často prohledává můj kód, projekty atd. pro více kontextu, když přidám úkol, což je velmi užitečné.
785
Top
Hodnocení
Oblíbené
Co je v trendu on-chain
Populární na X
Nejvyšší finanční vklady v poslední době
Nejpozoruhodnější