Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Shane Gu
Gemeni - RL, CoT, multilingv. Personalul superior RS @GoogleDeepMind MTV. 🇯🇵 -născut 🇨🇳🇨🇦 . ex: @OpenAI (JP: @shanegJP)
Shane Gu a repostat
🚨 Olimpiadă matematică + AI:
Am rulat Gemini 2.5 Pro de la Google pe noile probleme IMO 2025. Cu o solicitare atentă și un design al conductei, a rezolvat 5 din 6 - remarcabil pentru sarcinile care necesită o perspectivă profundă și creativitate.
Modelul ar putea câștiga aurul! 🥇
#AI #Math #LLMs #IMO2025
218,92K
Asiatici: ne vom repara propria mizerie

Patrick Shen18 iul., 03:03
La lansare, Cluely a susținut că va ucide 9 industrii.
Suntem aici pentru a ucide doar unul: înșelăciunea.
Faceți cunoștință cu Truely - instrumentul open-source care semnalează interviurile asistate de inteligență artificială în timp real. Funcționează cu Zoom, Meets, Teams și multe altele.
Viitorul interviurilor online este aici.
2,03K
Pentru a lupta cu asiaticii, ai nevoie de asiatici

Patrick Shen18 iul., 03:03
La lansare, Cluely a susținut că va ucide 9 industrii.
Suntem aici pentru a ucide doar unul: înșelăciunea.
Faceți cunoștință cu Truely - instrumentul open-source care semnalează interviurile asistate de inteligență artificială în timp real. Funcționează cu Zoom, Meets, Teams și multe altele.
Viitorul interviurilor online este aici.
253
De ce echipele de pre-instruire și post-instruire trebuie să se înțeleagă

David Mizrahi18 iul., 06:21
Suntem încântați să împărtășim noua noastră lucrare: "Modelele lingvistice se îmbunătățesc atunci când datele de preantrenament se potrivesc cu sarcinile țintă"
Da, sună evident (și este!), dar de obicei acest lucru se întâmplă doar implicit și indirect: selectați intuitiv datele → benchmark → rafinați → repetați.
Ne-am întrebat: ce se întâmplă dacă potrivim în mod explicit datele de pre-antrenament cu benchmark-urile? Rezultatul este o abordare simplă care produce multiplicatori de calcul de 2x+ pe linii de bază puternice și ne oferă o modalitate principială de a studia modul în care alegerile de referință modelează (și constrâng!) capabilitățile modelului.
Bonus: legi extinse de scalare din antrenarea a 500+ modele care dezvăluie modul în care selecția optimă a datelor evoluează pe măsură ce modelele se scalează.
🧵 (1/14)

2,7K
Echipa Grok internalizează operațiunile de date umane (de exemplu, recrutarea pentru rolul de tutore AI pentru japoneză). Probabil că mai multe laboratoare de frontieră se gândesc să dețină și să opereze forța de muncă a datelor.

Koki Ikeda | SoftBank15 iul., 22:12
"xAI", care dezvoltă Grok, caută un tutore AI japonez.
Munca implică etichetarea și adnotarea datelor text, audio și video în japoneză. Puteți lucra complet de la distanță din Japonia, iar salariul este la un tarif orar ridicat, echivalent cu standardele americane.
🗣️ Vorbitor nativ de japoneză
🧑 💻 Complet de la distanță
💰 Tarif orar de 35-65 USD (5200-9600 yeni)
🕐 Contract de 6 luni (cu posibilitate de prelungire)

8,39K
Echipa Grok internalizează operațiunile de date umane (de exemplu, recrutarea pentru rolul de tutore AI pentru japoneză). Având în vedere tranziția la Scale AI, probabil că mai multe laboratoare de frontieră se gândesc să dețină și să opereze forța de muncă a datelor.

Koki Ikeda | SoftBank15 iul., 22:12
"xAI", care dezvoltă Grok, caută un tutore AI japonez.
Munca implică etichetarea și adnotarea datelor text, audio și video în japoneză. Puteți lucra complet de la distanță din Japonia, iar salariul este la un tarif orar ridicat, echivalent cu standardele americane.
🗣️ Vorbitor nativ de japoneză
🧑 💻 Complet de la distanță
💰 Tarif orar de 35-65 USD (5200-9600 yeni)
🕐 Contract de 6 luni (cu posibilitate de prelungire)

347
Dacă sunteți la ICML și sunteți interesat de RL sau multilingvisme, vă rugăm să salutați @marafinkels! Am lucrat îndeaproape în ultimele luni pentru a livra o metodă RL pentru a rezolva o problemă critică de calitate Gemini. Are și idei grozave de cercetare! Sper că Gemini x academia rămâne în legătură.

Mara Finkelstein27 nov. 2024
LLM-urile sunt de obicei evaluate cu valori automate pe seturi de testare standard, dar metrici + seturi de testare sunt dezvoltate independent. Acest lucru ridică o întrebare crucială: putem proiecta valori automate special pentru a excela pe seturile de teste pe care le prioritizăm? Răspuns: Da!

5,78K
Shane Gu a repostat
O nouă postare pe blog despre asimetria verificării și "legea verificatorului":
Asimetria verificării – ideea că unele sarcini sunt mult mai ușor de verificat decât de rezolvat – devine o idee importantă, deoarece avem RL care funcționează în sfârșit în general.
Exemple grozave de asimetrie a verificării sunt lucruri precum puzzle-urile sudoku, scrierea codului pentru un site web precum instagram și problemele BrowseComp (durează ~ 100 de site-uri web pentru a găsi răspunsul, dar ușor de verificat odată ce aveți răspunsul).
Alte sarcini au aproape simetrie de verificare, cum ar fi însumarea a două numere de 900 de cifre sau unele scripturi de procesare a datelor. Cu toate acestea, alte sarcini sunt mult mai ușor de propus soluții fezabile decât de a le verifica (de exemplu, verificarea unui eseu lung sau afirmarea unei noi diete precum "mănâncă doar bizoni").
Un lucru important de înțeles despre asimetria verificării este că puteți îmbunătăți asimetria făcând ceva muncă în prealabil. De exemplu, dacă aveți cheia de răspuns la o problemă de matematică sau dacă aveți cazuri de testare pentru o problemă Leetcode. Acest lucru crește foarte mult setul de probleme cu asimetria de verificare dezirabilă.
"Legea verificatorului" afirmă că ușurința de a antrena AI pentru a rezolva o sarcină este proporțională cu cât de verificabilă este sarcina. Toate sarcinile care sunt posibile de rezolvat și ușor de verificat vor fi rezolvate de AI. Capacitatea de a antrena AI pentru a rezolva o sarcină este proporțională cu faptul dacă sarcina are următoarele proprietăți:
1. Adevărul obiectiv: toată lumea este de acord ce sunt soluțiile bune
2. Rapid de verificat: orice soluție dată poate fi verificată în câteva secunde
3. Scalabil de verificat: multe soluții pot fi verificate simultan
4. Zgomot redus: verificarea este cât se poate de strâns corelată cu calitatea soluției
5. Recompensă continuă: este ușor să clasifici bunătatea mai multor soluții pentru o singură problemă
O instanțiere evidentă a legii verificatorului este faptul că majoritatea benchmark-urilor propuse în AI sunt ușor de verificat și până acum au fost rezolvate. Observați că practic toate reperele populare din ultimii zece ani se încadrează în criteriile #1-4; Benchmark-urile care nu îndeplinesc criteriile #1-4 ar avea dificultăți să devină populare.
De ce este atât de importantă verificabilitatea? Cantitatea de învățare în AI care are loc este maximizată atunci când sunt îndeplinite criteriile de mai sus; Puteți face o mulțime de pași de gradient în care fiecare pas are mult semnal. Viteza de iterație este critică – este motivul pentru care progresul în lumea digitală a fost mult mai rapid decât progresul în lumea fizică.
AlphaEvolve de la Google este unul dintre cele mai bune exemple de valorificare a asimetriei de verificare. Se concentrează pe configurații care se potrivesc tuturor criteriilor de mai sus și a dus la o serie de progrese în matematică și în alte domenii. Spre deosebire de ceea ce am făcut în AI în ultimele două decenii, este o nouă paradigmă în sensul că toate problemele sunt optimizate într-un cadru în care trenul este echivalent cu setul de testare.
Asimetria verificării este peste tot și este interesant să luăm în considerare o lume a inteligenței zimțate în care orice putem măsura va fi rezolvat.

298,79K
Munca de impact pe care oricine o poate face este să folosească LLM-urile pentru a jurnaliza și digitaliza cât mai mult din fluxul de lucru, CoT și inspirație.
Inginerie de context pentru automatizarea și creșterea vieții și a muncii.

Thariq15 iul., 05:51
Reviste și sarcini
Am câteva comenzi personalizate:
/journal care va crea o nouă intrare de jurnal pentru ziua respectivă.
/todos o comandă care îmi va permite să creez noi lucruri de făcut sau să marchez altele ca terminate. Sarcinile sunt organizate pe subiecte în fișiere, de exemplu '
Claude va căuta adesea codul, proiectele mele etc. pentru mai mult context atunci când adaug un to do, ceea ce este foarte util.
843
Limită superioară
Clasament
Favorite
La modă pe lanț
La modă pe X
Principalele finanțări recente
Cele mai importante