Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Shane Gu
Gemini - RL, CoT, multilinguismo. Senior Staff RS @GoogleDeepMind MTV. 🇯🇵 -nato 🇨🇳🇨🇦 . es: @OpenAI (JP: @shanegJP)
Shane Gu ha ripubblicato
🚨 Olimpiadi di matematica + AI:
Abbiamo eseguito il Gemini 2.5 Pro di Google sui nuovi problemi dell'IMO 2025. Con un'attenta sollecitazione e progettazione della pipeline, ha risolto 5 su 6 — notevole per compiti che richiedono una profonda intuizione e creatività.
Il modello potrebbe vincere l'oro! 🥇
#AI #Matematica #LLMs #IMO2025
116,75K
Asiatici: sistemeremo il nostro disastro

Patrick Shen18 lug, 03:03
Al loro lancio, Cluely ha affermato che avrebbe ucciso 9 settori.
Siamo qui per ucciderne solo uno: il cheating.
Incontra Truely — lo strumento open-source che segnala in tempo reale le interviste assistite da AI. Funziona con Zoom, Meets, Teams e altro ancora.
Il futuro delle interviste online è qui.
1,97K
Per combattere gli asiatici, hai bisogno di asiatici

Patrick Shen18 lug, 03:03
Al loro lancio, Cluely ha affermato che avrebbe ucciso 9 settori.
Siamo qui per ucciderne solo uno: il cheating.
Incontra Truely — lo strumento open-source che segnala in tempo reale le interviste assistite da AI. Funziona con Zoom, Meets, Teams e altro ancora.
Il futuro delle interviste online è qui.
195
Perché i team di pre-addestramento e post-addestramento devono andare d'accordo

David Mizrahi18 lug, 06:21
Siamo entusiasti di condividere il nostro nuovo lavoro: “I modelli linguistici migliorano quando i dati di pre-addestramento corrispondono ai compiti target”
Sì, sembra ovvio (e lo è!), ma tipicamente questo avviene solo in modo implicito e indiretto: selezionare intuitivamente i dati → benchmark → affinare → ripetere.
Ci siamo chiesti: cosa succede se abbiniamo esplicitamente i dati di pre-addestramento ai benchmark? Il risultato è un approccio semplicissimo che offre moltiplicatori di calcolo superiori a 2x rispetto a solide baseline e ci fornisce un modo principled per studiare come le scelte dei benchmark plasmino (e vincolino!) le capacità del modello.
Bonus: leggi di scalabilità estensive da 500+ modelli addestrati che rivelano come l'ottimale selezione dei dati evolve man mano che i modelli scalano.
🧵 (1/14)

2,64K
Il team di Grok sta internalizzando le operazioni sui dati umani (ad esempio, reclutamento per il ruolo di tutor AI per il giapponese). Probabilmente più laboratori all'avanguardia stanno pensando di possedere e gestire il lavoro sui dati.

Koki Ikeda | SoftBank15 lug, 22:12
"xAI," che sta sviluppando Grok, è alla ricerca di un Tutor AI giapponese.
Il lavoro consiste nel etichettare e annotare testi, audio e video in giapponese. Puoi lavorare completamente da remoto dal Giappone, e la retribuzione è a un'alta tariffa oraria equivalente agli standard americani.
🗣️ Madrelingua giapponese
🧑💻 Completamente remoto
💰 Tariffa oraria di $35–65 (5200-9600 yen)
🕐 Contratto di 6 mesi (con possibilità di estensione)

8,33K
Il team di Grok sta internalizzando le operazioni sui dati umani (ad esempio, reclutamento per il ruolo di tutor AI per il giapponese). Data la transizione di Scale AI, è probabile che più laboratori all'avanguardia pensino a possedere e gestire il lavoro sui dati.

Koki Ikeda | SoftBank15 lug, 22:12
"xAI," che sta sviluppando Grok, è alla ricerca di un Tutor AI giapponese.
Il lavoro consiste nel etichettare e annotare testi, audio e video in giapponese. Puoi lavorare completamente da remoto dal Giappone, e la retribuzione è a un'alta tariffa oraria equivalente agli standard americani.
🗣️ Madrelingua giapponese
🧑💻 Completamente remoto
💰 Tariffa oraria di $35–65 (5200-9600 yen)
🕐 Contratto di 6 mesi (con possibilità di estensione)

289
Se sei all'ICML e sei interessato a RL o multilinguismo, per favore saluta @marafinkels! Abbiamo lavorato a stretto contatto negli ultimi mesi per sviluppare un metodo RL per risolvere un problema critico di qualità di Gemini. Ha anche ottime idee di ricerca! Spero che Gemini e il mondo accademico rimangano in contatto.

Mara Finkelstein27 nov 2024
I LLM vengono tipicamente valutati con metriche automatiche su set di test standard, ma le metriche e i set di test vengono sviluppati in modo indipendente. Questo solleva una domanda cruciale: Possiamo progettare metriche automatiche specificamente per eccellere nei set di test che priorizziamo? Risposta: Sì!

5,72K
Shane Gu ha ripubblicato
Nuovo post sul blog riguardo l'asimmetria della verifica e la "legge del verificatore":
L'asimmetria della verifica – l'idea che alcuni compiti siano molto più facili da verificare che da risolvere – sta diventando un concetto importante ora che abbiamo l'RL che finalmente funziona in generale.
Esempi eccellenti di asimmetria della verifica sono cose come i puzzle sudoku, scrivere il codice per un sito web come Instagram e i problemi di BrowseComp (ci vogliono ~100 siti web per trovare la risposta, ma è facile verificare una volta che hai la risposta).
Altri compiti hanno una quasi simmetria della verifica, come sommare due numeri di 900 cifre o alcuni script di elaborazione dati. Altri compiti sono molto più facili da proporre soluzioni fattibili che da verificarle (ad esempio, controllare i fatti di un lungo saggio o dichiarare una nuova dieta come "mangiare solo bisonte").
Una cosa importante da capire riguardo l'asimmetria della verifica è che puoi migliorare l'asimmetria facendo un po' di lavoro in anticipo. Ad esempio, se hai la chiave delle risposte a un problema di matematica o se hai casi di test per un problema di Leetcode. Questo aumenta notevolmente l'insieme di problemi con un'asimmetria di verifica desiderabile.
La "legge del verificatore" afferma che la facilità di addestrare l'IA a risolvere un compito è proporzionale a quanto il compito sia verificabile. Tutti i compiti che sono possibili da risolvere e facili da verificare saranno risolti dall'IA. La capacità di addestrare l'IA a risolvere un compito è proporzionale al fatto che il compito abbia le seguenti proprietà:
1. Verità oggettiva: tutti concordano su quali siano buone soluzioni
2. Veloce da verificare: qualsiasi soluzione data può essere verificata in pochi secondi
3. Scalabile da verificare: molte soluzioni possono essere verificate simultaneamente
4. Basso rumore: la verifica è il più possibile correlata alla qualità della soluzione
5. Ricompensa continua: è facile classificare la bontà di molte soluzioni per un singolo problema
Una manifestazione ovvia della legge del verificatore è il fatto che la maggior parte dei benchmark proposti nell'IA sono facili da verificare e finora sono stati risolti. Nota che praticamente tutti i benchmark popolari negli ultimi dieci anni soddisfano i criteri #1-4; i benchmark che non soddisfano i criteri #1-4 avrebbero difficoltà a diventare popolari.
Perché la verificabilità è così importante? La quantità di apprendimento nell'IA che si verifica è massimizzata quando i criteri sopra sono soddisfatti; puoi fare molti passi di gradiente dove ogni passo ha molto segnale. La velocità di iterazione è critica: è il motivo per cui i progressi nel mondo digitale sono stati molto più rapidi rispetto ai progressi nel mondo fisico.
AlphaEvolve di Google è uno dei più grandi esempi di sfruttamento dell'asimmetria della verifica. Si concentra su configurazioni che soddisfano tutti i criteri sopra e ha portato a una serie di progressi in matematica e in altri campi. Diverso da ciò che abbiamo fatto nell'IA negli ultimi due decenni, è un nuovo paradigma in cui tutti i problemi sono ottimizzati in un contesto in cui il set di addestramento è equivalente al set di test.
L'asimmetria della verifica è ovunque ed è emozionante considerare un mondo di intelligenza frastagliata in cui tutto ciò che possiamo misurare sarà risolto.

298,72K
Un lavoro impattante che chiunque può fare è utilizzare i LLM per tenere un diario e digitalizzare il più possibile il proprio flusso di lavoro, CoTs e ispirazione.
Ingegneria del contesto per automatizzare e potenziare se stessi nella vita e nel lavoro.

Thariq15 lug, 05:51
Diari e To Do
Ho alcuni comandi personalizzati:
/diario un comando che creerà una nuova voce di diario per il giorno.
/to do un comando che mi permetterà di creare nuovi to do o contrassegnare altri come completati. I to do sono organizzati per argomento in file, ad esempio ‘
Claude spesso cerca nel mio codice, progetti, ecc. per avere più contesto quando aggiungo un to do, il che è super utile.
790
Principali
Ranking
Preferiti
On-chain di tendenza
Di tendenza su X
Principali fondi recenti
Più popolari