Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Teknium (e/λ)
Non ci sono stati studi sui ragionatori ibridi? Sto per eseguire alcuni test su un nuovo modello senza un dataset non di ragionamento.
Ti farò sapere come i dati solo di ragionamento influenzano il modello rispetto a quando ci sono dati privi di ragionamento. Probabilmente tra qualche settimana avrò alcune buone intuizioni se riesco a trovare il tempo.
3,69K
Ricordo quando tutti dicevano che era un problema di tokenizer.

Flavio Adamo19 lug, 22:01
2020: "I LLM non possono fare matematica."
2025: L'LLM vince l'oro all'IMO
33,87K
Teknium (e/λ) ha ripubblicato
Hermes 3 di @NousResearch è il dataset #1 su @huggingface
Ho intenzione di usarlo
Non dormire su Nous
Loro:
- Creano fantastici fine-tune open source
- Hanno costruito un calcolo distribuito
- Hanno dataset ben curati
- Sono completamente trasparenti con i pesi e il codice del modello
- Pubblicano opinioni basate su X

6,7K
La mia migliore ipotesi:
Rubriche + Giudice LLM - Atomizzare ogni punto nella prova di verità e controllare rispetto all'output del modello.
La mia ipotesi su come l'hanno resa scalabile - poiché prima non lo era, gli esseri umani dovevano crearle meticolosamente, è che hanno addestrato o fatto qualcosa per generare rubriche molto buone per ogni problema specifico o la sua risposta.
21,34K
Prima di iniziare, creiamo un'IDE di codifica per l'IA in modo da poter ottenere solo dati di qualità.

pash19 lug, 09:58
Vorrei sottolineare che per i compiti del mondo reale (non benchmark), Kimi K2 supera Gemini.
Questa è la telemetria di tutti gli utenti @cline, che mostra il tasso di errore nelle modifiche. Nota come Kimi abbia circa un tasso di errore del 6%, che è significativamente migliore rispetto al tasso di errore di circa il 10% di Gemini.
Incredibilmente, Kimi ha persino superato Claude 4 per la maggior parte di questa settimana, raggiungendo un tasso di errore inferiore al 4%!

6,66K
Interessante, considerando tutto il trambusto attorno a cursor e il passaggio a claude pro max 16.

Wes Roth18 lug, 22:30
Anthropic sta affrontando critiche da parte della sua base utenti dopo aver silenziosamente inasprito i limiti di utilizzo di Claude Code, anche per coloro che pagano 200 $/mese per il piano Max.
Gli sviluppatori sono frustrati per le restrizioni improvvise e la mancanza di comunicazione, con alcuni che affermano che i loro progetti si sono bloccati.

5,53K
Principali
Ranking
Preferiti
On-chain di tendenza
Di tendenza su X
Principali fondi recenti
Più popolari