Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nathan Lambert
Descobrindo @allen_ai de IA, modelos abertos, RLHF, ajuste fino, etc
Contato por e-mail.
Escreve @interconnectsai
Escreveu o livro RLHF
Corredor de montanha
Adicionando uma boa maneira de visualizar o objetivo PPO ao livro rlhf. O núcleo para o gradiente de política é L ~ R * A (R = proporção de política, A = vantagem).
Torne as boas ações mais prováveis até certo ponto.
Torne as más ações menos prováveis até certo ponto.
O sinal min(...), & de adv determina qual linha.

2,06K
O objetivo disso é evitar psyops para não tirar uma conquista técnica óbvia e importante, vamos lá fam que eu não odeie IA
tantos haters nas respostas

Nathan Lambert12 horas atrás
Não caindo na postagem vaga da OpenAI sobre o novo modelo de ouro da IMO com "RL de uso geral" e qualquer outra "descoberta". O Google também recebeu ouro IMO (mais difícil do que dominar o AIME), mas lembre-se, ideias simples escalam melhor.
7,26K
Nathan Lambert repostou
A OpenAI alcançou RL de episódios muito longos com este modelo experimental?
Captura de tela do artigo de @natolambert sobre "O que vem a seguir com o aprendizado por reforço".
Nathan diz neste artigo - Onde os métodos atuais estão gerando 10K-100K tokens por resposta para problemas de matemática ou código durante o treinamento, o tipo de problema que as pessoas discutem aplicando o treinamento RL da próxima geração seria de 1M-100M tokens por resposta. Isso envolve o encapsulamento de várias chamadas de inferência, prompts e interações com um ambiente em um episódio em relação ao qual a política é atualizada.
Talvez este avanço seja uma combinação de ambos - RL de episódios muito longos e escalando TTC para 1M-100M tokens por resposta!

5,9K
É "ruim" que todo mundo esteja destilando / treinando em modelos chineses? Embora não seja diretamente ruim, há um grande componente de soft power.
Muitas conclusões que falam sobre os ideais socialistas chineses / valores da RPC que se infiltram em futuros modelos de IA / se espalham por toda a internet.

9,18K
hahahahahahaha os principais modelos abertos dos EUA são gemma 3 27b e @nvidia de lhama 3.1


lmarena.ai17 de jul., 23:21
🚨 URGENTE: O Kimi-K2 de @Kimi_Moonshot é agora o modelo aberto #1 na Arena!
Com mais de 3 mil votos da comunidade, ocupa a posição #5 no geral, ultrapassando o DeepSeek como o principal modelo aberto.
Parabéns à equipe Moonshot por este marco impressionante! A tabela de classificação agora apresenta 7 provedores diferentes entre os 15 primeiros - o mais competitivo de todos os tempos.
Mais informações no tópico 🧵

25,11K
Melhores
Classificação
Favoritos
Em alta on-chain
Em alta no X
Principais fundos da atualidade
Mais notável