DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP+2,49%

Boopa-5,04%

PORK+2,32%

Nathan Lambert

Descobrindo @allen_ai de IA, modelos abertos, RLHF, ajuste fino, etc Contato por e-mail. Escreve @interconnectsai Escreveu o livro RLHF Corredor de montanha

Nathan Lambert2 horas atrás

Adicionando uma boa maneira de visualizar o objetivo PPO ao livro rlhf. O núcleo para o gradiente de política é L ~ R * A (R = proporção de política, A = vantagem). Torne as boas ações mais prováveis até certo ponto. Torne as más ações menos prováveis até certo ponto. O sinal min(...), & de adv determina qual linha.

2,06K

Nathan Lambert5 horas atrás

Qual é o próximo muro que as pessoas estão reivindicando para a IA? Primeiro ficamos sem dados, então RL não generalizaria fora de matemática / código, o que vem a seguir? Apenas a parede real parece ser a disponibilidade de computação.

12,26K

Nathan Lambert5 horas atrás

Eu sinto o mesmo, mas a fronteira que estou empurrando está sendo compartilhada com todos, não apenas com algumas grandes empresas de tecnologia.

Nathan Lambert9 horas atrás

O objetivo disso é evitar psyops para não tirar uma conquista técnica óbvia e importante, vamos lá fam que eu não odeie IA tantos haters nas respostas

Nathan Lambert12 horas atrás

Não caindo na postagem vaga da OpenAI sobre o novo modelo de ouro da IMO com "RL de uso geral" e qualquer outra "descoberta". O Google também recebeu ouro IMO (mais difícil do que dominar o AIME), mas lembre-se, ideias simples escalam melhor.

7,26K

Nathan Lambert12 horas atrás

Muitas pessoas com quem conversei não estão tão preocupadas com o que o Grok está fazendo porque sabem que os modelos Grok são sempre esquecidos algumas semanas após o lançamento 🪦 💀

660

Nathan Lambert12 horas atrás

72,32K

Nathan Lambert repostou

Krishna Kaasyap15 horas atrás

A OpenAI alcançou RL de episódios muito longos com este modelo experimental? Captura de tela do artigo de @natolambert sobre "O que vem a seguir com o aprendizado por reforço". Nathan diz neste artigo - Onde os métodos atuais estão gerando 10K-100K tokens por resposta para problemas de matemática ou código durante o treinamento, o tipo de problema que as pessoas discutem aplicando o treinamento RL da próxima geração seria de 1M-100M tokens por resposta. Isso envolve o encapsulamento de várias chamadas de inferência, prompts e interações com um ambiente em um episódio em relação ao qual a política é atualizada. Talvez este avanço seja uma combinação de ambos - RL de episódios muito longos e escalando TTC para 1M-100M tokens por resposta!

5,9K

Nathan Lambert18 de jul., 05:32

É "ruim" que todo mundo esteja destilando / treinando em modelos chineses? Embora não seja diretamente ruim, há um grande componente de soft power. Muitas conclusões que falam sobre os ideais socialistas chineses / valores da RPC que se infiltram em futuros modelos de IA / se espalham por toda a internet.

9,18K

Nathan Lambert18 de jul., 00:26

hahahahahahaha os principais modelos abertos dos EUA são gemma 3 27b e @nvidia de lhama 3.1

lmarena.ai17 de jul., 23:21

🚨 URGENTE: O Kimi-K2 de @Kimi_Moonshot é agora o modelo aberto #1 na Arena! Com mais de 3 mil votos da comunidade, ocupa a posição #5 no geral, ultrapassando o DeepSeek como o principal modelo aberto. Parabéns à equipe Moonshot por este marco impressionante! A tabela de classificação agora apresenta 7 provedores diferentes entre os 15 primeiros - o mais competitivo de todos os tempos. Mais informações no tópico 🧵

25,11K

Nathan Lambert17 de jul., 07:53

É uma grande falha política que os EUA não possam acomodar as principais conferências de IA devido a problemas de visto.

315,24K

Melhores

Classificação

Favoritos

Em alta on-chain

Em alta no X

Principais fundos da atualidade

Mais notável