Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Shane Gu
Gêmeos - RL, CoT, multilinguismo. Equipe sênior RS @GoogleDeepMind MTV. 🇯🇵 -nascido 🇨🇳🇨🇦 . ex: @OpenAI (JP: @shanegJP)
Shane Gu repostou
🚨 Matemática da Olimpíada + IA:
Executamos o Gemini 2.5 Pro do Google nos novos problemas da IMO 2025. Com solicitação cuidadosa e design de pipeline, ele resolveu 5 de 6 - notável para tarefas que exigem visão e criatividade profundas.
O modelo pode ganhar ouro! 🥇
#AI #Math #LLMs #IMO2025
218,9K
Asiáticos: vamos consertar nossa própria bagunça

Patrick Shen18 de jul., 03:03
Em seu lançamento, o Cluely alegou que mataria 9 indústrias.
Estamos aqui para matar apenas um: trapacear.
Conheça o Truely - a ferramenta de código aberto que sinaliza entrevistas assistidas por IA em tempo real. Funciona com Zoom, Meets, Teams e muito mais.
O futuro das entrevistas online está aqui.
2,02K
Para lutar contra os asiáticos, você precisa de asiáticos

Patrick Shen18 de jul., 03:03
Em seu lançamento, o Cluely alegou que mataria 9 indústrias.
Estamos aqui para matar apenas um: trapacear.
Conheça o Truely - a ferramenta de código aberto que sinaliza entrevistas assistidas por IA em tempo real. Funciona com Zoom, Meets, Teams e muito mais.
O futuro das entrevistas online está aqui.
243
Por que as equipes de pré e pós-treinamento precisam se dar bem

David Mizrahi18 de jul., 06:21
Animado para compartilhar nosso novo trabalho: "Os modelos de linguagem melhoram quando os dados de pré-treinamento correspondem às tarefas de destino"
Sim, parece óbvio (e é!), mas normalmente isso só acontece implícita e indiretamente: selecione intuitivamente os dados → benchmark → refine → repita.
Nós nos perguntamos: o que acontece se combinarmos explicitamente os dados de pré-treinamento com os benchmarks? O resultado é uma abordagem muito simples que produz multiplicadores de computação 2x+ em linhas de base fortes e nos dá uma maneira baseada em princípios de estudar como as escolhas de benchmark moldam (e restringem!) os recursos do modelo.
Bônus: extensas leis de dimensionamento do treinamento de 500+ modelos que revelam como a seleção de dados ideal evolui à medida que os modelos são dimensionados.
🧵 (1/14)

2,69K
A equipe Grok está internalizando as operações de dados humanos (por exemplo, recrutamento para a função de tutor de IA para japonês). Provavelmente, mais laboratórios de fronteira pensam em possuir e operar o trabalho de dados.

Koki Ikeda | SoftBank15 de jul., 22:12
"xAI", que está desenvolvendo o Grok, está procurando um tutor japonês de IA.
O trabalho envolve rotular e anotar dados de texto, áudio e vídeo em japonês. Você pode trabalhar totalmente remotamente do Japão e o pagamento é alto por hora, equivalente aos padrões americanos.
🗣️ Falante nativo de japonês
🧑 💻 Totalmente remoto
💰 Taxa horária de $ 35–65 (5200-9600 ienes)
🕐 Contrato de 6 meses (com possibilidade de prorrogação)

8,38K
A equipe Grok está internalizando as operações de dados humanos (por exemplo, recrutamento para a função de tutor de IA para japonês). Dada a transição da Scale AI, provavelmente mais laboratórios de fronteira pensam em possuir e operar o trabalho de dados.

Koki Ikeda | SoftBank15 de jul., 22:12
"xAI", que está desenvolvendo o Grok, está procurando um tutor japonês de IA.
O trabalho envolve rotular e anotar dados de texto, áudio e vídeo em japonês. Você pode trabalhar totalmente remotamente do Japão e o pagamento é alto por hora, equivalente aos padrões americanos.
🗣️ Falante nativo de japonês
🧑 💻 Totalmente remoto
💰 Taxa horária de $ 35–65 (5200-9600 ienes)
🕐 Contrato de 6 meses (com possibilidade de prorrogação)

334
Se você está no ICML e está interessado em RL ou multilinguismo, por favor, diga oi para @marafinkels! Trabalhamos em estreita colaboração nos últimos meses para enviar um método RL para corrigir um problema crítico de qualidade do Gemini. Ela também tem ótimas ideias de pesquisa! Espero que a Gemini x academia mantenha contato.

Mara Finkelstein27 de nov. de 2024
Os LLMs são normalmente avaliados com métricas automáticas em conjuntos de teste padrão, mas métricas + conjuntos de teste são desenvolvidos de forma independente. Isso levanta uma questão crucial: podemos projetar métricas automáticas especificamente para se destacar nos conjuntos de testes que priorizamos? Resposta: Sim!

5,77K
Shane Gu repostou
Nova postagem no blog sobre assimetria de verificação e "lei do verificador":
A assimetria de verificação – a ideia de que algumas tarefas são muito mais fáceis de verificar do que resolver – está se tornando uma ideia importante, pois temos RL que finalmente funciona em geral.
Grandes exemplos de assimetria de verificação são coisas como quebra-cabeças de sudoku, escrever o código para um site como o instagram e problemas de BrowseComp (leva ~ 100 sites para encontrar a resposta, mas fácil de verificar quando você tiver a resposta).
Outras tarefas têm quase simetria de verificação, como somar dois números de 900 dígitos ou alguns scripts de processamento de dados. No entanto, outras tarefas são muito mais fáceis de propor soluções viáveis do que verificá-las (por exemplo, verificar os fatos de um longo ensaio ou declarar uma nova dieta como "só coma bisões").
Uma coisa importante a entender sobre a assimetria de verificação é que você pode melhorar a assimetria fazendo algum trabalho com antecedência. Por exemplo, se você tiver a chave de resposta para um problema de matemática ou se tiver casos de teste para um problema do Leetcode. Isso aumenta muito o conjunto de problemas com a assimetria de verificação desejável.
A "lei do verificador" afirma que a facilidade de treinar a IA para resolver uma tarefa é proporcional à verificabilidade da tarefa. Todas as tarefas possíveis de resolver e fáceis de verificar serão resolvidas pela IA. A capacidade de treinar a IA para resolver uma tarefa é proporcional ao fato de a tarefa ter as seguintes propriedades:
1. Verdade objetiva: todos concordam com o que são boas soluções
2. Rápido de verificar: qualquer solução pode ser verificada em poucos segundos
3. Escalável para verificar: muitas soluções podem ser verificadas simultaneamente
4. Baixo ruído: a verificação está o mais fortemente correlacionada possível com a qualidade da solução
5. Recompensa contínua: é fácil classificar a bondade de muitas soluções para um único problema
Uma instância óbvia da lei do verificador é o fato de que a maioria dos benchmarks propostos na IA são fáceis de verificar e até agora foram resolvidos. Observe que praticamente todos os benchmarks populares nos últimos dez anos se encaixam nos critérios #1-4; Os benchmarks que não atendem aos critérios # 1-4 teriam dificuldade em se tornar populares.
Por que a verificabilidade é tão importante? A quantidade de aprendizado em IA que ocorre é maximizada quando os critérios acima são satisfeitos; Você pode dar muitas etapas de gradiente, onde cada etapa tem muito sinal. A velocidade da iteração é crítica - é a razão pela qual o progresso no mundo digital tem sido muito mais rápido do que o progresso no mundo físico.
O AlphaEvolve do Google é um dos maiores exemplos de como alavancar a assimetria de verificação. Ele se concentra em configurações que atendem a todos os critérios acima e levou a uma série de avanços na matemática e em outros campos. Diferente do que temos feito em IA nas últimas duas décadas, é um novo paradigma em que todos os problemas são otimizados em um ambiente em que o conjunto de trens é equivalente ao conjunto de testes.
A assimetria de verificação está em toda parte e é emocionante considerar um mundo de inteligência irregular onde qualquer coisa que possamos medir será resolvida.

298,76K
O trabalho impactante que qualquer pessoa pode fazer é usar LLMs para registrar e digitalizar o máximo de seu fluxo de trabalho, CoTs e inspiração.
Engenharia de contexto para automatizar e aumentar a si mesmo na vida e no trabalho.

Thariq15 de jul., 05:51
Diários e tarefas
Eu tenho alguns comandos personalizados:
/journal que criará uma nova entrada de diário para o dia.
/todos um comando que me permitirá criar novos TO DOS ou marcar outros como concluídos. As tarefas são organizadas por tópico em arquivos, por exemplo, '
Claude frequentemente pesquisa meu código, projetos, etc. para obter mais contexto quando adiciono um to do, o que é muito útil.
833
Melhores
Classificação
Favoritos
Em alta on-chain
Em alta no X
Principais fundos da atualidade
Mais notável