Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Shane Gu
Gêmeos - RL, CoT, multilinguismo. Quadros Superiores RS @GoogleDeepMind MTV. 🇯🇵 -nascido 🇨🇳🇨🇦 . ex: @OpenAI (JP: @shanegJP)
Shane Gu republicou
🚨 Olimpíada de Matemática + IA:
Executámos o Gemini 2.5 Pro do Google nos novos problemas do IMO 2025. Com um cuidadoso prompting e design de pipeline, resolveu 5 de 6 — notável para tarefas que exigem uma profunda perspicácia e criatividade.
O modelo poderia ganhar ouro! 🥇
#IA #Matemática #LLMs #IMO2025
116,76K
Asiáticos: nós vamos resolver a nossa própria bagunça

Patrick Shen18/07, 03:03
No seu lançamento, a Cluely afirmou que iria acabar com 9 indústrias.
Estamos aqui para acabar com apenas uma: a trapaça.
Conheça a Truely — a ferramenta de código aberto que sinaliza entrevistas assistidas por IA em tempo real. Funciona com Zoom, Meets, Teams e muito mais.
O futuro das entrevistas online está aqui.
1,98K
Para lutar contra os asiáticos, você precisa de asiáticos.

Patrick Shen18/07, 03:03
No seu lançamento, a Cluely afirmou que iria acabar com 9 indústrias.
Estamos aqui para acabar com apenas uma: a trapaça.
Conheça a Truely — a ferramenta de código aberto que sinaliza entrevistas assistidas por IA em tempo real. Funciona com Zoom, Meets, Teams e muito mais.
O futuro das entrevistas online está aqui.
227
Por que as equipas de pré-treinamento e pós-treinamento precisam de se dar bem

David Mizrahi18/07, 06:21
Entusiasmado por compartilhar nosso novo trabalho: “Modelos de Linguagem Melhoram Quando os Dados de Pré-treinamento Correspondem às Tarefas Alvo”
Sim, parece óbvio (e é!), mas tipicamente isso acontece apenas de forma implícita e indireta: selecionar dados intuitivamente → benchmark → refinar → repetir.
Nos perguntamos: o que acontece se combinarmos explicitamente os dados de pré-treinamento com os benchmarks? O resultado é uma abordagem extremamente simples que gera multiplicadores de computação de 2x+ em relação a fortes linhas de base e nos dá uma maneira fundamentada de estudar como as escolhas de benchmark moldam (e restringem!) as capacidades do modelo.
Bônus: leis de escalonamento extensivas a partir do treinamento de mais de 500 modelos que revelam como a seleção de dados ótima evolui à medida que os modelos escalam.
🧵 (1/14)

2,66K
A equipa Grok está a internalizar operações de dados humanos (por exemplo, recrutamento para o papel de tutor de IA para japonês). É provável que mais laboratórios de fronteira pensem em possuir e operar o trabalho de dados.

Koki Ikeda | SoftBank15/07, 22:12
"xAI," que está a desenvolver o Grok, está à procura de um Tutor de IA Japonês.
O trabalho envolve rotular e anotar texto, áudio e dados de vídeo em japonês. Você pode trabalhar totalmente remotamente a partir do Japão, e o pagamento é a uma alta taxa horária equivalente aos padrões americanos.
🗣️ Falante nativo de japonês
🧑💻 Totalmente remoto
💰 Taxa horária de $35–65 (5200-9600 ienes)
🕐 Contrato de 6 meses (com possibilidade de extensão)

8,36K
A equipa Grok está a internalizar operações de dados humanos (por exemplo, recrutamento para o papel de tutor de IA para japonês). Dada a transição da Scale AI, é provável que mais laboratórios de fronteira pensem em possuir e operar a mão-de-obra de dados.

Koki Ikeda | SoftBank15/07, 22:12
"xAI," que está a desenvolver o Grok, está à procura de um Tutor de IA Japonês.
O trabalho envolve rotular e anotar texto, áudio e dados de vídeo em japonês. Você pode trabalhar totalmente remotamente a partir do Japão, e o pagamento é a uma alta taxa horária equivalente aos padrões americanos.
🗣️ Falante nativo de japonês
🧑💻 Totalmente remoto
💰 Taxa horária de $35–65 (5200-9600 ienes)
🕐 Contrato de 6 meses (com possibilidade de extensão)

302
Se você está na ICML e está interessado em RL ou multilinguismo, por favor, cumprimente a @marafinkels! Trabalhamos juntos nos últimos meses para desenvolver um método de RL para resolver um problema crítico de qualidade do Gemini. Ela também tem ótimas ideias de pesquisa! Espero que o Gemini x academia mantenham contato.

Mara Finkelstein27/11/2024
Os LLMs são tipicamente avaliados com métricas automáticas em conjuntos de testes padrão, mas as métricas e os conjuntos de testes são desenvolvidos de forma independente. Isso levanta uma questão crucial: Podemos projetar métricas automáticas especificamente para se destacarem nos conjuntos de testes que priorizamos? Resposta: Sim!

5,74K
Shane Gu republicou
Novo post no blog sobre a assimetria da verificação e a "lei do verificador":
A assimetria da verificação – a ideia de que algumas tarefas são muito mais fáceis de verificar do que de resolver – está a tornar-se uma ideia importante à medida que temos RL que finalmente funciona de forma geral.
Ótimos exemplos de assimetria da verificação são coisas como quebra-cabeças de sudoku, escrever o código para um site como o instagram, e problemas de BrowseComp (leva ~100 sites para encontrar a resposta, mas é fácil de verificar uma vez que se tem a resposta).
Outras tarefas têm uma quase simetria de verificação, como somar dois números de 900 dígitos ou alguns scripts de processamento de dados. No entanto, outras tarefas são muito mais fáceis de propor soluções viáveis do que de as verificar (por exemplo, verificar um longo ensaio ou afirmar uma nova dieta como "comer apenas bisão").
Uma coisa importante a entender sobre a assimetria da verificação é que se pode melhorar a assimetria fazendo algum trabalho previamente. Por exemplo, se você tiver a chave de resposta para um problema de matemática ou se tiver casos de teste para um problema do Leetcode. Isso aumenta muito o conjunto de problemas com uma desejável assimetria de verificação.
A "lei do verificador" afirma que a facilidade de treinar IA para resolver uma tarefa é proporcional à facilidade de verificação da tarefa. Todas as tarefas que são possíveis de resolver e fáceis de verificar serão resolvidas pela IA. A capacidade de treinar IA para resolver uma tarefa é proporcional a se a tarefa possui as seguintes propriedades:
1. Verdade objetiva: todos concordam sobre quais são boas soluções
2. Rápido de verificar: qualquer solução dada pode ser verificada em poucos segundos
3. Escalável para verificar: muitas soluções podem ser verificadas simultaneamente
4. Baixo ruído: a verificação está o mais correlacionada possível à qualidade da solução
5. Recompensa contínua: é fácil classificar a qualidade de muitas soluções para um único problema
Uma instância óbvia da lei do verificador é o fato de que a maioria dos benchmarks propostos em IA são fáceis de verificar e até agora foram resolvidos. Note que praticamente todos os benchmarks populares nos últimos dez anos se encaixam nos critérios #1-4; benchmarks que não atendem aos critérios #1-4 teriam dificuldades em se tornar populares.
Por que a verificabilidade é tão importante? A quantidade de aprendizado em IA que ocorre é maximizada quando os critérios acima são satisfeitos; você pode dar muitos passos de gradiente onde cada passo tem muito sinal. A velocidade de iteração é crítica – é a razão pela qual o progresso no mundo digital tem sido muito mais rápido do que o progresso no mundo físico.
AlphaEvolve do Google é um dos maiores exemplos de aproveitamento da assimetria da verificação. Foca em configurações que atendem a todos os critérios acima e levou a uma série de avanços em matemática e outras áreas. Diferente do que temos feito em IA nas últimas duas décadas, é um novo paradigma em que todos os problemas são otimizados em um ambiente onde o conjunto de treino é equivalente ao conjunto de teste.
A assimetria da verificação está em toda parte e é emocionante considerar um mundo de inteligência irregular onde tudo o que podemos medir será resolvido.

298,72K
Um trabalho impactante que qualquer um pode fazer é usar LLMs para registar e digitalizar o máximo possível do seu fluxo de trabalho, CoTs e inspiração.
Engenharia de contexto para automatizar e aumentar a si mesmo na vida e no trabalho.

Thariq15/07, 05:51
Diários & Tarefas
Tenho alguns comandos personalizados:
/comando de diário que criará uma nova entrada de diário para o dia.
/tarefas um comando que me permitirá criar novas tarefas ou marcar outras como concluídas. As tarefas estão organizadas por tópico em arquivos, por exemplo, ‘
Claude frequentemente procura meu código, projetos, etc. para mais contexto quando adiciono uma tarefa, o que é super útil.
802
Top
Classificação
Favoritos
Tendências on-chain
Popular no X
Principais financiamentos atuais
Mais notável