Meu melhor palpite: Rubricas + LLM Judge - Atomize cada ponto na prova de verdade e verifique a saída do modelo Meu palpite sobre como eles tornaram isso escalável - como antes não era, os humanos tiveram que criá-los meticulosamente, eles treinaram ou fizeram algo para fazer rubricas muito boas geradas para cada problema específico ou sua resposta.
Alexander Wei
Alexander Wei19 de jul., 15:50
5/N Além do resultado em si, estou animado com nossa abordagem: alcançamos esse nível de capacidade não por meio de uma metodologia estreita e específica da tarefa, mas abrindo novos caminhos no aprendizado por reforço de uso geral e no dimensionamento de computação em tempo de teste.
.@polynoamial @alexwei_ piscar duas vezes se eu estiver certo e 3 vezes se eu estiver errado - antes que os cegos sejam liderados pelos cegos xD
22,18K