O meu melhor palpite: Rubricas + Juiz LLM - Atomizar cada ponto na prova da verdade fundamental e verificar em relação à saída do modelo. O meu palpite sobre como tornaram isto escalável - uma vez que antes não era, os humanos tinham que elaborá-las meticulosamente, é que treinaram ou fizeram algo para gerar rubricas muito boas para cada problema específico ou a sua resposta.
Alexander Wei
Alexander Wei19/07, 15:50
5/N Além do resultado em si, estou entusiasmado com a nossa abordagem: alcançamos este nível de capacidade não através de uma metodologia estreita e específica para tarefas, mas rompendo novas fronteiras em aprendizado por reforço de propósito geral e escalonamento de computação em tempo de teste.
.@polynoamial @alexwei_ pisque duas vezes se estou certo e 3 vezes se estou errado - antes que os cegos sejam guiados pelos cegos xD
21,37K