Os LLMs são normalmente avaliados com métricas automáticas em conjuntos de teste padrão, mas métricas + conjuntos de teste são desenvolvidos de forma independente. Isso levanta uma questão crucial: podemos projetar métricas automáticas especificamente para se destacar nos conjuntos de testes que priorizamos? Resposta: Sim!
11,35K