Começar a usar o Evals não requer muito. o padrão que vimos funcionar para pequenas equipes se parece muito com o desenvolvimento orientado a testes aplicado à engenharia de IA: 1/ Ancorar evals em histórias de usuários, não em benchmarks abstratos: sente-se com seu colega de produto/design e liste as coisas concretas que seu modelo precisa fazer pelos usuários. "responder a perguntas sobre sinistros de seguros com precisão", "gerar consultas SQL a partir de linguagem natural". Para cada um, escreva de 10 a 20 entradas representativas e as saídas/comportamentos desejados. Este é o seu primeiro arquivo eval. 2/ automatize desde o primeiro dia, mesmo que seja frágil. resista à tentação de "apenas olhar". bem, ok, as vibrações não escalam por muito tempo. envolva seus evals em código. Você pode escrever um pytest simples que faz loops sobre seus exemplos, chama o modelo e afirma que certas substrings aparecem. É bruto, mas é um começo. 3/ Use o modelo para inicializar dados EVAL mais difíceis. Escrever manualmente centenas de casos de borda é caro. Você pode usar modelos de raciocínio (O3) para gerar variações sintéticas ("Dê-me 50 perguntas de reclamação envolvendo danos causados por incêndio") e, em seguida, filtrar manualmente. Isso acelera a cobertura sem sacrificar a relevância. 4/ não persiga tabelas de classificação; iterar sobre o que falha. Quando algo falhar na produção, não corrija apenas o prompt – adicione o caso com falha ao seu conjunto eval. Com o tempo, sua suíte crescerá para refletir seus modos de falha reais. Periodicamente fatie seus evals (por comprimento de entrada, por localidade, etc.) para ver se você está regredindo em segmentos específicos. 5/ Evolua suas métricas à medida que seu produto amadurece. À medida que você dimensiona, você vai querer pontuações mais matizadas (semelhança semântica, classificações humanas, rastreamento de custo/latência). Construa ganchos em seu arnês Eval para registrá-los e tendê-los ao longo do tempo. instrumente sua interface do usuário para coletar feedback implícito (o usuário clicou em "polegar para cima"?) e alimentá-lo de volta em seus evals offline. 6/ tornar visíveis os evals. Coloque um painel simples na frente da equipe e das partes interessadas mostrando as taxas de aprovação EVAL, custo, latência. usá-lo em stand-ups. isso cria responsabilidade e ajuda as pessoas que não são de ML a participar das discussões de trade-off. Finalmente, trate os evals como um artefato de engenharia central. Atribua propriedade, revise-os na revisão de código, comemore quando você adicionar um novo caso complicado. a disciplina pagará dividendos compostos à medida que você escalar.
24,36K