DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Começar a usar avaliações não requer muito. o padrão que vimos funcionar para equipes pequenas se parece muito com o desenvolvimento orientado a testes aplicado à engenharia de IA: 1/ Ancore avaliações em histórias de usuários, não em benchmarks abstratos: Sente-se com sua contraparte de produto/design e liste as coisas concretas que seu modelo precisa fazer para os usuários. "responder a perguntas de sinistros de seguro com precisão", "gerar consultas SQL a partir de linguagem natural". Para cada um, escreva de 10 a 20 entradas representativas e as saídas/comportamentos desejados. Este é o seu primeiro arquivo de avaliação. 2/ Automatize desde o primeiro dia, mesmo que seja frágil. resistir à tentação de "apenas olhar para ele". Bem, OK, o Vibes não escala por muito tempo. Envolva suas avaliações em código. Você pode escrever um pytest simples que faz um loop sobre seus exemplos, chama o modelo e afirma que determinadas subcadeias de caracteres aparecem. É bruto, mas é um começo. 3/ Use o modelo para inicializar dados de avaliação mais difíceis. escrever manualmente centenas de casos extremos é caro. Você pode usar modelos de raciocínio (O3) para gerar variações sintéticas ("Dê-me 50 perguntas de reivindicação envolvendo danos por incêndio") e, em seguida, filtrar manualmente. Isso acelera a cobertura sem sacrificar a relevância. 4/ não persiga tabelas de classificação; iterar sobre o que falha. Quando algo falhar na produção, não apenas corrija o prompt – adicione o caso de falha ao seu conjunto de avaliação. Com o tempo, sua suíte crescerá para refletir seus modos de falha reais. Periodicamente, divida suas avaliações (por comprimento de entrada, por localidade etc.) para ver se você está regredindo em segmentos específicos. 5/ Evolua suas métricas à medida que seu produto amadurece. À medida que você escala, você desejará uma pontuação mais sutil (similaridade semântica, classificações humanas, rastreamento de custo/latência). Construa ganchos em seu arnês de avaliação para registrá-los e tendê-los ao longo do tempo. instrumente sua interface do usuário para coletar feedback implícito (o usuário clicou em "polegar para cima"?) e alimente-o de volta em suas avaliações offline. 6/ tornar as avaliações visíveis. Coloque um painel simples na frente da equipe e das partes interessadas mostrando as taxas de aprovação de avaliação, custo e latência. use-o em stand-ups. isso cria responsabilidade e ajuda as pessoas que não são de ML a participar das discussões de trade-off. Por fim, trate as avaliações como um artefato de engenharia central. Atribua propriedade, revise-os na revisão de código, comemore quando você adicionar um novo caso complicado. A disciplina pagará dividendos compostos à medida que você escala.

24,37K

Melhores

Classificação

Favoritos

Em alta on-chain

Em alta no X

Principais fundos da atualidade

Mais notável