Honestamente, a maioria dos desenvolvedores de IA ainda está presa no século passado. Fico chocado com o quão poucas pessoas estão cientes da Análise de Erros. Esta é *literalmente* a forma mais rápida e eficaz de avaliar aplicações de IA, e a maioria das equipas ainda está presa a fantasmas. Por favor, parem de rastrear métricas genéricas e sigam estes passos: 1. Colete amostras de falhas Comece a rever as respostas geradas pela sua aplicação. Escreva notas sobre cada resposta, especialmente aquelas que foram erros. Não precisa formatar suas notas de nenhuma maneira específica. Foque em descrever o que deu errado com a resposta. 2. Categorize suas notas Depois de ter revisado um bom conjunto de respostas, pegue um LLM e peça para encontrar padrões comuns nas suas notas. Peça para classificar cada nota com base nesses padrões. Você acabará com categorias que cobrem todos os tipos de erros que sua aplicação cometeu. 3. Diagnostique os erros mais frequentes Comece focando no tipo de erro mais comum. Você não quer perder tempo trabalhando com erros raros. Aprofunde-se nas conversas, entradas e logs que levaram a essas amostras incorretas. Tente entender o que pode estar causando os problemas. 4. Desenhe correções direcionadas Neste ponto, você quer determinar como eliminar os erros que diagnosticou na etapa anterior o mais rápido e barato possível. Por exemplo, você poderia ajustar seus prompts, adicionar regras de validação extras, encontrar mais dados de treinamento ou modificar o modelo. 5. Automatize o processo de avaliação Você precisa implementar um processo simples para reexecutar um conjunto de avaliação através da sua aplicação e avaliar se suas correções foram eficazes. Minha recomendação é usar um LLM-como-Juiz para rodar amostras pela aplicação, classificá-las com uma etiqueta de APROVADO/REPROVADO e calcular os resultados. 6. Fique de olho nas suas métricas Cada categoria que você identificou durante a análise de erros é uma métrica que você quer acompanhar ao longo do tempo. Você não vai a lugar nenhum se obcecar por "relevância", "correção", "completude", "coerência" e qualquer outra métrica padrão. Esqueça isso e foque nos problemas reais que você encontrou.
49,34K