Débuter avec les Eval ne nécessite pas trop de choses. le modèle que nous avons vu fonctionner pour de petites équipes ressemble beaucoup au développement piloté par les tests appliqué à l’ingénierie de l’IA : 1/ Ancrez les Eval dans les user stories, pas dans des benchmarks abstraits : asseyez-vous avec votre homologue produit/design et listez les choses concrètes que votre modèle doit faire pour les utilisateurs. « répondre avec précision aux questions sur les réclamations d’assurance », « générer des requêtes SQL à partir du langage naturel ». Pour chacune, écrivez 10 à 20 entrées représentatives et les sorties/comportements souhaités. Il s’agit de votre premier fichier EAL. 2/ Automatisez dès le premier jour, même si c’est cassant. Résistez à la tentation de « simplement le regarder ». Bon, ok, les vibrations ne durent pas trop longtemps. Encapsulez vos évaluations dans du code. Vous pouvez écrire un pytest simple qui boucle sur vos exemples, appelle le modèle et affirme que certaines sous-chaînes apparaissent. C’est grossier, mais c’est un début. 3/ Utilisez le modèle pour amorcer des données d’évaluation plus difficiles. L’écriture manuelle de centaines de cas limites est coûteuse. Vous pouvez utiliser des modèles de raisonnement (O3) pour générer des variations synthétiques (« Donnez-moi 50 questions de réclamation impliquant des dommages causés par le feu »), puis filtrer à la main. Cela accélère la couverture sans sacrifier la pertinence. 4/ Ne courez pas après les classements ; Itérez sur ce qui échoue. Lorsqu’un problème échoue en production, ne vous contentez pas de corriger l’invite, ajoutez le cas d’échec à votre ensemble d’évaluations. Au fil du temps, votre suite s’agrandira pour refléter vos modes de défaillance réels. Divisez périodiquement vos évaluations (par longueur d’entrée, par paramètres régionaux, etc.) pour voir si vous régressez sur des segments particuliers. 5/ Faites évoluer vos métriques au fur et à mesure que votre produit mûrit. Au fur et à mesure que vous évoluez, vous aurez besoin d’un scoring plus nuancé (similarité sémantique, évaluations humaines, suivi des coûts/latences). Construisez des crochets dans votre harnais Eval pour les enregistrer et les suivre au fil du temps. instrumentez votre interface utilisateur pour collecter des commentaires implicites (l’utilisateur a-t-il cliqué sur « pouce levé » ?) et réinjectez-les dans vos évaluations hors ligne. 6/ Rendez les évaluations visibles. Mettez un tableau de bord simple devant l’équipe et les parties prenantes indiquant les taux de réussite à l’évaluation, le coût et la latence. Utilisez-le en stand-ups. cela crée une responsabilisation et aide les personnes qui ne sont pas du ML à participer aux discussions sur les compromis. Enfin, traitez les EVALS comme un artefact d’ingénierie de base. Attribuez la propriété, examinez-les dans la revue de code, célébrez lorsque vous ajoutez un nouveau cas délicat. La discipline vous rapportera des dividendes composés au fur et à mesure que vous évoluez.
24,36K