DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Adam Wolff

Claude Code @AnthropicAI 🤖 Cuisinier passionné, homme de neige dévoué, passionné de yoga

Les évaluations d’aujourd’hui sont comme les tests d’il y a dix ans. C’est évidemment important, mais on ne sait pas non plus exactement comment et combien investir. C’est un excellent conseil, mais le plus important est d’essayer. Si votre produit intègre l’IA et que vous n’avez pas d’évaluations, vous construisez un château de sable.

Débuter avec les Eval ne nécessite pas trop de choses. le modèle que nous avons vu fonctionner pour de petites équipes ressemble beaucoup au développement piloté par les tests appliqué à l’ingénierie de l’IA : 1/ Ancrez les Eval dans les user stories, pas dans des benchmarks abstraits : asseyez-vous avec votre homologue produit/design et listez les choses concrètes que votre modèle doit faire pour les utilisateurs. « répondre avec précision aux questions sur les réclamations d’assurance », « générer des requêtes SQL à partir du langage naturel ». Pour chacune, écrivez 10 à 20 entrées représentatives et les sorties/comportements souhaités. Il s’agit de votre premier fichier EAL. 2/ Automatisez dès le premier jour, même si c’est cassant. Résistez à la tentation de « simplement le regarder ». Bon, ok, les vibrations ne durent pas trop longtemps. Encapsulez vos évaluations dans du code. Vous pouvez écrire un pytest simple qui boucle sur vos exemples, appelle le modèle et affirme que certaines sous-chaînes apparaissent. C’est grossier, mais c’est un début. 3/ Utilisez le modèle pour amorcer des données d’évaluation plus difficiles. L’écriture manuelle de centaines de cas limites est coûteuse. Vous pouvez utiliser des modèles de raisonnement (O3) pour générer des variations synthétiques (« Donnez-moi 50 questions de réclamation impliquant des dommages causés par le feu »), puis filtrer à la main. Cela accélère la couverture sans sacrifier la pertinence. 4/ Ne courez pas après les classements ; Itérez sur ce qui échoue. Lorsqu’un problème échoue en production, ne vous contentez pas de corriger l’invite, ajoutez le cas d’échec à votre ensemble d’évaluations. Au fil du temps, votre suite s’agrandira pour refléter vos modes de défaillance réels. Divisez périodiquement vos évaluations (par longueur d’entrée, par paramètres régionaux, etc.) pour voir si vous régressez sur des segments particuliers. 5/ Faites évoluer vos métriques au fur et à mesure que votre produit mûrit. Au fur et à mesure que vous évoluez, vous aurez besoin d’un scoring plus nuancé (similarité sémantique, évaluations humaines, suivi des coûts/latences). Construisez des crochets dans votre harnais Eval pour les enregistrer et les suivre au fil du temps. instrumentez votre interface utilisateur pour collecter des commentaires implicites (l’utilisateur a-t-il cliqué sur « pouce levé » ?) et réinjectez-les dans vos évaluations hors ligne. 6/ Rendez les évaluations visibles. Mettez un tableau de bord simple devant l’équipe et les parties prenantes indiquant les taux de réussite à l’évaluation, le coût et la latence. Utilisez-le en stand-ups. cela crée une responsabilisation et aide les personnes qui ne sont pas du ML à participer aux discussions sur les compromis. Enfin, traitez les EVALS comme un artefact d’ingénierie de base. Attribuez la propriété, examinez-les dans la revue de code, célébrez lorsque vous ajoutez un nouveau cas délicat. La discipline vous rapportera des dividendes composés au fur et à mesure que vous évoluez.

Meilleurs

Classement

Favoris

Tendance on-chain

Tendance sur X

Récents financements de premier plan

Les plus notables