Bewertungen sind heute wie Tests vor einem Jahrzehnt. Offensichtlich wichtig, aber auch unklar, wie und wie viel genau investiert werden soll. Das ist ein guter Ratschlag, aber das Wichtigste ist, es zu versuchen. Wenn Ihr Produkt KI enthält und Sie keine Bewertungen haben, bauen Sie eine Burg aus Sand.
shyamal
shyamal20. Mai 2025
Der Einstieg in die Bewertung erfordert nicht allzu viel. Das Muster, das wir bei der Arbeit für kleine Teams gesehen haben, ähnelt stark der testgetriebenen Entwicklung, die auf KI-Engineering angewendet wird: 1/ Verankern Sie Bewertungen in User Stories, nicht in abstrakten Benchmarks: Setzen Sie sich mit Ihrem Produkt-/Design-Pendant zusammen und listen Sie die konkreten Dinge auf, die Ihr Modell für die Nutzer tun muss. "Fragen zu Versicherungsansprüchen genau beantworten", "SQL-Abfragen aus natürlicher Sprache generieren". Schreiben Sie für jeden 10-20 repräsentative Eingaben und die gewünschten Ausgänge/Verhaltensweisen. Dies ist Ihre erste Evalu-Datei. 2/ Automatisieren Sie vom ersten Tag an, auch wenn es spröde ist. Widerstehen Sie der Versuchung, "nur einen Blick darauf zu werfen". Naja, ok, Vibes skaliert nicht allzu lange. Verpacken Sie Ihre Bewertungen in Code. Sie können einen einfachen pytest schreiben, der Ihre Beispiele in einer Schleife durchläuft, das Modell aufruft und sicherstellt, dass bestimmte Teilzeichenfolgen angezeigt werden. Es ist grob, aber es ist ein Anfang. 3/ Verwenden Sie das Modell, um härtere Evaluierungsdaten zu bootstrappen. Das manuelle Schreiben von Hunderten von Grenzfällen ist teuer. Sie können Reasoning Models (O3) verwenden, um synthetische Variationen zu generieren ("Geben Sie mir 50 Anspruchsfragen mit Brandschäden") und dann von Hand zu filtern. Dies beschleunigt die Berichterstattung, ohne an Relevanz einzubüßen. 4/ Jage nicht den Bestenlisten hinterher; Iterieren Sie, was fehlschlägt. Wenn in der Produktion etwas fehlschlägt, beheben Sie nicht nur die Eingabeaufforderung, sondern fügen Sie den fehlerhaften Fall zu Ihrem Evaluierungssatz hinzu. Im Laufe der Zeit wird Ihre Suite wachsen, um Ihre tatsächlichen Fehlermodi widerzuspiegeln. Steilen Sie Ihre Bewertungen regelmäßig auf (nach Eingabelänge, nach Gebietsschema usw.), um zu sehen, ob Sie bei bestimmten Segmenten zurückgehen. 5/ Entwickeln Sie Ihre Metriken weiter, wenn Ihr Produkt ausgereift ist. Wenn Sie skalieren, möchten Sie eine nuanciertere Bewertung (semantische Ähnlichkeit, menschliche Bewertungen, Kosten-/Latenzverfolgung). Bauen Sie Haken in Ihren Eval-Gurt ein, um diese zu protokollieren und im Laufe der Zeit zu entwickeln. Instrumentieren Sie Ihre Benutzeroberfläche, um implizites Feedback zu sammeln (hat der Benutzer auf "Daumen hoch" geklickt?) und geben Sie dieses in Ihre Offline-Bewertungen zurück. 6/ Machen Sie Bewertungen sichtbar. Stellen Sie dem Team und den Stakeholdern ein einfaches Dashboard zur Verfügung, das die Bestehensquoten, Kosten und Latenzzeiten anzeigt. Verwenden Sie es in Stand-ups. Dies schafft Verantwortlichkeit und hilft Nicht-ML-Leuten, an den Trade-off-Diskussionen teilzunehmen. Behandeln Sie EVAs schließlich als ein zentrales technisches Artefakt. Weisen Sie die Eigentümerschaft zu, überprüfen Sie sie in der Codeüberprüfung, und feiern Sie, wenn Sie einen neuen kniffligen Fall hinzufügen. Die Disziplin wird sich mit zunehmender Skalierung auszahlen.
1,11K