Lenny Distilled

Iteration schlägt Perfektion

Handwerk → Umsetzungsverständnis

Definierend

Mit 'Evals' sind hier Bewertungen gemeint, die verwendet werden, um die Leistung von KI-Modellen oder Produkten in der Entwicklung zu testen und messen.

Das Ziel ist es nicht, die Evaluierungen perfekt durchzuführen, sondern sie so umzusetzen, dass Ihr Produkt dadurch verbessert wird.
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders
Unterstützend
Ausdauer ist extrem wertvoll. Erfolgreiche Unternehmen, die gerade in einem neuen Bereich aufbauen, durchlaufen den Schmerz des Lernens, der Implementierung und des Verstehens, was funktioniert und was nicht. Der Schmerz ist der neue Graben.
Aishwarya Naresh Reganti + Kiriti BadamWhy most AI products fail: Lessons from 50+ AI deployments at OpenAI, Google & Amazon
Unterstützend
Ich würde eher weniger darauf setzen, auf einmal dem Modell zu sagen: 'Hier ist genau das, was ich will, dass du tust.' Stattdessen würde ich die Dinge in kleine Häppchen aufteilen.
Michael TruellThe rise of Cursor: The $300M ARR AI tool that engineers can't stop using
Mit Vorbehalten

Dieser Schritt bezieht sich auf das Analysieren und Kategorisieren tatsächlicher KI-Systemfehler, bevor Tests aufgebaut werden, und mit 'Evals' sind automatisierte Bewertungen oder Tests für KI-Systeme gemeint.

Sie wollen diesen Schritt nicht überspringen. Der Grund, warum ich so viel Zeit damit verbringen, ist, dass das der Punkt ist, an dem die Leute verloren gehen. Sie gehen direkt zu den Evaluierungen über und schreiben einfach ein paar Tests, und das ist der Punkt, an dem die Dinge aus dem Ruder laufen.
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders
Mit Vorbehalten

Mit 'KI-Richtern' sind hier KI-Modelle gemeint, die verwendet werden, um andere KI-Ausgaben automatisch zu bewerten, und mit 'Evals' sind diese automatisierten Bewertungssysteme gemeint.

Bevor Sie Ihren LLM als Richter freigeben, wollen Sie sicherstellen, dass er auf den Menschen abgestimmt ist. Viele Leute hören dort auf und sagen: 'Okay, ich habe meine Richter-Eingabeaufforderung. Wir sind fertig.' Machen Sie das nicht, denn das ist der schnellste Weg, um Evaluierungen zu haben, die nicht mit dem übereinstimmen, was vor sich geht, und wenn die Leute Ihr Vertrauen in Ihre Evaluierungen verlieren, verlieren sie Ihr Vertrauen.
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

The Missing Stamp

Every episode of Lenny's Podcast, distilled into the insights that matter and the quotes that make them stick.

LENNY WAS HERE__STAMP_DATE__

Lenny, if you're reading this, the stamp's ready when you are. 🧡🔥