Lenny Distilled

L'itération l'emporte sur la perfection

Pratique → Sens de l'exécution

Définissant

Les « évaluations » font référence aux évaluations utilisées pour tester et mesurer les performances des modèles d'IA ou des produits en développement.

L'objectif n'est pas de faire des évaluations parfaitement, mais d'améliorer concrètement votre produit.
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders
En faveur
La persévérance est extrêmement précieuse. Les entreprises à succès en ce moment, qui construisent dans un nouveau domaine, traversent la douleur de l'apprentissage, de la mise en œuvre et de la compréhension de ce qui fonctionne et de ce qui ne fonctionne pas. La douleur est le nouveau fossé concurrentiel.
Aishwarya Naresh Reganti + Kiriti BadamWhy most AI products fail: Lessons from 50+ AI deployments at OpenAI, Google & Amazon
En faveur
Je serais moins enclin à essayer d'un seul coup de dire au modèle 'Voici exactement ce que je veux que vous fassiez'. Au lieu de cela, ce que je ferais, c'est de découper les choses en petits morceaux.
Michael TruellThe rise of Cursor: The $300M ARR AI tool that engineers can't stop using
Avec réserves

Cette étape fait référence à l'analyse et à la catégorisation des défaillances réelles des systèmes d'IA avant de construire des tests, et les « évaluations » désignent les systèmes d'évaluation automatisés pour les systèmes d'IA.

Vous ne voulez pas sauter cette étape. La raison pour laquelle j'y passe autant de temps, c'est que c'est là que les gens se perdent. Ils passent directement aux évaluations en se disant 'Laissez-moi juste écrire quelques tests', et c'est là que les choses déraillent.
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders
Avec réserves

Les juges LLM sont des modèles d'IA utilisés pour évaluer automatiquement d'autres sorties d'IA, et les « évaluations » font référence à ces systèmes d'évaluation automatisés.

Avant de publier votre LLM en tant que juge, vous voulez vous assurer qu'il est aligné sur l'humain. Beaucoup de gens s'arrêtent là et disent 'D'accord, j'ai mon prompt de juge. C'est fini.' Ne faites pas ça, car c'est le moyen le plus rapide d'avoir des évaluations qui ne correspondent pas à ce qui se passe, et quand les gens perdent confiance dans vos évaluations, ils vous font perdre confiance.
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

The Missing Stamp

Every episode of Lenny's Podcast, distilled into the insights that matter and the quotes that make them stick.

LENNY WAS HERE__STAMP_DATE__

Lenny, if you're reading this, the stamp's ready when you are. 🧡🔥