L'itération l'emporte sur la perfection

Pratique → Sens de l'exécution

Définissant

Les « évaluations » font référence aux évaluations utilisées pour tester et mesurer les performances des modèles d'IA ou des produits en développement.

L'objectif n'est pas de faire des évaluations parfaitement, mais d'améliorer concrètement votre produit.

Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

Regarder à 00:00:18

En faveur

La persévérance est extrêmement précieuse. Les entreprises à succès en ce moment, qui construisent dans un nouveau domaine, traversent la douleur de l'apprentissage, de la mise en œuvre et de la compréhension de ce qui fonctionne et de ce qui ne fonctionne pas. La douleur est le nouveau fossé concurrentiel.

Aishwarya Naresh Reganti + Kiriti BadamWhy most AI products fail: Lessons from 50+ AI deployments at OpenAI, Google & Amazon

Regarder à 00:01:16

En faveur

Je serais moins enclin à essayer d'un seul coup de dire au modèle 'Voici exactement ce que je veux que vous fassiez'. Au lieu de cela, ce que je ferais, c'est de découper les choses en petits morceaux.

Michael TruellThe rise of Cursor: The $300M ARR AI tool that engineers can't stop using

Regarder à 00:47:06

Avec réserves

Cette étape fait référence à l'analyse et à la catégorisation des défaillances réelles des systèmes d'IA avant de construire des tests, et les « évaluations » désignent les systèmes d'évaluation automatisés pour les systèmes d'IA.

Vous ne voulez pas sauter cette étape. La raison pour laquelle j'y passe autant de temps, c'est que c'est là que les gens se perdent. Ils passent directement aux évaluations en se disant 'Laissez-moi juste écrire quelques tests', et c'est là que les choses déraillent.

Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

Regarder à 47:24

Avec réserves

Les juges LLM sont des modèles d'IA utilisés pour évaluer automatiquement d'autres sorties d'IA, et les « évaluations » font référence à ces systèmes d'évaluation automatisés.

Avant de publier votre LLM en tant que juge, vous voulez vous assurer qu'il est aligné sur l'humain. Beaucoup de gens s'arrêtent là et disent 'D'accord, j'ai mon prompt de juge. C'est fini.' Ne faites pas ça, car c'est le moyen le plus rapide d'avoir des évaluations qui ne correspondent pas à ce qui se passe, et quand les gens perdent confiance dans vos évaluations, ils vous font perdre confiance.

Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

Regarder à 00:56:28

Également dans Sens de l'exécution :

Faites le travail que personne d'autre ne veut faire · Expédier rapidement, apprendre encore plus vite · L'ingéniosité l'emporte sur les ressources

L'itération l'emporte sur la perfection

Add to Home Screen

The Missing Stamp