Lenny Distilled

La iteración supera a la perfección

Oficio → Sentido de ejecución

Definitorio

"Evals" se refiere a las evaluaciones utilizadas para probar y medir el rendimiento de los modelos o productos de IA durante el desarrollo.

El objetivo no es hacer evaluaciones de forma perfecta, sino mejorar tu producto de manera práctica.
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders
Respaldando
La persistencia es extremadamente valiosa. Las empresas exitosas que están construyendo en cualquier área nueva, están atravesando el dolor del aprendizaje, la implementación y la comprensión de lo que funciona y lo que no funciona. El dolor es el nuevo muro de contención.
Aishwarya Naresh Reganti + Kiriti BadamWhy most AI products fail: Lessons from 50+ AI deployments at OpenAI, Google & Amazon
Respaldando
Yo me inclinaría menos por intentar de una sola vez decirle al modelo: 'Oye, aquí está exactamente lo que quiero que hagas'. En su lugar, lo que haría sería dividir las cosas en pedazos.
Michael TruellThe rise of Cursor: The $300M ARR AI tool that engineers can't stop using
Con reservas

"Este paso" se refiere a analizar y categorizar los fallos reales de los sistemas de IA antes de construir pruebas, y "evals" significa sistemas de evaluación o pruebas automatizados para sistemas de IA.

No quieres saltarte este paso. La razón por la que estoy pasando tanto tiempo en esto es que es aquí donde la gente se pierde. Van directamente a las evaluaciones, como: 'Déjame escribir algunas pruebas', y es ahí donde las cosas se salen de control.
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders
Con reservas

Los jueces de LLM son modelos de IA utilizados para evaluar automáticamente otras salidas de IA, y "evals" se refiere a estos sistemas de evaluación automatizados.

Antes de lanzar tu LLM como juez, quieres asegurarte de que esté alineado con el ser humano. Mucha gente se detiene ahí y dice: 'Bien, tengo mi indicador de juez. Hemos terminado'. No hagas eso, porque es la forma más rápida de que tus evaluaciones no coincidan con lo que está sucediendo, y cuando la gente pierde la confianza en tus evaluaciones, pierde la confianza en ti.
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

The Missing Stamp

Every episode of Lenny's Podcast, distilled into the insights that matter and the quotes that make them stick.

LENNY WAS HERE__STAMP_DATE__

Lenny, if you're reading this, the stamp's ready when you are. 🧡🔥