La iteración supera a la perfección

Oficio → Sentido de ejecución

Definitorio

"Evals" se refiere a las evaluaciones utilizadas para probar y medir el rendimiento de los modelos o productos de IA durante el desarrollo.

El objetivo no es hacer evaluaciones de forma perfecta, sino mejorar tu producto de manera práctica.

Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

Ver en 00:00:18

Respaldando

La persistencia es extremadamente valiosa. Las empresas exitosas que están construyendo en cualquier área nueva, están atravesando el dolor del aprendizaje, la implementación y la comprensión de lo que funciona y lo que no funciona. El dolor es el nuevo muro de contención.

Aishwarya Naresh Reganti + Kiriti BadamWhy most AI products fail: Lessons from 50+ AI deployments at OpenAI, Google & Amazon

Ver en 00:01:16

Respaldando

Yo me inclinaría menos por intentar de una sola vez decirle al modelo: 'Oye, aquí está exactamente lo que quiero que hagas'. En su lugar, lo que haría sería dividir las cosas en pedazos.

Michael TruellThe rise of Cursor: The $300M ARR AI tool that engineers can't stop using

Ver en 00:47:06

Con reservas

"Este paso" se refiere a analizar y categorizar los fallos reales de los sistemas de IA antes de construir pruebas, y "evals" significa sistemas de evaluación o pruebas automatizados para sistemas de IA.

No quieres saltarte este paso. La razón por la que estoy pasando tanto tiempo en esto es que es aquí donde la gente se pierde. Van directamente a las evaluaciones, como: 'Déjame escribir algunas pruebas', y es ahí donde las cosas se salen de control.

Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

Ver en 47:24

Con reservas

Los jueces de LLM son modelos de IA utilizados para evaluar automáticamente otras salidas de IA, y "evals" se refiere a estos sistemas de evaluación automatizados.

Antes de lanzar tu LLM como juez, quieres asegurarte de que esté alineado con el ser humano. Mucha gente se detiene ahí y dice: 'Bien, tengo mi indicador de juez. Hemos terminado'. No hagas eso, porque es la forma más rápida de que tus evaluaciones no coincidan con lo que está sucediendo, y cuando la gente pierde la confianza en tus evaluaciones, pierde la confianza en ti.

Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

Ver en 00:56:28

También en Sentido de ejecución:

Haz el trabajo que nadie más hará · Lanza rápido, aprende más rápido · La ingeniosidad supera a los recursos

La iteración supera a la perfección

Add to Home Screen

The Missing Stamp