La persistencia es extremadamente valiosa. Las empresas exitosas que están construyendo en cualquier área nueva, están atravesando el dolor del aprendizaje, la implementación y la comprensión de lo que funciona y lo que no funciona. El dolor es el nuevo muro de contención.
Aishwarya Naresh Reganti + Kiriti BadamWhy most AI products fail: Lessons from 50+ AI deployments at OpenAI, Google & Amazon
Yo me inclinaría menos por intentar de una sola vez decirle al modelo: 'Oye, aquí está exactamente lo que quiero que hagas'. En su lugar, lo que haría sería dividir las cosas en pedazos.
Michael TruellThe rise of Cursor: The $300M ARR AI tool that engineers can't stop using
"Este paso" se refiere a analizar y categorizar los fallos reales de los sistemas de IA antes de construir pruebas, y "evals" significa sistemas de evaluación o pruebas automatizados para sistemas de IA.
No quieres saltarte este paso. La razón por la que estoy pasando tanto tiempo en esto es que es aquí donde la gente se pierde. Van directamente a las evaluaciones, como: 'Déjame escribir algunas pruebas', y es ahí donde las cosas se salen de control.
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders
Los jueces de LLM son modelos de IA utilizados para evaluar automáticamente otras salidas de IA, y "evals" se refiere a estos sistemas de evaluación automatizados.
Antes de lanzar tu LLM como juez, quieres asegurarte de que esté alineado con el ser humano. Mucha gente se detiene ahí y dice: 'Bien, tengo mi indicador de juez. Hemos terminado'. No hagas eso, porque es la forma más rápida de que tus evaluaciones no coincidan con lo que está sucediendo, y cuando la gente pierde la confianza en tus evaluaciones, pierde la confianza en ti.
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders