Lenny Distilled

Iteração supera perfeição

Arte → Senso de Execução

Definindo

O termo 'evals' refere-se a avaliações usadas para testar e medir o desempenho de modelos de IA ou de produtos em desenvolvimento.

O objetivo não é fazer avaliações perfeitamente, é melhorar seu produto de forma acionável.
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders
Apoiando
A persistência é extremamente valiosa. As empresas de sucesso que estão construindo em qualquer área nova, elas estão passando pela dor de aprender isso, implementar isso e entender o que funciona e o que não funciona. A dor é o novo fosso.
Aishwarya Naresh Reganti + Kiriti BadamWhy most AI products fail: Lessons from 50+ AI deployments at OpenAI, Google & Amazon
Apoiando
Eu tenderia menos a tentar de uma vez definir para o modelo 'Ei, aqui está exatamente o que quero que você faça'. Em vez disso, o que eu faria é dividir as coisas em pedaços.
Michael TruellThe rise of Cursor: The $300M ARR AI tool that engineers can't stop using
Com ressalvas

O termo 'esta etapa' refere-se à análise e categorização de falhas reais de sistemas de IA antes de construir testes, e 'evals' significa avaliações ou testes automatizados para sistemas de IA.

Você não quer pular essa etapa. A razão pela qual estou gastando tanto tempo com isso é que é aqui que as pessoas se perdem. Eles vão direto para as avaliações, tipo 'Deixe-me apenas escrever alguns testes', e é aí que as coisas saem dos trilhos.
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders
Com ressalvas

'Juízes de LLM' são modelos de IA usados para avaliar automaticamente outras saídas de IA, e 'evals' refere-se a esses sistemas de avaliação automatizados.

Antes de lançar seu LLM como juiz, você quer se certificar de que ele está alinhado com o humano. Muitas pessoas param aí e dizem 'OK, tenho meu prompt de juiz. Acabamos.' Não faça isso, porque é a maneira mais rápida de ter avaliações que não correspondem ao que está acontecendo, e quando as pessoas perdem a confiança em suas avaliações, elas perdem a confiança em você.
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

The Missing Stamp

Every episode of Lenny's Podcast, distilled into the insights that matter and the quotes that make them stick.

LENNY WAS HERE__STAMP_DATE__

Lenny, if you're reading this, the stamp's ready when you are. 🧡🔥