Iteração supera perfeição

Arte → Senso de Execução

Definindo

O termo 'evals' refere-se a avaliações usadas para testar e medir o desempenho de modelos de IA ou de produtos em desenvolvimento.

O objetivo não é fazer avaliações perfeitamente, é melhorar seu produto de forma acionável.

Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

Assista em 00:00:18

Apoiando

A persistência é extremamente valiosa. As empresas de sucesso que estão construindo em qualquer área nova, elas estão passando pela dor de aprender isso, implementar isso e entender o que funciona e o que não funciona. A dor é o novo fosso.

Aishwarya Naresh Reganti + Kiriti BadamWhy most AI products fail: Lessons from 50+ AI deployments at OpenAI, Google & Amazon

Assista em 00:01:16

Apoiando

Eu tenderia menos a tentar de uma vez definir para o modelo 'Ei, aqui está exatamente o que quero que você faça'. Em vez disso, o que eu faria é dividir as coisas em pedaços.

Michael TruellThe rise of Cursor: The $300M ARR AI tool that engineers can't stop using

Assista em 00:47:06

Com ressalvas

O termo 'esta etapa' refere-se à análise e categorização de falhas reais de sistemas de IA antes de construir testes, e 'evals' significa avaliações ou testes automatizados para sistemas de IA.

Você não quer pular essa etapa. A razão pela qual estou gastando tanto tempo com isso é que é aqui que as pessoas se perdem. Eles vão direto para as avaliações, tipo 'Deixe-me apenas escrever alguns testes', e é aí que as coisas saem dos trilhos.

Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

Assista em 47:24

Com ressalvas

'Juízes de LLM' são modelos de IA usados para avaliar automaticamente outras saídas de IA, e 'evals' refere-se a esses sistemas de avaliação automatizados.

Antes de lançar seu LLM como juiz, você quer se certificar de que ele está alinhado com o humano. Muitas pessoas param aí e dizem 'OK, tenho meu prompt de juiz. Acabamos.' Não faça isso, porque é a maneira mais rápida de ter avaliações que não correspondem ao que está acontecendo, e quando as pessoas perdem a confiança em suas avaliações, elas perdem a confiança em você.

Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

Assista em 00:56:28

Também em Senso de Execução:

Faça o trabalho que ninguém mais quer fazer · Embarque rápido, aprenda ainda mais rápido · Inventividade supera recursos

Iteração supera perfeição

Add to Home Screen

The Missing Stamp