A persistência é extremamente valiosa. As empresas de sucesso que estão construindo em qualquer área nova, elas estão passando pela dor de aprender isso, implementar isso e entender o que funciona e o que não funciona. A dor é o novo fosso.
Aishwarya Naresh Reganti + Kiriti BadamWhy most AI products fail: Lessons from 50+ AI deployments at OpenAI, Google & Amazon
Eu tenderia menos a tentar de uma vez definir para o modelo 'Ei, aqui está exatamente o que quero que você faça'. Em vez disso, o que eu faria é dividir as coisas em pedaços.
Michael TruellThe rise of Cursor: The $300M ARR AI tool that engineers can't stop using
O termo 'esta etapa' refere-se à análise e categorização de falhas reais de sistemas de IA antes de construir testes, e 'evals' significa avaliações ou testes automatizados para sistemas de IA.
Você não quer pular essa etapa. A razão pela qual estou gastando tanto tempo com isso é que é aqui que as pessoas se perdem. Eles vão direto para as avaliações, tipo 'Deixe-me apenas escrever alguns testes', e é aí que as coisas saem dos trilhos.
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders
'Juízes de LLM' são modelos de IA usados para avaliar automaticamente outras saídas de IA, e 'evals' refere-se a esses sistemas de avaliação automatizados.
Antes de lançar seu LLM como juiz, você quer se certificar de que ele está alinhado com o humano. Muitas pessoas param aí e dizem 'OK, tenho meu prompt de juiz. Acabamos.' Não faça isso, porque é a maneira mais rápida de ter avaliações que não correspondem ao que está acontecendo, e quando as pessoas perdem a confiança em suas avaliações, elas perdem a confiança em você.
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders