Lenny Distilled

완벽보다는 반복이 중요하다

기술 → 실행 감각

정의

「評価」は、開発中のAIモデルやプロダクトのパフォーマンスをテストして測定するための評価を指しています。

평가를 완벽하게 하는 것이 목표가 아니라, 제품을 실용적으로 개선하는 것이 목표입니다.
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders
지지
끈기는 매우 가치 있습니다. 현재 성공한 회사들은 새로운 영역에서 배우고 구현하는 고통을 겪고 있으며, 무엇이 작동하고 무엇이 작동하지 않는지 이해하고 있습니다. 고통이 새로운 경쟁력입니다.
Aishwarya Naresh Reganti + Kiriti BadamWhy most AI products fail: Lessons from 50+ AI deployments at OpenAI, Google & Amazon
지지
한 번에 모델에게 '이것을 정확히 해라'라고 말하는 것보다는 조금씩 분할하는 것에 더 집중할 것입니다.
Michael TruellThe rise of Cursor: The $300M ARR AI tool that engineers can't stop using
단서 있음

「このステップ」は、実際のAI システムの障害を分析・分類して、その後の自動評価(「評価」)を構築する重要性について述べています。

이 단계를 건너뛰면 안 됩니다. 이 부분에서 사람들이 길을 잃기 때문에 이 부분에 많은 시간을 할애하고 있습니다. 바로 평가로 들어가서 '테스트를 작성해 보자'라고 하면 이것이 문제의 시작입니다.
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders
단서 있음

LLMジャッジはAI出力を自動的に評価するAIモデルであり、「評価」はこれらの自動評価システムを指しています。

LLM을 판단자로 공개하기 전에 인간과 일치하도록 만들어야 합니다. 많은 사람들이 거기서 멈추고 '좋아, 내 판단 프롬프트가 있어. 끝났어.'라고 합니다. 그렇게 하지 마세요. 그것이 당신의 평가가 실제와 일치하지 않게 되고, 사람들이 당신의 평가를 신뢰하지 않게 되는 가장 빠른 방법입니다.
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

The Missing Stamp

Every episode of Lenny's Podcast, distilled into the insights that matter and the quotes that make them stick.

LENNY WAS HERE__STAMP_DATE__

Lenny, if you're reading this, the stamp's ready when you are. 🧡🔥