Lenny Distilled

完璧よりも反復改善が大切

クラフト → 実行力

定義

「評価」は、開発中のAIモデルやプロダクトのパフォーマンスをテストし、計測するために使われます。

完璧ではなく、製品を実行可能に改善することが目標です。
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders
支持
継続力は極めて価値があります。現在成功している企業は、新しい分野で成長する過程で学び、実装し、何が機能し、何が機能しないかを理解する痛みを経験しています。痛みが新しい堀です。
Aishwarya Naresh Reganti + Kiriti BadamWhy most AI products fail: Lessons from 50+ AI deployments at OpenAI, Google & Amazon
支持
一度に、'これが私がモデルに欲しい完璧なものだ'と伝えようとするのではなく、少しずつ分割して取り組むことをおすすめします。
Michael TruellThe rise of Cursor: The $300M ARR AI tool that engineers can't stop using
但し書き付き

「このステップ」は、AIシステムの実際の失敗を分析・分類する作業を指し、「評価」はAIシステム向けの自動評価やテストを意味しています。

このステップを飛ばしてはいけません。私がこれほど時間をかけて説明しているのは、ここで人々が迷子になるからです。ただテストを書いて評価に直接進んでしまうと、物事が軌道から外れていきます。
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders
但し書き付き

LLMジャッジはAIモデルで、他のAI出力を自動的に評価するものです。「評価」はこれらの自動評価システムを指しています。

LLMを審判として リリースする前に、それが人間に合っていることを確認する必要があります。多くの人はそこで終わりにしてしまい、'審判のプロンプトができたので完了だ'と言います。そうしてはいけません。それは評価が現状と一致せず、人々があなたの評価を信頼しなくなる最速の道です。
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

The Missing Stamp

Every episode of Lenny's Podcast, distilled into the insights that matter and the quotes that make them stick.

LENNY WAS HERE__STAMP_DATE__

Lenny, if you're reading this, the stamp's ready when you are. 🧡🔥