完璧よりも反復改善が大切

クラフト → 実行力

定義

「評価」は、開発中のAIモデルやプロダクトのパフォーマンスをテストし、計測するために使われます。

完璧ではなく、製品を実行可能に改善することが目標です。

Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

支持

継続力は極めて価値があります。現在成功している企業は、新しい分野で成長する過程で学び、実装し、何が機能し、何が機能しないかを理解する痛みを経験しています。痛みが新しい堀です。

Aishwarya Naresh Reganti + Kiriti BadamWhy most AI products fail: Lessons from 50+ AI deployments at OpenAI, Google & Amazon

支持

一度に、'これが私がモデルに欲しい完璧なものだ'と伝えようとするのではなく、少しずつ分割して取り組むことをおすすめします。

Michael TruellThe rise of Cursor: The $300M ARR AI tool that engineers can't stop using

但し書き付き

「このステップ」は、AIシステムの実際の失敗を分析・分類する作業を指し、「評価」はAIシステム向けの自動評価やテストを意味しています。

このステップを飛ばしてはいけません。私がこれほど時間をかけて説明しているのは、ここで人々が迷子になるからです。ただテストを書いて評価に直接進んでしまうと、物事が軌道から外れていきます。

Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

但し書き付き

LLMジャッジはAIモデルで、他のAI出力を自動的に評価するものです。「評価」はこれらの自動評価システムを指しています。

LLMを審判としてリリースする前に、それが人間に合っていることを確認する必要があります。多くの人はそこで終わりにしてしまい、'審判のプロンプトができたので完了だ'と言います。そうしてはいけません。それは評価が現状と一致せず、人々があなたの評価を信頼しなくなる最速の道です。

Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

実行力にも掲載：