「評価」は、開発中のAIモデルやプロダクトのパフォーマンスをテストし、計測するために使われます。
完璧ではなく、製品を実行可能に改善することが目標です。
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders
クラフト → 実行力
「評価」は、開発中のAIモデルやプロダクトのパフォーマンスをテストし、計測するために使われます。
完璧ではなく、製品を実行可能に改善することが目標です。
継続力は極めて価値があります。現在成功している企業は、新しい分野で成長する過程で学び、実装し、何が機能し、何が機能しないかを理解する痛みを経験しています。痛みが新しい堀です。
一度に、'これが私がモデルに欲しい完璧なものだ'と伝えようとするのではなく、少しずつ分割して取り組むことをおすすめします。
「このステップ」は、AIシステムの実際の失敗を分析・分類する作業を指し、「評価」はAIシステム向けの自動評価やテストを意味しています。
このステップを飛ばしてはいけません。私がこれほど時間をかけて説明しているのは、ここで人々が迷子になるからです。ただテストを書いて評価に直接進んでしまうと、物事が軌道から外れていきます。
LLMジャッジはAIモデルで、他のAI出力を自動的に評価するものです。「評価」はこれらの自動評価システムを指しています。
LLMを審判として リリースする前に、それが人間に合っていることを確認する必要があります。多くの人はそこで終わりにしてしまい、'審判のプロンプトができたので完了だ'と言います。そうしてはいけません。それは評価が現状と一致せず、人々があなたの評価を信頼しなくなる最速の道です。