製品設計は、モデルが正確に機能する度合いに合わせる必要がある。モデルが60%の精度しかない場合は、非常に異なる製品を構築する必要があるでしょうし、95%の精度なら、またさらに別の製品になるでしょう。もし99.5%の精度なら、また全く違う製品になるはずです。
Kevin WeilOpenAI's CPO on how AI changes must-have skills, moats, coding, startup playbooks, more
実行 → 技術的なトレードオフ
製品設計は、モデルが正確に機能する度合いに合わせる必要がある。モデルが60%の精度しかない場合は、非常に異なる製品を構築する必要があるでしょうし、95%の精度なら、またさらに別の製品になるでしょう。もし99.5%の精度なら、また全く違う製品になるはずです。
機械学習の品質が高くなければ、単一のプレイボタンは機能しません。正解率が100%でないかぎり、エラーが出ます。例えば、正解率が20%なら、同時に5つのオプションを表示する必要があります。そうすれば、少なくとも1つは的中する可能性があります。
LLMの評価者には、単一の失敗モードを判断するという限定された課題が与えられています。つまり、問題の範囲が非常に狭く、合格/不合格の2値の出力になるのです。このような限定的な課題であれば、LLMの評価者は非常に高い信頼性を持って判断できます。