「評価」は、開発中のAIモデルやプロダクトのパフォーマンスをテストして測定するための評価を指しています。
평가를 완벽하게 하는 것이 목표가 아니라, 제품을 실용적으로 개선하는 것이 목표입니다.
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders
기술 → 실행 감각
「評価」は、開発中のAIモデルやプロダクトのパフォーマンスをテストして測定するための評価を指しています。
평가를 완벽하게 하는 것이 목표가 아니라, 제품을 실용적으로 개선하는 것이 목표입니다.
끈기는 매우 가치 있습니다. 현재 성공한 회사들은 새로운 영역에서 배우고 구현하는 고통을 겪고 있으며, 무엇이 작동하고 무엇이 작동하지 않는지 이해하고 있습니다. 고통이 새로운 경쟁력입니다.
한 번에 모델에게 '이것을 정확히 해라'라고 말하는 것보다는 조금씩 분할하는 것에 더 집중할 것입니다.
「このステップ」は、実際のAI システムの障害を分析・分類して、その後の自動評価(「評価」)を構築する重要性について述べています。
이 단계를 건너뛰면 안 됩니다. 이 부분에서 사람들이 길을 잃기 때문에 이 부분에 많은 시간을 할애하고 있습니다. 바로 평가로 들어가서 '테스트를 작성해 보자'라고 하면 이것이 문제의 시작입니다.
LLMジャッジはAI出力を自動的に評価するAIモデルであり、「評価」はこれらの自動評価システムを指しています。
LLM을 판단자로 공개하기 전에 인간과 일치하도록 만들어야 합니다. 많은 사람들이 거기서 멈추고 '좋아, 내 판단 프롬프트가 있어. 끝났어.'라고 합니다. 그렇게 하지 마세요. 그것이 당신의 평가가 실제와 일치하지 않게 되고, 사람들이 당신의 평가를 신뢰하지 않게 되는 가장 빠른 방법입니다.