완벽보다는 반복이 중요하다

기술 → 실행 감각

정의

「評価」は、開発中のAIモデルやプロダクトのパフォーマンスをテストして測定するための評価を指しています。

평가를 완벽하게 하는 것이 목표가 아니라, 제품을 실용적으로 개선하는 것이 목표입니다.

Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

지지

끈기는 매우 가치 있습니다. 현재 성공한 회사들은 새로운 영역에서 배우고 구현하는 고통을 겪고 있으며, 무엇이 작동하고 무엇이 작동하지 않는지 이해하고 있습니다. 고통이 새로운 경쟁력입니다.

Aishwarya Naresh Reganti + Kiriti BadamWhy most AI products fail: Lessons from 50+ AI deployments at OpenAI, Google & Amazon

00:01:16에 시청하기

지지

한 번에 모델에게 '이것을 정확히 해라'라고 말하는 것보다는 조금씩 분할하는 것에 더 집중할 것입니다.

Michael TruellThe rise of Cursor: The $300M ARR AI tool that engineers can't stop using

00:47:06에 시청하기

단서 있음

「このステップ」は、実際のAI システムの障害を分析・分類して、その後の自動評価(「評価」)を構築する重要性について述べています。

이 단계를 건너뛰면 안 됩니다. 이 부분에서 사람들이 길을 잃기 때문에 이 부분에 많은 시간을 할애하고 있습니다. 바로 평가로 들어가서 '테스트를 작성해 보자'라고 하면 이것이 문제의 시작입니다.

Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

47:24에 시청하기

단서 있음

LLMジャッジはAI出力を自動的に評価するAIモデルであり、「評価」はこれらの自動評価システムを指しています。

LLM을 판단자로 공개하기 전에 인간과 일치하도록 만들어야 합니다. 많은 사람들이 거기서 멈추고 '좋아, 내 판단 프롬프트가 있어. 끝났어.'라고 합니다. 그렇게 하지 마세요. 그것이 당신의 평가가 실제와 일치하지 않게 되고, 사람들이 당신의 평가를 신뢰하지 않게 되는 가장 빠른 방법입니다.

Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

00:56:28에 시청하기

실행 감각에서도 확인할 수 있습니다:

다른 이들이 하지 않을 일을 해라 · 빨리 출시하고, 더 빨리 배워라 · 자원보다는 융통성이 중요하다

완벽보다는 반복이 중요하다

Add to Home Screen

The Missing Stamp