反复迭代胜过追求完美

产品设计 → 执行力

定义性的

「评估」指用于测试和评测 AI 模型或产品性能的评估系统。

目标不是完美地进行评估,而是要能够切实改进您的产品。

Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

支持

坚持非常有价值。目前成功的公司在任何新领域都在经历学习、实施和理解什么有效、什么无效的痛苦过程。痛苦就是新的护城河。

Aishwarya Naresh Reganti + Kiriti BadamWhy most AI products fail: Lessons from 50+ AI deployments at OpenAI, Google & Amazon

支持

我会倾向于不要试图一次性告诉模型「嘿,这就是我想要你做的」。相反,我会把事情分成小块来进行。

Michael TruellThe rise of Cursor: The $300M ARR AI tool that engineers can't stop using

有保留

「这一步」指分析和分类实际的 AI 系统失效,然后再构建测试。「评估」指针对 AI 系统的自动化评估或测试。

你不想要跳过这一步。我花这么多时间讨论这个问题,是因为这是人们迷失的地方。他们直接进入评估,像是「让我写一些测试」,这就是事情出轨的地方。

Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

有保留

「LLM 裁判」是用于自动评估其他 AI 输出的 AI 模型,「评估」指这些自动化评估系统。

在将您的 LLM 作为裁判发布之前,您要确保它与人类保持一致。很多人就在这里停下来,说「好了,我有裁判提示词,我们完成了。」不要这样做,因为这是您的评估与实际情况不符的最快方式,一旦人们对您的评估失去信任,他们就会失去对您的信任。

Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

同样在执行力中: