Lenny Distilled

反复迭代胜过追求完美

产品设计 → 执行力

定义性的

「评估」指用于测试和评测 AI 模型或产品性能的评估系统。

目标不是完美地进行评估,而是要能够切实改进您的产品。
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders
支持
坚持非常有价值。目前成功的公司在任何新领域都在经历学习、实施和理解什么有效、什么无效的痛苦过程。痛苦就是新的护城河。
Aishwarya Naresh Reganti + Kiriti BadamWhy most AI products fail: Lessons from 50+ AI deployments at OpenAI, Google & Amazon
支持
我会倾向于不要试图一次性告诉模型「嘿,这就是我想要你做的」。相反,我会把事情分成小块来进行。
Michael TruellThe rise of Cursor: The $300M ARR AI tool that engineers can't stop using
有保留

「这一步」指分析和分类实际的 AI 系统失效,然后再构建测试。「评估」指针对 AI 系统的自动化评估或测试。

你不想要跳过这一步。我花这么多时间讨论这个问题,是因为这是人们迷失的地方。他们直接进入评估,像是「让我写一些测试」,这就是事情出轨的地方。
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders
有保留

「LLM 裁判」是用于自动评估其他 AI 输出的 AI 模型,「评估」指这些自动化评估系统。

在将您的 LLM 作为裁判发布之前,您要确保它与人类保持一致。很多人就在这里停下来,说「好了,我有裁判提示词,我们完成了。」不要这样做,因为这是您的评估与实际情况不符的最快方式,一旦人们对您的评估失去信任,他们就会失去对您的信任。
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

The Missing Stamp

Every episode of Lenny's Podcast, distilled into the insights that matter and the quotes that make them stick.

LENNY WAS HERE__STAMP_DATE__

Lenny, if you're reading this, the stamp's ready when you are. 🧡🔥