「评估」指用于测试和评测 AI 模型或产品性能的评估系统。
目标不是完美地进行评估,而是要能够切实改进您的产品。
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders
产品设计 → 执行力
「评估」指用于测试和评测 AI 模型或产品性能的评估系统。
目标不是完美地进行评估,而是要能够切实改进您的产品。
坚持非常有价值。目前成功的公司在任何新领域都在经历学习、实施和理解什么有效、什么无效的痛苦过程。痛苦就是新的护城河。
我会倾向于不要试图一次性告诉模型「嘿,这就是我想要你做的」。相反,我会把事情分成小块来进行。
「这一步」指分析和分类实际的 AI 系统失效,然后再构建测试。「评估」指针对 AI 系统的自动化评估或测试。
你不想要跳过这一步。我花这么多时间讨论这个问题,是因为这是人们迷失的地方。他们直接进入评估,像是「让我写一些测试」,这就是事情出轨的地方。
「LLM 裁判」是用于自动评估其他 AI 输出的 AI 模型,「评估」指这些自动化评估系统。
在将您的 LLM 作为裁判发布之前,您要确保它与人类保持一致。很多人就在这里停下来,说「好了,我有裁判提示词,我们完成了。」不要这样做,因为这是您的评估与实际情况不符的最快方式,一旦人们对您的评估失去信任,他们就会失去对您的信任。