Lenny Distilled

सुधार से पूर्णता बेहतर है

कला → कार्यान्वयन बोध

परिभाषित करने वाली

'मूल्यांकन' का तात्पर्य है कि विकास में एआई मॉडल या उत्पाद कार्यनिष्पादन का परीक्षण और माप करने के लिए उपयोग किए जाने वाले मूल्यांकन।

लक्ष्य पूर्णता से करने का नहीं है, बल्कि अपने उत्पाद में सुधार लाने का है।
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders
समर्थक
अटूट प्रयास अत्यंत मूल्यवान है। वर्तमान में कोई भी सफल कंपनी किसी नए क्षेत्र में काम कर रही है, वे इस सीख के दर्द से गुज़र रहे हैं, इसे लागू कर रहे हैं और यह समझ रहे हैं कि क्या काम करता है और क्या नहीं। दर्द ही नया प्रतिरक्षा है।
Aishwarya Naresh Reganti + Kiriti BadamWhy most AI products fail: Lessons from 50+ AI deployments at OpenAI, Google & Amazon
समर्थक
मैं ज्यादा से ज्यादा इस ओर झुकूंगा कि एक ही बार में मॉडल को बता दूं, 'हे, यह ठीक वह है जिसे मैं चाहता हूं कि आप करें।' इसके बदले जो मैं करूंगा वह है कि मैं चीज़ों को छोटे-छोटे टुकड़ों में काट दूंगा।
Michael TruellThe rise of Cursor: The $300M ARR AI tool that engineers can't stop using
कुछ सावधानियों के साथ

'यह कदम' का संदर्भ है कि वास्तविक एआई प्रणाली असफलताओं का विश्लेषण और वर्गीकरण करना है, इससे पहले कि परीक्षणों को बनाया जाए, और 'मूल्यांकन' का तात्पर्य है कि एआई प्रणालियों के लिए स्वचालित मूल्यांकन या परीक्षण।

आप इस चरण को छोड़ना नहीं चाहते। मैं इस पर इतना ज्यादा समय बिता रहा हूं क्योंकि यही वह जगह है जहां लोग खो जाते हैं। वे सीधे मूल्यांकन में चले जाते हैं, जैसे, 'चलो कुछ परीक्षण लिख देते हैं,' और वही जगह है जहां चीज़ें बिगड़ जाती हैं।
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders
कुछ सावधानियों के साथ

LLM जज AI मॉडल हैं जिनका उपयोग अन्य AI आउटपुट की स्वतः मूल्यांकन करने के लिए किया जाता है, और 'मूल्यांकन' से तात्पर्य इन स्वचालित मूल्यांकन प्रणालियों से है।

अपने एलएलएम को न्यायाधीश के रूप में जारी करने से पहले आप यह सुनिश्चित करना चाहते हैं कि यह मानव के साथ सुमेलित है। कई लोग वहीं रुक जाते हैं और कहते हैं, 'ठीक है, मेरा न्यायाधीश प्रोम्प्ट है। हम हो गए।' ऐसा न करें, क्योंकि यह वह तरीका है जिससे आपके मूल्यांकन वास्तविकता से मेल नहीं खा सकते हैं, और जब लोग आपके मूल्यांकन पर विश्वास खो देते हैं, तो वे आप पर भरोसा खो देते हैं।
Hamel Husain & Shreya ShankarWhy AI evals are the hottest new skill for product builders

The Missing Stamp

Every episode of Lenny's Podcast, distilled into the insights that matter and the quotes that make them stick.

LENNY WAS HERE__STAMP_DATE__

Lenny, if you're reading this, the stamp's ready when you are. 🧡🔥