एआई शोधकर्ता और प्रयोगशालाएं हर चीज के लिए एआई मॉडल के मूल्यांकन में तेजी से आगे बढ़ी हैं सुरक्षा और अनुपालन हाँ में हाँ मिलाना और संरेखण. लेकिन ऐसा प्रतीत होता है कि कंपनियों और डेवलपर्स को एक नई, विशिष्ट आवश्यकता का सामना करना पड़ रहा है: यह सुनिश्चित करना कि उनका एआई सिस्टम उनके विशिष्ट उत्पाद या सेवा के अनुरूप व्यवहार करे।
उस परीक्षण प्रक्रिया को सरल बनाने के प्रयास में, Microsoft ने मंगलवार को पर्दा उठा दिया ज़ोरमूल्यांकन और प्रतिगमन परीक्षण के लिए अनुकूली विशिष्ट-संचालित स्कोरिंग के लिए संक्षिप्त।
माइक्रोसॉफ्ट का कहना है कि ओपन े उच्च-स्तरीय, प्राकृतिक-भाषा विवरणों को संपूर्ण, स्कोर किए गए परीक्षणों में बदलने के लिए एआई का उपयोग करके एप्लिकेशन-विशिष्ट एआई व्यवहार का मूल्यांकन करना आसान बनाता है, जिनकी जांच की जा सकती है।
ASSERT AI मॉडल के अपेक्षित व्यवहार और नीतियों का सरल भाषा में विवरण लेता है, उन्हें स्वीकार्य और अस्वीकार्य व्यवहारों के एक संरचित सेट में बदल देता है, समस्या परिदृश्य और परीक्षण मामले उत्पन्न करता है, उन्हें लक्ष्य प्रणाली के विरुद्ध चलाता है, और परिणाम स्कोर करता है। यह एआई सिस्टम द्वारा अपनाए गए रास्तों को भी रिकॉर्ड कर सकता है, जिसमें मध्यवर्ती क्रियाएं और टूल कॉल शामिल हैं, ताकि डेवलपर्स निरीक्षण कर सकें कि विफलताएं कहां होती हैं।
यदि वे मूल्यांकन में शामिल चीज़ों को और अधिक अनुकूलित करना चाहते हैं, तो देव सिस्टम संदर्भ, उपकरण और बाधाएं भी प्रदान कर सकते हैं।
उदाहरण के लिए, एक डेवलपर यह निर्दिष्ट कर सकता है कि एक दस्तावेज़ अनुसंधान एआई एजेंट को कंपनी के बाहर के लोगों को ईमेल नहीं भेजना चाहिए, और उसे गोपनीय जानकारी को सी-स्तर के अधिकारियों तक सीमित करना चाहिए और पूर्व संदर्भ को ध्यान में रखते हुए संक्षिप्त सारांश प्रदान करना चाहिए। ASSERT उन नियमों का उपयोग परीक्षण मामले उत्पन्न करने के लिए करेगा जो यह जाँचेंगे कि सिस्टम निरंतर आधार पर उन नियमों का पालन करता है या नहीं।
<figure class="wp-block-
माइक्रोसॉफ्ट के अनुसार, फ्रेमवर्क उस अंतर को भरता है जो व्यापक, अधिक सामान्य मूल्यांकन नहीं कर सकता है जब एआई मॉडल का उद्देश्य उस तरीके से व्यवहार करना है जो किसी एप्लिकेशन या उत्पाद के संदर्भ, नीतियों और उपकरणों द्वारा आकार दिया जाता है।
“हमने जो चीजें सीखी हैं उनमें से एक यह है कि अच्छे निर्णय लेने के लिए मूल्यांकन बिल्कुल महत्वपूर्ण हैं,” उन्होंने कहा सारा बर्डमाइक्रोसॉफ्ट में रिस्पॉन्सिबल एआई के मुख्य उत्पाद अधिकारी। “क्योंकि यदि आप एआई सिस्टम के व्यवहार को नहीं समझते हैं, तो यह जानना वास्तव में कठिन है कि क्या यह आपके संगठन के मानदंडों को पूरा कर रहा है… हमने पाया है कि यदि आप वास्तव में एक भरोसेमंद सिस्टम चाहते हैं, तो आपको कई और आयामों का मूल्यांकन करना चाहिए जो एप्लिकेशन-विशिष्ट हैं।”
बर्ड ने कहा कि ASSERT का उपयोग सिस्टम के निर्माण के दौरान, तैनाती के बाद और यहां तक कि निरंतर निगरानी के लिए भी किया जा सकता है।
एआई उद्योग में क्रमिक लेकिन व्यापक बदलाव के बीच यह रिलीज हुई है। जैसे-जैसे मॉडल अधिक सक्षम होते जा रहे हैं, शोधकर्ता दोहराए जाने योग्य परीक्षण और प्रतिगमन जांच पर ध्यान केंद्रित कर रहे हैं स्टैनफोर्ड की HELM, एमएलकॉमन्स एआईएल्यूमिनेटऔर मूल्यांकन समूह जैसे मीटर विभिन्न परिस्थितियों में मॉडल कैसे व्यवहार करते हैं, यह मापने के लिए बेंचमार्क जारी करना।
जब आप हमारे लेखों में दिए गए लिंक के माध्यम से खरीदारी करते हैं, हम एक छोटा सा कमीशन कमा सकते हैं. इससे हमारी संपादकीय स्वतंत्रता पर कोई असर नहीं पड़ता.
