15.1 C
Delhi
Monday, February 24, 2025

spot_img

Microsoft ने Magma Foundation मॉडल की घोषणा की जो मल्टीमॉडल एजेंटिक कार्यों को पूरा कर सकता है

Facebook
Twitter
Pinterest
WhatsApp



Microsoft ने Magma Foundation मॉडल की घोषणा की जो मल्टीमॉडल एजेंटिक कार्यों को पूरा कर सकता है

माइक्रोसॉफ्ट शोधकर्ताओं ने बुधवार को एक नए फाउंडेशन मॉडल की घोषणा की जो एजेंटिक कार्य कर सकता है। डब्ड मैग्मा, आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल को टेक्स्ट, इमेज, वीडियो और साथ ही स्थानिक प्रारूपों में डेटासेट की एक बड़ी मात्रा में पूर्व-प्रशिक्षित किया गया है। रेडमंड-आधारित टेक दिग्गज ने कहा कि मैग्मा विज़न-लैंग्वेज (वीएल) मॉडल का एक विस्तार है और यह न केवल मल्टीमॉडल जानकारी को समझ सकता है, बल्कि उन पर योजना बना सकता है और भी कार्य कर सकता है। AI एजेंट-सक्षम मॉडल का उपयोग कंप्यूटर विजन, उपयोगकर्ता इंटरफ़ेस (UI) नेविगेशन और रोबोट हेरफेर सहित कई कार्यों में किया जा सकता है।

Microsoft ने मैग्मा फाउंडेशन मॉडल की घोषणा की

एक github में डाकMicrosoft शोधकर्ताओं ने नए मैग्मा फाउंडेशन मॉडल को विस्तृत किया। फाउंडेशन मॉडल विशिष्ट बड़े भाषा मॉडल (एलएलएम) हैं, जो खरोंच से बने होते हैं और किसी अन्य मॉडल से आसुत नहीं होते हैं। वे अक्सर श्रृंखला में अन्य मॉडलों के लिए आधार रेखा बन जाते हैं। मैग्मा इस अर्थ में अद्वितीय है कि एआई मॉडल डेटासेट की एक विस्तृत श्रृंखला पर पूर्व-प्रशिक्षित है।

शोधकर्ताओं ने कहा कि मैग्मा के पीछे बेस आर्किटेक्चर लामा 3 एआई मॉडल है। हालांकि, मैग्मा भी दृश्य-स्थानिक दुनिया में योजना और कार्य करने की क्षमता से लैस है। यह मॉडल को न केवल एक चैटबॉट की तरह आउटपुट उत्पन्न करने की अनुमति देता है, बल्कि क्रियाओं को भी निष्पादित करता है।

इसका उपयोग एक कंप्यूटर विजन चैटबॉट के रूप में किया जा सकता है जो कैमरा सेंसर के साथ जोड़े जाने पर दुनिया के बारे में जानकारी दे सकता है। मैग्मा का उपयोग किसी डिवाइस के यूआई को नियंत्रित करने के लिए भी किया जा सकता है। लेकिन अधिक दिलचस्प बात यह है कि यह एजेंटिक क्षमताओं का उपयोग करके जटिल कार्यों को पूरा करने के लिए रोबोट को भी नियंत्रित कर सकता है।

शोधकर्ताओं ने कहा कि इन क्षमताओं के पीछे एक प्रमुख कारण दो तकनीकी घटकों-सेट-ऑफ-मार्क और ट्रेस-ऑफ-मार्क के साथ विविध डेटासेट है। पूर्व में छवियों, वीडियो और स्थानिक डेटा में एक्शन ग्राउंडिंग को सक्षम करता है, जिसमें मॉडल को छवि अंतरिक्ष में बटन या रोबोट हथियारों के लिए संख्यात्मक निशान की भविष्यवाणी करते हैं। उत्तरार्द्ध मॉडल टेम्पोरल वीडियो डायनेमिक्स को फीड करता है और कार्रवाई करने से पहले अगले फ्रेम की भविष्यवाणी करता है। यह मॉडल को एक मजबूत स्थानिक समझ विकसित करने की अनुमति देता है।

Microsoft शोधकर्ताओं ने आंतरिक परीक्षण के आधार पर AI मॉडल के बेंचमार्क स्कोर भी साझा किए। इसने Openai, अलीबाबा और Google द्वारा सभी एजेंट मूल्यांकन परीक्षणों में प्रतिस्पर्धी स्कोर हासिल किया है, जो मॉडल से बेहतर प्रदर्शन करते हैं। कंपनी ने अब तक सार्वजनिक डोमेन में मैग्मा को जारी नहीं किया है।

Facebook
Twitter
Pinterest
WhatsApp

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Stay Connected

0FansLike
0FollowersFollow
22,200SubscribersSubscribe
- Advertisement -spot_img

Latest Articles