मेटा ने आज लामा 3 पर आधारित दो छोटे मॉडल जारी किए हैं। इनमें से एक में 8 बिलियन पैरामीटर हैं और इसका स्कोर 82 MMLU है – जो मॉडल की मजबूती मापने वाला एक उद्योग मीट्रिक है।
लेकुन ने बताया कि 400 बिलियन पैरामीटर वाले संस्करण सहित बड़े संस्करण अभी विकास के अधीन हैं। उनका अनुमान है कि ये बड़े मॉडल अधिक शक्तिशाली होंगे तथा अधिक भाषाओं और तौर-तरीकों का समर्थन करेंगे।
मेटा लामा 3 मॉडल क्या है?
मेटा ने अपने जनरेटिव एआई पेशकश के रूप में अपना लामा 3 मॉडल जारी किया है। मेटा ने इसे उपलब्ध सर्वोत्तम ओपन सोर्स मॉडल बताया है और दावा किया है कि यह आज उपलब्ध किसी भी अन्य जनरेटिव एआई मॉडल से बेहतर है। लामा 3 चित्र और पाठ उत्पन्न कर सकता है और इसे किसी डोमेन या उपयोग मामले के लिए विशेष रूप से प्रशिक्षित भी किया जा सकता है; इसके पूर्ववर्ती लामा 2 की तुलना में इससे अधिक तेज और कुशल प्रदर्शन की भी उम्मीद की जा सकती है।
कंपनी के अनुसार, लामा 3 में 8 बिलियन या 70 बिलियन पैरामीटर काउंट है और यह भाषा निर्माण, वर्गीकरण, सूचना निष्कर्षण, विषय-वस्तु आधारित प्रश्नोत्तर, अनुसंधान और विकास के साथ-साथ विषय-वस्तु आधारित प्रश्नोत्तर का समर्थन कर सकता है। अब इसे डेटाब्रिक्स, अमेज़न वेब सर्विसेज, गूगल क्लाउड प्लेटफॉर्म और माइक्रोसॉफ्ट एज़्योर से उपयोग के लिए डाउनलोड किया जा सकता है।
उनकी कंपनी की रिपोर्ट के अनुसार, इसके निर्माताओं के अनुसार, लामा 3 ने विभिन्न बेंचमार्क पर अपने पूर्ववर्ती को पीछे छोड़ दिया है। लामा 2 के साथ उपयोग किए गए डेटासेट की तुलना में सात गुना बड़े डेटासेट पर प्रशिक्षित, यह मॉडल अपने पूर्ववर्ती लामा 2 की तुलना में संवादात्मक एआई और प्राकृतिक भाषा निर्माण जैसे क्षेत्रों में अधिक सूक्ष्म प्रतिक्रियाएं उत्पन्न कर सकता है, साथ ही ओपनएआई के जीपीटी-3.5 और गूगल जेमिनी 1.5 प्रो मॉडल जैसे प्रमुख जनरेटिव एआई मॉडल के साथ प्रतिस्पर्धा कर सकता है – उनके अनुसार!
मेटा की योजना समय के साथ और अधिक उन्नत लामा 3 संस्करण जारी करने की है, जिनमें चित्र, टेक्स्ट आउटपुट और बहुत कुछ बनाने में सक्षम संस्करण भी शामिल होंगे। कंपनी ने कहा कि इन नवीनतम मॉडलों से मेटा को अधिक जटिल प्रश्नों का समाधान करने में सहायता मिलेगी, साथ ही बहु-चरणीय योजनाओं को अधिक प्रभावी ढंग से विकसित करने में भी सहायता मिलेगी।
ये संस्करण अत्याधुनिक होंगे; हालाँकि, कोलाब एंटरप्राइज से ट्यूनिंग विकल्प भी जारी किए जा रहे हैं ताकि उपयोगकर्ता अपने स्वयं के डेटा के साथ इन मॉडलों को अनुकूलित और अनुकूलित कर सकें। यह उसी प्रकार है जैसे कि लामा 2 और गार्ड 2 को अनुकूलन के लिए डोमेन-विशिष्ट डेटा के साथ अनुकूलित किया गया था; जिससे अद्वितीय संस्करण तैयार हुए।
मेटा द्वारा नियमित रूप से छोटे और बड़े लामा 3 मॉडल जारी करने का दृष्टिकोण ओपन सोर्स जनरेटिव एआई में अपनी बढ़त बनाए रखने के प्रति उसकी प्रतिबद्धता को दर्शाता है। इसके अतिरिक्त, यह रणनीति विशिष्ट उपयोग मामलों के लिए विशेष रूप से तैयार किए गए विभिन्न मॉडलों की तलाश करने वाले उद्यमों के लिए इसके मूल्य को रेखांकित करती है।
लामा 3 मॉडल की विशेषताएं क्या हैं?
मेटा के अनुसार, मेटा के लामा 3 मॉडल को एक विशाल डेटासेट पर प्रशिक्षित किया गया था, जिसमें बहुभाषी सामग्री के 15T टोकन शामिल थे। डेटा की इस विशाल मात्रा ने इसके नए मॉडल को पाठ को वर्गीकृत करने, बंद प्रश्नों के उत्तर देने, रचनात्मक लेखन को कोड करने, व्यक्तित्व/चरित्र में निहित जानकारी निकालने, तर्क करने और सारांश बनाने जैसे कार्यों में उत्कृष्टता प्राप्त करने में सक्षम बनाया। इसके अलावा, अन्य संवर्द्धन भी शामिल किए गए हैं जैसे कि टिकटोकन-आधारित टोकेनाइज़र को जोड़ना जिससे शब्दावली 128k टोकन तक बढ़ गई।
कंपनी का दावा है कि उनके लामा 3 मॉडल ने एमएमएलयू (स्नातक स्तर का ज्ञान), जीएसएम-8के (ग्रेड-स्कूल गणित), जीपीक्यूए और ह्यूमनइवल जैसे बेंचमार्क पर अन्य डिवाइसों को पीछे छोड़ दिया है; विभिन्न उपयोग मामलों में गूगल जेम्मा 7बी इंस्ट्रक्ट और मिस्ट्रल मीडियम जैसे मॉडलों से बेहतर प्रदर्शन किया है, साथ ही कुछ बेंचमार्क पर क्लाउड सॉनेट, जेमिनी प्रो 1.5 और गूगल की नवीनतम जीपीटी-4 पीढ़ी से भी बेहतर प्रदर्शन किया है।
भाषा मॉडल के लामा 3 परिवार में 8B और 70B दोनों पैरामीटर पूर्व-प्रशिक्षित और निर्देश-संचालित संस्करण शामिल हैं। मेटा के अनुसार, निर्देश-संचालित मॉडल संवाद उपयोग मामलों के लिए अनुकूलित हैं और सामान्य उद्योग मानकों पर कई ओपन सोर्स चैट मॉडल से बेहतर प्रदर्शन करते हैं। इसके अलावा, इन मॉडलों में वार्तालाप प्रवाह वास्तुकला भी शामिल है जो मॉडल को प्राकृतिक असंरचित भाषण को बेहतर ढंग से समझने में सहायता करती है, जबकि संकेतों पर अधिक तत्परता से प्रतिक्रिया देती है।
इन मानकों पर उत्कृष्ट प्रदर्शन के अलावा, कंपनी ने बताया कि उसके नए मॉडल में “भ्रम दर” या उपयोगकर्ता प्रश्नों के उत्तर देने में अशुद्धि की समस्या भी कम हुई है। इसके अलावा, यह बहुभाषी सक्षम भाषण विश्लेषण इंजन प्राकृतिक और कृत्रिम दोनों प्रकार के भाषण रूपों को पहचान सकता है, जबकि प्राकृतिक विराम, संकुचन और कठबोली को आसानी से संभाल सकता है।
मेटा वर्तमान में 400 बिलियन पैरामीटर्स और कई भाषाओं और तौर-तरीकों के समर्थन वाले बड़े, अधिक उन्नत लामा 3 मॉडल पर काम कर रहा है; इन्हें इस वर्ष के अंत में जारी किया जाएगा। मेटा इन अधिक उन्नत लामा मॉडलों को सार्वजनिक रूप से सुलभ बनाने की योजना बना रहा है, उम्मीद है कि उनका उपयोग डेवलपर्स द्वारा अपने स्वयं के डिजाइन के अनुप्रयोगों को संचालित करने के लिए किया जाएगा; इसके अतिरिक्त, मेटा एआई का उन्नत संस्करण, जो वर्तमान में इंस्टाग्राम, फेसबुक और व्हाट्सएप पर सर्च बार को संचालित करता है, इन मॉडलों को अपने आधार के रूप में उपयोग करेगा।
लामा 3 मॉडल के क्या फायदे हैं?
मेटा का लामा 3 मॉडल एक उन्नत एआई समाधान है, जो उन्नत प्रदर्शन और उन्नत उपयोगकर्ता अनुभव प्रदान करता है। व्यवसायों और व्यक्तियों दोनों के लिए उपयुक्त, इसके व्यापक अनुप्रयोग इसे एक स्मार्ट विकल्प बनाते हैं – जैसे भावना विश्लेषण, डेटा वर्गीकरण और भाषा अनुवाद कार्य।
लामा 3 मॉडल को मेटा से निःशुल्क डाउनलोड किया जा सकता है, जिसमें दो पैरामीटर आकार उपलब्ध हैं, क्रमशः 8 बिलियन और 70 बिलियन। इसके अलावा, इसकी उच्च-प्रदर्शन वास्तुकला को इंटेल हार्डवेयर जैसे कि गौडी एआई एक्सेलरेटर और ज़ीऑन प्रोसेसर पर अधिकतम प्रदर्शन के लिए सर्वोत्तम रूप से काम करने के लिए अनुकूलित किया गया है।
मेटा ने बताया है कि उसके लामा 3 मॉडल ने एमएमएलयू, एआरसी और डीआरओपी जैसे बेंचमार्क पर अपने पूर्ववर्ती को पीछे छोड़ दिया है, जबकि अन्य मानक एआई मूल्यांकन मेट्रिक्स पर भी अच्छा प्रदर्शन किया है। इसके अलावा, इसकी पारदर्शिता उपयोगकर्ताओं को यह देखने की अनुमति देती है कि यह अपने आउटपुट पर कैसे पहुंचता है।
इसके अलावा, यह मॉडल विभिन्न कंप्यूटिंग प्लेटफार्मों पर स्केलेबल रहते हुए बड़ी मात्रा में डेटा को संभाल सकता है, जिससे यह विभिन्न परियोजनाओं पर काम करने वाले डेवलपर्स के लिए सुविधाजनक हो जाता है। इसके अलावा, इसकी सटीकता महत्वपूर्ण व्यावसायिक अनुप्रयोग प्रदान करती है।
यह मॉडल विभिन्न प्रकार की भाषाओं को संभाल सकता है और विशिष्ट आवश्यकताओं के अनुरूप आसानी से अनुकूलित हो सकता है। इसके अलावा, मॉडल में लामा गार्ड और साइबरसेकवल सुरक्षा उपाय भी शामिल हैं जो जोखिम को न्यूनतम करने के लिए डिज़ाइन किए गए हैं।
इसके अतिरिक्त, इस मॉडल को अपने पूर्ववर्ती मॉडल की तुलना में सात गुना बड़े डेटासेट पर पूर्व-प्रशिक्षित किया गया था। अकेले 15 ट्रिलियन से अधिक टोकनों पर प्रशिक्षण पूरा होने और बहुभाषी परिदृश्यों पर ध्यान केन्द्रित करने के साथ – वास्तव में यह वर्तमान में अपनी श्रेणी में सर्वश्रेष्ठ मॉडल स्थान रखता है!
हालाँकि, ऐसा विस्तृत मॉडल कुछ चुनौतियाँ भी प्रस्तुत करता है। ऐसी ही एक बाधा है प्रशिक्षण और फाइन-ट्यूनिंग के दौरान महत्वपूर्ण कम्प्यूटेशनल संसाधनों की आवश्यकता – जिसके परिणामस्वरूप इसकी निर्माण प्रक्रिया से जुड़े महत्वपूर्ण कार्बन उत्सर्जन होते हैं। इस समस्या को कम करने के लिए, मेटा ने अपने विकास योजना के एक भाग के रूप में प्रशिक्षण प्रक्रियाओं से जुड़े कार्बन उत्सर्जन को संतुलित करके इसके निर्माण के प्रति नैतिक दृष्टिकोण अपनाया है। इसके अलावा, मेटा ने अपने मॉडल को परीक्षण और परिशोधन के लिए दुनिया भर के डेवलपर्स के लिए स्वतंत्र रूप से उपलब्ध कराया है।
लामा 3 मॉडल के नुकसान क्या हैं?
जैसा कि सभी बड़े भाषा मॉडलों के साथ होता है, लामा 3 में कुछ सीमाएं हो सकती हैं। इस मॉडल को प्रशिक्षित करने में समय और पैसा लगता है; इष्टतम परिणामों के लिए, कई प्रशिक्षण उदाहरण एकत्र करने होंगे जो समय लेने वाले या महंगे साबित हो सकते हैं। इसके अलावा, इसकी प्रतिक्रियाएँ कुछ शब्दों या वाक्यांशों के प्रति अतिसंवेदनशील हो सकती हैं, जिसके कारण अप्रत्याशित प्रतिक्रियाएँ हो सकती हैं।
यद्यपि AI मॉडलिंग में कुछ सीमाएं हैं, फिर भी यह AI-संचालित ऐप्स बनाने के इच्छुक डेवलपर्स और व्यवसायों के लिए एक प्रभावी संसाधन बना हुआ है। यह मॉडल न केवल विकास के समय और लागत को कम कर सकता है, बल्कि यह डेवलपर्स को उपयोगकर्ता अनुभव को अनुकूलित करने की भी अनुमति देता है; जो वित्तीय सेवाओं, स्वास्थ्य सेवा, खुदरा आदि सहित उद्योगों में विशेष रूप से मददगार साबित हो सकता है।
मेटा ने अपने लामा 3 मॉडल में कई संशोधन किए हैं, जैसे आवश्यक मापदंडों की संख्या कम करना और प्रदर्शन में तेजी लाना। इसके अलावा, मल्टीमॉडल इनपुट के लिए समर्थन पेश किया गया, जो संगीत या कविता रचना जैसे रचनात्मक कार्यों के लिए छवियों या ऑडियो क्लिप को सीधे टेक्स्ट आउटपुट में जोड़ सकता है। इसके अलावा, उपयोगकर्ताओं और मशीनों के बीच प्राकृतिक संवाद से भी लाभ हो सकता है।
मेटा ने अपने प्रशिक्षण-पश्चात की प्रक्रिया को मॉडल पैरामीटरों को कम करने से आगे बढ़ाते हुए, इसके समग्र प्रदर्शन को अनुकूलित करने के लिए मानव फीडबैक के साथ पर्यवेक्षित फाइन-ट्यूनिंग और सुदृढीकरण सीखने जैसी नई ट्यूनिंग तकनीकों का निर्माण किया है। इसके अलावा, मेटा का दावा है कि उनके लामा 3 मॉडल में बेहतर अस्वीकृति नमूनाकरण है – जिसका अर्थ है कम गलत आउटपुट।
कंपनी ने लामा 3 मॉडल को क्रियाशील अवस्था में प्रदर्शित करने वाले प्रदर्शन भी जारी किए हैं, जैसे प्रश्नों का उत्तर देना, कार्य पूरा करना और निर्देशों का पालन करना। आप इन डेमो को उनकी वेबसाइट पर देख सकते हैं।
मेटा द्वारा अपने लामा 3 मॉडल को ओपन सोर्स के रूप में जारी करने का निर्णय उद्योग में उनकी स्थिति के बारे में एक प्रभावशाली बयान दे सकता है तथा अन्य कंपनियों को भी इसका अनुसरण करने के लिए प्रोत्साहित कर सकता है, जिससे डेवलपर्स के लिए प्रवेश की बाधाएं कम हो जाएंगी, जबकि उत्पाद निर्माताओं के लिए एआई एकीकरण सरल हो जाएगा।
क्या आप लामा 3 मॉडल तैनात करने में रुचि रखते हैं? संपर्क करें!
