Google का जेमिनी: क्या नया AI मॉडल वास्तव में ChatGPT से बेहतर है? 

गूगल जेमिनी

(माइकल जी मैडेन, कंप्यूटर विज्ञान के प्रोफेसर, गॉलवे विश्वविद्यालय) 

गालवे (आयरलैंड)। गूगल डीपमाइंड ने हाल ही में ओपनएआई के चैटजीपीटी के साथ प्रतिस्पर्धा करने के लिए अपने नए एआई मॉडल जेमिनी की घोषणा की है। जबकि दोनों मॉडल ‘‘जेनरेटिव एआई’’ के उदाहरण हैं, जो नए डेटा (चित्र, शब्द या अन्य मीडिया) उत्पन्न करने के लिए इनपुट प्रशिक्षण जानकारी के पैटर्न ढूंढना सीखते हैं, चैटजीपीटी एक बड़ा भाषा मॉडल (एलएलएम) है जो टेक्स्ट बनाने पर केंद्रित है। जिस तरह चैटजीपीटी संवाद के लिए एक वेब ऐप है, जो तंत्रिका नेटवर्क पर आधारित है, जिसे जीपीटी (भारी मात्रा में टेक्स्ट पर प्रशिक्षित) के नाम से जाना जाता है, गूगल के पास बार्ड नामक एक संवादात्मक वेब ऐप है, जो लाएमडीए (संवाद पर प्रशिक्षित) नामक एक मॉडल पर आधारित था। लेकिन गूगल अब उसे जेमिनी राशि के आधार पर अपग्रेड कर रहा है। जो बात जेमिनी को पहले के जेनेरिक एआई मॉडल जैसे कि लाएमडीए से अलग करती है, वह यह है कि यह एक ‘‘मल्टी-मॉडल’’ है। 

इसका मतलब यह है कि यह इनपुट और आउटपुट के कई तरीकों के साथ सीधे काम करता है: टेक्स्ट इनपुट और आउटपुट का समर्थन करने के साथ-साथ, यह छवियों, ऑडियो और वीडियो का भी समर्थन करता है। तदनुसार, एक नया संक्षिप्त नाम उभर रहा है: एलएमएम (लार्ज मल्टीमॉडल मॉडल), एलएलएम के साथ भ्रमित न हों। सितंबर में, ओपनएआई ने जीपीटी-4 विजन नामक एक मॉडल की घोषणा की जो छवियों, ऑडियो और टेक्स्ट के साथ भी काम कर सकता है। हालाँकि, यह उस तरह से पूरी तरह से मल्टीमॉडल मॉडल नहीं है जैसा जेमिनी होने का वादा करता है। उदाहरण के लिए, जबकि चैटजीपीटी-4, जो जीपीटी-4वी द्वारा संचालित है, ऑडियो इनपुट के साथ काम कर सकता है और संवाद आउटपुट उत्पन्न कर सकता है, ओपन एआई ने पुष्टि की है कि यह व्हिस्पर नामक एक अन्य गहन शिक्षण मॉडल का उपयोग करके इनपुट पर भाषण को पाठ में परिवर्तित करके किया जाता है। 

चैटजीपीटी-4 एक अलग मॉडल का उपयोग करके आउटपुट पर टेक्स्ट को स्पीच में परिवर्तित करता है, जिसका अर्थ है कि जीपीटी-4वी स्वयं पूरी तरह से टेक्स्ट के साथ काम कर रहा है। इसी तरह, चैटजीपीटी-4 छवियों का उत्पादन कर सकता है, लेकिन यह पाठ संकेतों को उत्पन्न करके ऐसा करता है जो डाल-ई 2 नामक एक अलग गहन शिक्षण मॉडल में पारित हो जाते हैं, जो पाठ विवरणों को छवियों में परिवर्तित करता है। इसके विपरीत, गूगल ने जेमिनी को ‘‘मूल रूप से मल्टीमॉडल’’ के रूप में डिज़ाइन किया है। इसका मतलब यह है कि कोर मॉडल सीधे इनपुट प्रकारों (ऑडियो, चित्र, वीडियो और टेक्स्ट) की एक श्रृंखला को संभालता है और उन्हें सीधे आउटपुट भी कर सकता है। 

फैसला
इन दोनों दृष्टिकोणों के बीच अंतर अकादमिक लग सकता है, लेकिन यह महत्वपूर्ण है। गूगल की तकनीकी रिपोर्ट और आज तक के अन्य गुणात्मक परीक्षणों से सामान्य निष्कर्ष यह है कि जेमिनी का वर्तमान सार्वजनिक रूप से उपलब्ध संस्करण, जिसे जेमिनी 1.0 प्रो कहा जाता है, आमतौर पर जीपीटी-4 जितना अच्छा नहीं है, और इसकी क्षमताओं में यह जीपीटी 3.5 के समान है। गूगल ने जेमिनी के एक अधिक शक्तिशाली संस्करण की भी घोषणा की, जिसे जेमिनी 1.0 अल्ट्रा कहा जाता है, और कुछ परिणाम प्रस्तुत किए हैं जो दर्शाते हैं कि यह जीपीटी-4 से अधिक शक्तिशाली है। हालाँकि, दो कारणों से इसका आकलन करना कठिन है। पहला कारण यह है कि गूगल ने अभी तक अल्ट्रा जारी नहीं किया है, इसलिए वर्तमान में परिणामों को स्वतंत्र रूप से मान्य नहीं किया जा सकता है। गूगल के दावों का आकलन करना कठिन होने का दूसरा कारण यह है कि उसने कुछ हद तक भ्रामक प्रदर्शन वीडियो जारी किए। वीडियो में जेमिनी मॉडल को लाइव वीडियो स्ट्रीम पर संवादात्मक रूप से टिप्पणी करते हुए दिखाया गया है। हालाँकि, जैसा कि शुरुआत में ब्लूमबर्ग ने बताया था, वीडियो में प्रदर्शन वास्तविक समय में नहीं किया गया था। उदाहरण के लिए, मॉडल ने पहले से कुछ विशिष्ट कार्य सीखे थे, जैसे कि तीन कप और बॉल ट्रिक, जहां जेमिनी ट्रैक करता है कि गेंद किस कप के नीचे है। ऐसा करने के लिए, इसे स्थिर छवियों का एक क्रम प्रदान किया गया था जिसमें प्रस्तुतकर्ता के हाथ बदले जा रहे कपों पर हैं। 

आशावादी भविष्य
इन मुद्दों के बावजूद, मेरा मानना ​​​​है कि जेमिनी और बड़े मल्टीमॉडल मॉडल जेनरेटिव एआई के लिए एक बेहद रोमांचक कदम हैं। ऐसा उनकी भविष्य की क्षमताओं और एआई उपकरणों के प्रतिस्पर्धी परिदृश्य दोनों के कारण है। जैसा कि मैंने पिछले लेख में बताया था, जीपीटी-4 को लगभग 500 अरब शब्दों पर प्रशिक्षित किया गया था – अनिवार्य रूप से सभी अच्छी गुणवत्ता वाले, सार्वजनिक रूप से उपलब्ध पाठ। गहन शिक्षण मॉडल का प्रदर्शन आम तौर पर मॉडल जटिलता और प्रशिक्षण डेटा की मात्रा में वृद्धि से प्रेरित होता है। इससे यह सवाल खड़ा हो गया है कि आगे कैसे सुधार किया जा सकता है, क्योंकि भाषा मॉडल के लिए हमारे पास नया प्रशिक्षण डेटा लगभग समाप्त हो चुका है। हालाँकि, मल्टीमॉडल मॉडल छवियों, ऑडियो और वीडियो के रूप में प्रशिक्षण डेटा के विशाल नए भंडार खोलते हैं। मैं इस बात को लेकर भी उत्साहित हूं कि एआई के प्रतिस्पर्धी परिदृश्य के लिए इसका क्या मतलब है। पिछले वर्ष से, कई जेनेरिक एआई मॉडल के उद्भव के बावजूद, ओपनएआई के जीपीटी मॉडल प्रभावी रहे हैं, जो उस स्तर का प्रदर्शन करते हैं जो अन्य मॉडल तक पहुंचने में सक्षम नहीं हैं। गूगल का जेमिनी एक प्रमुख प्रतियोगी के उद्भव का संकेत देता है जो क्षेत्र को आगे बढ़ाने में मदद करेगा। बेशक, ओपनएआई लगभग निश्चित रूप से जीपीटी-5 पर काम कर रहा है, और हम उम्मीद कर सकते हैं कि यह मल्टीमॉडल भी होगा और उल्लेखनीय नई क्षमताओं का प्रदर्शन करेगा। यह सब कहा जा रहा है, मैं बहुत बड़े मल्टीमॉडल मॉडल के उद्भव को देखने के लिए उत्सुक हूं जो ओपन-सोर्स और गैर-व्यावसायिक हैं, जो मुझे उम्मीद है कि आने वाले वर्षों में हमारे सामने होंगे। मुझे जेमिनी के कार्यान्वयन की कुछ विशेषताएं भी पसंद हैं। उदाहरण के लिए, गूगल ने जेमिनी नैनो नामक एक संस्करण की घोषणा की है, जो अधिक हल्का है और सीधे मोबाइल फोन पर चलने में सक्षम है। इस तरह के हल्के मॉडल एआई कंप्यूटिंग के पर्यावरणीय प्रभाव को कम करते हैं और गोपनीयता के दृष्टिकोण से इसके कई लाभ हैं, और मुझे यकीन है कि यह विकास प्रतियोगियों को भी इसका अनुसरण करने के लिए प्रेरित करेगा। 

LEAVE A REPLY

Please enter your comment!
Please enter your name here