गूगल का जेमिनी: क्या नया एआई मॉडल वास्तव में चैटजीपीटी से बेहतर है?

गालवे (आयरलैंड), गूगल डीपमाइंड ने हाल ही में ओपनएआई के चैटजीपीटी के साथ प्रतिस्पर्धा करने के लिए अपने नए एआई मॉडल जेमिनी की घोषणा की है। जबकि दोनों मॉडल ‘‘जेनरेटिव एआई’’ के उदाहरण हैं, जो नए डेटा (चित्र, शब्द या अन्य मीडिया) उत्पन्न करने के लिए इनपुट प्रशिक्षण जानकारी के पैटर्न ढूंढना सीखते हैं, चैटजीपीटी एक बड़ा भाषा मॉडल (एलएलएम) है जो टेक्स्ट बनाने पर केंद्रित है।

जिस तरह चैटजीपीटी संवाद के लिए एक वेब ऐप है, जो तंत्रिका नेटवर्क पर आधारित है, जिसे जीपीटी (भारी मात्रा में टेक्स्ट पर प्रशिक्षित) के नाम से जाना जाता है, गूगल के पास बार्ड नामक एक संवादात्मक वेब ऐप है, जो लाएमडीए (संवाद पर प्रशिक्षित) नामक एक मॉडल पर आधारित था। लेकिन गूगल अब उसे जेमिनी राशि के आधार पर अपग्रेड कर रहा है।

जो बात जेमिनी को पहले के जेनेरिक एआई मॉडल जैसे कि लाएमडीए से अलग करती है, वह यह है कि यह एक ‘‘मल्टी-मॉडल’’ है। इसका मतलब यह है कि यह इनपुट और आउटपुट के कई तरीकों के साथ सीधे काम करता है: टेक्स्ट इनपुट और आउटपुट का समर्थन करने के साथ-साथ, यह छवियों, ऑडियो और वीडियो का भी समर्थन करता है। तदनुसार, एक नया संक्षिप्त नाम उभर रहा है: एलएमएम (लार्ज मल्टीमॉडल मॉडल), एलएलएम के साथ भ्रमित न हों।

सितंबर में, ओपनएआई ने जीपीटी-4 विजन नामक एक मॉडल की घोषणा की जो छवियों, ऑडियो और टेक्स्ट के साथ भी काम कर सकता है। हालाँकि, यह उस तरह से पूरी तरह से मल्टीमॉडल मॉडल नहीं है जैसा जेमिनी होने का वादा करता है।

उदाहरण के लिए, जबकि चैटजीपीटी-4, जो जीपीटी-4वी द्वारा संचालित है, ऑडियो इनपुट के साथ काम कर सकता है और संवाद आउटपुट उत्पन्न कर सकता है, ओपन एआई ने पुष्टि की है कि यह व्हिस्पर नामक एक अन्य गहन शिक्षण मॉडल का उपयोग करके इनपुट पर भाषण को पाठ में परिवर्तित करके किया जाता है।

चैटजीपीटी-4 एक अलग मॉडल का उपयोग करके आउटपुट पर टेक्स्ट को स्पीच में परिवर्तित करता है, जिसका अर्थ है कि जीपीटी-4वी स्वयं पूरी तरह से टेक्स्ट के साथ काम कर रहा है।

इसी तरह, चैटजीपीटी-4 छवियों का उत्पादन कर सकता है, लेकिन यह पाठ संकेतों को उत्पन्न करके ऐसा करता है जो डाल-ई 2 नामक एक अलग गहन शिक्षण मॉडल में पारित हो जाते हैं, जो पाठ विवरणों को छवियों में परिवर्तित करता है।

इसके विपरीत, गूगल ने जेमिनी को ‘‘मूल रूप से मल्टीमॉडल’’ के रूप में डिज़ाइन किया है। इसका मतलब यह है कि कोर मॉडल सीधे इनपुट प्रकारों (ऑडियो, चित्र, वीडियो और टेक्स्ट) की एक श्रृंखला को संभालता है और उन्हें सीधे आउटपुट भी कर सकता है।

फैसला

इन दोनों दृष्टिकोणों के बीच अंतर अकादमिक लग सकता है, लेकिन यह महत्वपूर्ण है। गूगल की तकनीकी रिपोर्ट और आज तक के अन्य गुणात्मक परीक्षणों से सामान्य निष्कर्ष यह है कि जेमिनी का वर्तमान सार्वजनिक रूप से उपलब्ध संस्करण, जिसे जेमिनी 1.0 प्रो कहा जाता है, आमतौर पर जीपीटी-4 जितना अच्छा नहीं है, और इसकी क्षमताओं में यह जीपीटी 3.5 के समान है।

गूगल ने जेमिनी के एक अधिक शक्तिशाली संस्करण की भी घोषणा की, जिसे जेमिनी 1.0 अल्ट्रा कहा जाता है, और कुछ परिणाम प्रस्तुत किए हैं जो दर्शाते हैं कि यह जीपीटी-4 से अधिक शक्तिशाली है। हालाँकि, दो कारणों से इसका आकलन करना कठिन है। पहला कारण यह है कि गूगल ने अभी तक अल्ट्रा जारी नहीं किया है, इसलिए वर्तमान में परिणामों को स्वतंत्र रूप से मान्य नहीं किया जा सकता है।

गूगल के दावों का आकलन करना कठिन होने का दूसरा कारण यह है कि उसने कुछ हद तक भ्रामक प्रदर्शन वीडियो जारी किए। वीडियो में जेमिनी मॉडल को लाइव वीडियो स्ट्रीम पर संवादात्मक रूप से टिप्पणी करते हुए दिखाया गया है।

हालाँकि, जैसा कि शुरुआत में ब्लूमबर्ग ने बताया था, वीडियो में प्रदर्शन वास्तविक समय में नहीं किया गया था। उदाहरण के लिए, मॉडल ने पहले से कुछ विशिष्ट कार्य सीखे थे, जैसे कि तीन कप और बॉल ट्रिक, जहां जेमिनी ट्रैक करता है कि गेंद किस कप के नीचे है। ऐसा करने के लिए, इसे स्थिर छवियों का एक क्रम प्रदान किया गया था जिसमें प्रस्तुतकर्ता के हाथ बदले जा रहे कपों पर हैं।

आशावादी भविष्य

इन मुद्दों के बावजूद, मेरा मानना ​​​​है कि जेमिनी और बड़े मल्टीमॉडल मॉडल जेनरेटिव एआई के लिए एक बेहद रोमांचक कदम हैं। ऐसा उनकी भविष्य की क्षमताओं और एआई उपकरणों के प्रतिस्पर्धी परिदृश्य दोनों के कारण है। जैसा कि मैंने पिछले लेख में बताया था, जीपीटी-4 को लगभग 500 अरब शब्दों पर प्रशिक्षित किया गया था – अनिवार्य रूप से सभी अच्छी गुणवत्ता वाले, सार्वजनिक रूप से उपलब्ध पाठ।

गहन शिक्षण मॉडल का प्रदर्शन आम तौर पर मॉडल जटिलता और प्रशिक्षण डेटा की मात्रा में वृद्धि से प्रेरित होता है। इससे यह सवाल खड़ा हो गया है कि आगे कैसे सुधार किया जा सकता है