अत्यंत गंभीर है कृत्रिम मेधा के विकास में भारतीय भाषाओं के डाटा की कमी का मामला -

इक्कीसवीं सदी के तीसरे दशक में कृत्रिम मेधा या आर्टिफिशियल इंटेलिजेंस विश्व की सबसे प्रभावशाली तकनीकों में से एक बन चुकी है। स्वास्थ्य, शिक्षा, उद्योग, मीडिया, प्रशासन और व्यापार जैसे अनेक क्षेत्रों में इसका उपयोग तेजी से बढ़ रहा है। इस तकनीक की सफलता का एक महत्वपूर्ण आधार विशाल मात्रा में उपलब्ध डिजिटल डेटा होता है। कृत्रिम मेधा के मॉडल उसी भाषा और विषय को बेहतर समझ पाते हैं जिसके बारे में पर्याप्त और गुणवत्तापूर्ण डेटा उपलब्ध हो। यही कारण है कि विश्व स्तर पर एआई तकनीक अंग्रेजी जैसी भाषाओं में अधिक प्रभावी दिखाई देती है, जबकि अनेक अन्य भाषाएँ तकनीकी विकास की इस दौड़ में पीछे रह जाती हैं। भारत जैसे बहुभाषी देश में यह स्थिति एक गंभीर चुनौती के रूप में सामने आ रही है, क्योंकि यहाँ भाषाई विविधता अत्यंत व्यापक है लेकिन भारतीय भाषाओं के लिए उपलब्ध डिजिटल डेटा अभी भी सीमित है। यही कारण है कि विशेषज्ञ लगातार यह चेतावनी दे रहे हैं कि यदि भारतीय भाषाओं के लिए पर्याप्त डेटा का विकास नहीं किया गया तो एआई तकनीक के लाभ समाज के बड़े हिस्से तक नहीं पहुँच पाएँगे।

भारत की भाषाई विविधता को समझना इस समस्या की गंभीरता को स्पष्ट करता है। भारत की 2011 की जनगणना के अनुसार देश में 19,500 से अधिक मातृभाषाएँ और बोलियाँ दर्ज की गई थीं। इनमें से लगभग 121 भाषाएँ ऐसी हैं जिनके बोलने वालों की संख्या 10,000 से अधिक है। भारतीय संविधान की आठवीं अनुसूची में 22 भाषाओं को आधिकारिक मान्यता प्राप्त है, जिनमें हिंदी, बंगाली, तमिल, तेलुगु, मराठी, गुजराती, कन्नड़, मलयालम, उर्दू, पंजाबी, असमिया और ओड़िया जैसी प्रमुख भाषाएँ शामिल हैं। इन भाषाओं को करोड़ों लोग बोलते हैं और इनके साहित्य, संस्कृति और सामाजिक जीवन की समृद्ध परंपरा रही है। इसके बावजूद डिजिटल दुनिया में इन भाषाओं की उपस्थिति अपेक्षाकृत कम है। इंटरनेट पर उपलब्ध सामग्री का अधिकांश भाग अभी भी अंग्रेजी भाषा में है। विभिन्न अंतरराष्ट्रीय अध्ययनों के अनुसार वैश्विक वेब सामग्री का एक बड़ा हिस्सा अंग्रेजी में उपलब्ध है, जबकि अनेक भाषाओं की डिजिटल उपस्थिति सीमित है। यही असंतुलन कृत्रिम मेधा के विकास में भी दिखाई देता है।

कृत्रिम मेधा के आधुनिक मॉडल, विशेष रूप से भाषा आधारित प्रणालियाँ, विशाल डिजिटल पाठ और भाषाई डेटा के आधार पर प्रशिक्षित होती हैं। यदि किसी भाषा में पर्याप्त डिजिटल सामग्री उपलब्ध नहीं है, तो उस भाषा के लिए विकसित एआई मॉडल अपेक्षाकृत कमजोर या सीमित क्षमता वाले होते हैं। भारत के संदर्भ में यही समस्या सबसे बड़ी चुनौती बनकर उभर रही है। हिंदी, तमिल, बंगाली और मराठी जैसी प्रमुख भाषाओं के लिए कुछ हद तक डिजिटल संसाधन उपलब्ध हैं, लेकिन कई अन्य भाषाओं और बोलियों के लिए यह संसाधन अत्यंत सीमित हैं। इसका परिणाम यह होता है कि एआई आधारित अनुवाद, वाणी पहचान, पाठ विश्लेषण और डिजिटल सहायक जैसी सेवाएँ भारतीय भाषाओं में उतनी प्रभावी नहीं हो पातीं जितनी अंग्रेजी में होती हैं।

इस समस्या की गंभीरता को विभिन्न नीति दस्तावेजों और शोध अध्ययनों में भी रेखांकित किया गया है। भारत सरकार के नीति आयोग ने अपनी “राष्ट्रीय एआई रणनीति” से संबंधित चर्चाओं में इस बात पर जोर दिया है कि भारतीय भाषाओं के लिए डिजिटल डेटा का अभाव एआई विकास की बड़ी बाधाओं में से एक है। इसी प्रकार इलेक्ट्रॉनिक्स और सूचना प्रौद्योगिकी मंत्रालय द्वारा संचालित कई तकनीकी कार्यक्रमों में यह स्वीकार किया गया है कि स्थानीय भाषाओं के लिए बड़े पैमाने पर भाषाई डेटा का निर्माण आवश्यक है। यदि यह कार्य समय रहते नहीं किया गया तो तकनीकी विकास का लाभ केवल उन लोगों तक सीमित रह जाएगा जो अंग्रेजी या कुछ प्रमुख भाषाओं का उपयोग करते हैं।

भारतीय भाषाओं के डेटा की कमी केवल तकनीकी समस्या नहीं है बल्कि यह सामाजिक और आर्थिक असमानता से भी जुड़ी हुई है। भारत की बड़ी आबादी अभी भी अपनी मातृभाषाओं में संवाद करती है। ग्रामीण क्षेत्रों और छोटे शहरों में रहने वाले करोड़ों लोग अंग्रेजी का सीमित उपयोग करते हैं या बिल्कुल नहीं करते। यदि डिजिटल सेवाएँ और एआई आधारित प्रणालियाँ मुख्य रूप से अंग्रेजी पर आधारित रहेंगी, तो समाज का एक बड़ा हिस्सा इन सेवाओं से वंचित रह सकता है। इसका सीधा प्रभाव शिक्षा, स्वास्थ्य, सरकारी सेवाओं और डिजिटल अर्थव्यवस्था तक पहुँच पर पड़ सकता है। इसलिए भारतीय भाषाओं के लिए एआई विकास केवल तकनीकी नवाचार का प्रश्न नहीं बल्कि सामाजिक समावेशन का भी विषय है।

शिक्षा के क्षेत्र में भी भारतीय भाषाओं के डेटा की कमी का प्रभाव स्पष्ट दिखाई देता है। एआई आधारित शैक्षिक उपकरणों का उपयोग दुनिया भर में तेजी से बढ़ रहा है। व्यक्तिगत सीखने की प्रणाली, स्वचालित अनुवाद और डिजिटल शिक्षण सामग्री जैसी तकनीकें शिक्षा को अधिक सुलभ बनाने में मदद कर सकती हैं। लेकिन यदि ये उपकरण केवल अंग्रेजी में उपलब्ध हों, तो भारतीय भाषाओं में शिक्षा प्राप्त करने वाले लाखों छात्र इन सुविधाओं से वंचित रह सकते हैं। भारत में प्राथमिक और माध्यमिक शिक्षा का एक बड़ा हिस्सा क्षेत्रीय भाषाओं में संचालित होता है। इसलिए शिक्षा में एआई के प्रभावी उपयोग के लिए भारतीय भाषाओं में डिजिटल सामग्री और डेटा का निर्माण अत्यंत आवश्यक है।

स्वास्थ्य और प्रशासन जैसे क्षेत्रों में भी यही समस्या सामने आती है। यदि स्वास्थ्य सेवाओं में उपयोग होने वाली एआई प्रणालियाँ केवल कुछ भाषाओं तक सीमित होंगी, तो ग्रामीण क्षेत्रों के मरीजों तक उनका लाभ नहीं पहुँच पाएगा। इसी प्रकार सरकारी सेवाओं के डिजिटल प्लेटफॉर्म भी तभी प्रभावी होंगे जब वे नागरिकों की भाषाई विविधता को ध्यान में रखते हुए विकसित किए जाएँ। भारत में डिजिटल शासन की सफलता काफी हद तक इस बात पर निर्भर करेगी कि तकनीक कितनी भाषाई समावेशिता के साथ विकसित की जाती है।

भारतीय भाषाओं के डेटा की कमी के पीछे कई कारण हैं। सबसे बड़ा कारण यह है कि लंबे समय तक डिजिटल तकनीक का विकास मुख्य रूप से अंग्रेजी भाषा के आधार पर हुआ। इंटरनेट और कंप्यूटर तकनीक की प्रारंभिक संरचना भी अंग्रेजी पर केंद्रित थी। इसके अतिरिक्त कई भारतीय भाषाओं में मानकीकृत डिजिटल पाठ और भाषाई संसाधनों का अभाव रहा है। कई भाषाओं में लिखित साहित्य तो प्रचुर मात्रा में है, लेकिन उसका डिजिटल रूपांतरण अभी भी सीमित है। इसके अलावा भाषाई अनुसंधान और तकनीकी संसाधनों में निवेश भी अपेक्षाकृत कम रहा है।

हाल के वर्षों में इस स्थिति को सुधारने के लिए कुछ प्रयास शुरू हुए हैं। भारत सरकार और विभिन्न तकनीकी संस्थानों ने भारतीय भाषाओं के लिए डिजिटल संसाधन विकसित करने की दिशा में कई पहलें शुरू की हैं। उदाहरण के लिए भाषा प्रौद्योगिकी से संबंधित कार्यक्रमों के माध्यम से विभिन्न भाषाओं के लिए डेटा संग्रह और संसाधन निर्माण का कार्य किया जा रहा है। कई विश्वविद्यालय और शोध संस्थान भी भारतीय भाषाओं के लिए भाषाई कॉर्पस विकसित करने पर काम कर रहे हैं। तकनीकी कंपनियाँ भी बहुभाषी एआई मॉडल विकसित करने की दिशा में निवेश कर रही हैं। हालांकि इन प्रयासों के बावजूद अभी भी बहुत काम किया जाना बाकी है।

भविष्य के डिजिटल समाज में भाषा की भूमिका अत्यंत महत्वपूर्ण होगी। यदि कृत्रिम मेधा के विकास में भारतीय भाषाओं को पर्याप्त स्थान नहीं दिया गया, तो यह तकनीक समाज के बड़े हिस्से को पीछे छोड़ सकती है। इसके विपरीत यदि भारतीय भाषाओं के लिए पर्याप्त डिजिटल डेटा और संसाधन विकसित किए जाते हैं, तो एआई तकनीक शिक्षा, प्रशासन, कृषि और स्वास्थ्य जैसे क्षेत्रों में व्यापक सकारात्मक परिवर्तन ला सकती है। इससे डिजिटल सेवाएँ अधिक समावेशी बनेंगी और तकनीकी विकास का लाभ समाज के हर वर्ग तक पहुँच सकेगा।

अंततः यह स्पष्ट है कि कृत्रिम मेधा के विकास में भारतीय भाषाओं के डेटा की कमी का मुद्दा अत्यंत गंभीर है। यह केवल तकनीकी विकास का प्रश्न नहीं बल्कि भाषाई समानता, सांस्कृतिक संरक्षण और सामाजिक न्याय से भी जुड़ा हुआ है। यदि भारत को वास्तव में डिजिटल और तकनीकी शक्ति के रूप में विकसित होना है, तो उसे अपनी भाषाई विविधता को तकनीकी विकास का आधार बनाना होगा। इसके लिए सरकार, तकनीकी कंपनियों, शैक्षणिक संस्थानों और नागरिक समाज को मिलकर काम करना होगा। बड़े पैमाने पर भाषाई डेटा का निर्माण, डिजिटल सामग्री का विकास और बहुभाषी तकनीकी अनुसंधान ही इस समस्या का स्थायी समाधान प्रदान कर सकते हैं। तभी कृत्रिम मेधा का विकास भारत की वास्तविक भाषाई और सांस्कृतिक विविधता को प्रतिबिंबित करते हुए एक समावेशी तकनीकी भविष्य का निर्माण कर सकेगा।

डॉ. शैलेश शुक्ला

वैश्विक समूह संपादक, सृजन संसार अंतरराष्ट्रीय पत्रिका समूह