नेपालमा एआई : ‘भाषा नै ठूलो बाधा’

शम्भुप्रसाद ढुंगाना

कृत्रिम बुद्धिमता (एआई) विश्वभर तीव्र गतिमा विकसित हुँदै गर्दा नेपाल पनि यस प्रविधिको प्रभावकारी प्रयोगको प्रयासमा रहेको देखिन्छ । तर, नेपालको बहुभाषिक परिवेशमा एआई प्रणालीको विकास र कार्यान्वयन गर्न स्थानीय भाषाको चुनौती देखिन्छ । नेपाली, मैथिली, थारू, भोजपुरी, मगर, बान्तवालगायत दर्जनौँ यस्ता भाषाहरू छन् जुन एआई मोडेलहरूलाई बुझ्न र सही परिणाम दिन कठिनाइ हुन्छ नै ।

नेपालको जनसंख्या करिब तीन करोड छ, र सरकारी तथ्यांकअनुसार १२५ भन्दा बढी भाषाहरू प्रयोगमा छन् तर, एआई विकास गर्ने अधिकांश कम्पनीहरूले विश्वव्यापी भाषाहरू जस्तै अंग्रेजी, चिनियाँ, स्प्यानिसमा केन्द्रित मोडेलहरू विकास गरेका छन् । स्थानीय भाषामा डेटा अभाव, लिपि भिन्नता, र व्याकरणिक जटिलताका कारण नेपालमा एआई प्रविधिको उपयोग सीमित हुने खतरा छ ।
नेपाली भाषामै पर्याप्त शुद्ध डेटा नहुँदा मोडेलले धेरैपटक गलत वा अपूर्ण उत्तर दिने हुन्छ । यो चुनौती विश्वका अन्य बहुभाषिक देशहरूमा पनि देखिएको छ, तर नेपालमा भाषिक विविधता बढी भएकाले समस्या झन् जटिल छ ।

डेटा अभाव र डिजिटल विभाजन
एआईको मुटु नै भन्दा फरक नपर्ला यसको आधार भनेकै डेटा हो । नेपाली भाषामा पर्याप्त डिजिटल डेटा छैन, अधिकांश सरकारी कागजातहरू, समाचार, साहित्य र शैक्षिक सामग्रीहरू वेभमा सीमित मात्रामा उपलब्ध छन् । त्यसमाथि, ग्रामीण क्षेत्रका भाषाहरू जस्तै थारू, मगर, बान्तवालगायत डिजिटलकरण छैन जस्तै अवस्थामा छ ।

नेपाल विद्युत् प्राधिकरणको एक अध्ययनअनुसार, ग्रामीण क्षेत्रमा इन्टरनेट पहुँच ४५ प्रतिशत छ । यसले गर्दा स्थानीय भाषाका डेटा संकलन र एआईलाई मोडेल प्रशिक्षणमा थप चुनौती हुन्छ भाषाकै कारण ।

स्थानीय भाषाको खाडल मात्र होइन एआईको प्रभावले विश्वका धनी र गरिबबीचको दूरी अन्तरलाई अझै फराकिलो बनाउन सक्ने कठोर वास्तविकता संयुक्त राष्ट्र विकास कार्यक्रम (युएनडिपी) को नयाँ प्रतिवेदनले औँल्याएको छ । प्रतिवेदनअनुसार एआई प्रविधिको उपयोगले आधारभूत आवश्यकताहरू र उन्नत ज्ञानको पहुँचमा रहेको गहिरो खाडललाई घटाउने ठोस कदम नचालेसम्म यस प्रविधिको अधिकांश लाभहरू धनी राष्ट्रहरूले नै प्राप्त गर्ने सम्भावना देखाएको छ ।

नेपाली भाषाको देवनागरिक लिपि प्रयोग भए पनि डिजिटल एआई मोडेलहरूको लागि शुद्ध शब्दमा विभाजन चुनौतीपूर्ण छ । यसका साथै, व्याकरणिक रूपान्तरण, शब्दको बहुवचन प्रयोग, क्रियापदका रूपान्तरण, र स्थानीय बोलीका फरक-फरक शैली यस मोडेललाई बुझ्न कठिन बनाउँछ ।
थारू भाषाका अनेकौँ शब्द छन् । एउटै शब्दलाई क्षेत्रअनुसार फरक तरिकाले उच्चारण र लेखाइ हुन्छ । अहिलेका एआई मोडेलहरूले यी सूक्ष्म भिन्नताहरू सम्हाल्न या ठम्याउन सक्दैनन् । यसो भन्दै गर्दा काठमाडौं विश्वविद्यालयले नेपाली संवादात्मक एआई च्याटबोट परीक्षणमा राखेको छ । नेपाल भाषा प्रविधि केन्द्रले थारू, मैथिली, बान्तवा भाषाका डेटा संकलन सुरु गरेको छ । यी प्रयासहरूले स्थानीय भाषामा एआईको प्रयोगमा नयाँ ढोका खोल्नसक्ने अनुमान गर्न सकिन्छ ।

यदि हामीले सही ढंगले स्थानीय भाषाको डेटा तयार पार्‍यौं भने नेपालमा स्वास्थ्य, शिक्षा, र सरकारी सेवामा एआईको प्रयोगले ठूलो क्रान्ति ल्याउन सक्छ । तर, सरकारकै दीर्घकालीन रणनीति र सहयोग आवश्यक छ ।

नेपालमा एआईसम्बन्धी कानुन अहिले प्रारम्भिक चरणमा छन् । सूचना तथा प्रविधि मन्त्रालयले २०८१ मा एआई नीति तयार गर्ने घोषणा गरेको थियो, तर यसमा स्थानीय भाषाको संरक्षण र डेटा गोपनीयताको विषयका बारेमा बोलेको पाइँदैन ।
विशेषज्ञहरू भन्छन् कि स्थानीय भाषामा आधारित एआई विकास गर्दा व्यक्तिगत डेटा सुरक्षा, बौद्धिक सम्पत्ति अधिकार, र भाषिक विविधता संरक्षणको पक्षलाई ध्यान दिनुपर्छ । यसले मात्र दिगो र विश्वासिलो एआई प्रणालीको विकास सम्भव छ ।

नेपालमा एआई र स्थानीय भाषाको डेटा संकलनमा सरकारी र निजी क्षेत्रले भाषिक डेटा डिजिटल गर्नु जरुरी छ । अन्ततः, स्थानीय भाषालाई एआईको केन्द्रमा राखेर विकास गर्न सकिएमा, नेपाल डिजिटल समावेशीकरणमा ठूलो प्रगति गर्नसक्छ । तर, यो काम सजिलो छैन; डेटा, लिपि, व्याकरण, कानुन र नैतिकताको जटिलता पार गर्न लामो समय र प्रतिबद्धता आवश्यक छ ।
(लेखक ढुंगाना लामो समयदेखि सूचनाप्रविधि क्षेत्रमा कार्यरत हुनुहुन्छ ।)