<p style="text-align: justify;"><strong>AI Cost:</strong> अगर आप एआई से हिंदी में बात करते हैं तो यह आपको इंग्लिश के मुकाबले महंगा पड़ रहा है. भले ही ओपनएआई, एंथ्रोपिक और गूगल जैसी कंपनियां अपने <a title="एआई मॉडल्स" href=" target="_self">एआई मॉडल्स</a> की समान एक्सेस की बात करती हैं, लेकिन हिंदी और अरबी समेत इंग्लिश को छोड़कर बाकी भाषाओं में एआई को यूज करना महंगा है. एक डेटा में यह बात निकलकर सामने आई है कि इंग्लिश को छोड़कर बाकी किसी भी भाषा में एआई यूज करना महंगा सौदा है.</p>
<p style="text-align: justify;"><strong>क्या है इसका कारण?</strong></p>
<p style="text-align: justify;">इसका कारण एआई मॉडल की प्रोसेसिंग में छिपा हुआ है. आसान भाषा में समझें तो हिंदी भाषा के प्रॉम्प्ट के लिए आपको इंग्लिश से ज्यादा टोकन खर्च करने पड़ेंगे. टोकन का मतलब उस यूनिट से है, जो <a title="एआई सिस्टम" href=" target="_self">एआई सिस्टम</a> किसी टेक्स्ट को पढ़ने या समझने के लिए यूज करते हैं. यानी इंग्लिश में कोई बात कहने के लिए आपके कम टोकन लगेंगे, जबकि हिंदी में वही बात कहने के लिए ज्यादा टोकन यूज होंगे. रिसर्चर और डेवलपर्स इस तरीके को ‘लैंग्वेज टैक्स’ कह रहे हैं. इसे अलग-अलग भाषाओं को प्रोसेस करने की हिडन कॉस्ट के तौर पर भी देखा जा रहा है.</p>
<p style="text-align: justify;"><strong>हिंदी और इंग्लिश यूज की लागत में कितना अंतर?</strong></p>
<p style="text-align: justify;">कई हफ्ते पहले ओपनएआई के रिसर्चर Aran Komatsuzaki ने एक एक्सपेरिमेंट में यह कंपेयर किया था कि ओपनएआई और एंथ्रोपिक का टोकनाइज अलग-अलग भाषाओं को टेक्स्ट को कैसे हैंडल करता है. रिजल्ट में सामने आया है कि ओपनएआई पर हिंदी टेक्स्ट को इंग्लिश के मुकाबले 1.37 गुना अधिक टोकन की जरूरत पड़ी. एंथ्रोपिक क्लॉड पर इंग्लिश के मुकाबले हिंदी टेक्स्ट को 3.24 गुना अधिक टोकन यूज करने पड़े. इसी तरह अरबी को 2.86 गुना और चाइनीज को 1.71 गुना अधिक टोकन की जरूरत पड़ी. इसका मतलब है कि इंग्लिश भाषी यूजर जितनी जानकारी के लिए एक टोकन का बजट खर्च कर रहा है, उतनी ही जानकारी के लिए हिंदी यूजर को 1.5 से 3.3 गुना तक टोकन का बजट लगाना पड़ रहा है. बाकी भाषाओं के साथ भी ऐसा ही हो रहा है.</p>
<p style="text-align: justify;"><strong>…लेकिन ऐसा हो क्यों रहा है?</strong></p>
<p style="text-align: justify;">जब एआई मॉडल किसी प्रॉम्प्ट को समझता है, उससे पहले यह उस टेक्स्ट को टोकन नाम की छोटी यूनिट में कन्वर्ट कर लेता है. यह प्रोसेस टोकनाइजर नाम का कंपोनेंट पूरी करता है. अब चूंकि ज्यादातर मॉडल इंग्लिश डेटा पर ट्रेन किए गए हैं, इसलिए ये इंग्लिश को आसानी से समझ लेते हैं. हिंदी और अरबी समेत दूसरी भाषाओं को इन्हें अलग-अलग स्क्रिप्ट और स्ट्रक्चर में तोड़ने की जरूरत पड़ती है, जिसमें ज्यादा टोकन लगते हैं. जानकारों का कहना है कि इससे बचने के लिए कंपनियों को अलग-अलग भाषाओं में मॉडल को ट्रेनिंग देनी चाहिए.</p>
<p style="text-align: justify;"><strong>ये भी पढ़ें-</strong></p>
<p style="text-align: justify;"><strong><a title="कई लैपटॉप में टचपैड सेंटर की जगह लेफ्ट में क्यों होता है? बहुत कम लोगों को पता है इसका जवाब" href=" target="_self">कई लैपटॉप में टचपैड सेंटर की जगह लेफ्ट में क्यों होता है? बहुत कम लोगों को पता है इसका जवाब</a></strong></p>
हिंदी बोलने वालों को एआई का यूज पड़ रहा ज्यादा महंगा, सामने आई चौंकाने वाली जानकारी
Related articles
