सावधान! आपके डेटा पर प्रशिक्षित हो रहे हैं AI मॉडल

देबाशीष चक्रवर्ती Comments Off

पॉडकास्ट निर्माताओं को अपना ट्रांसक्रिप्ट बनाने के लिये ज़ोर देने के लिये कई प्लैटफॉर्म तत्पर हैं। सबस्टैक व स्पाटिफाई ,ऑडियो ट्रांसक्रिप्शन (प्रतिलेखन) के लिये स्वचालित विकल्प भी देते हैं। पर SEO और Accessibility (मसलन बधिरों के लिये) के कोण के इतर, क्या वाकई श्रोता ट्रांसक्रिप्ट चाहते हैं? मेरी निजी राय में तो नहीं। तो ट्रांसक्रिप्ट बनाने पर जोर देने का कारण क्या है?

वॉल स्ट्रीट जर्नल के मुताबिक कृत्रिम बुद्धि (एआई) कंपनियों के सामने आने वाली एक महत्वपूर्ण चुनौती है: उच्च गुणवत्ता वाले प्रशिक्षण डेटा प्राप्त करना। कैम्ब्रिज एनालिटिका घोटाले जैसी घटनाओं से बढ़ी गोपनीयता संबंधी चिंताओं ने डेटा के मनचाहे उपयोग को बाधित किया है। पर ओपनएआई और गूगल जैसी कंपनियों ने इस बाधा को पार करने के लिये कई दफ़ा एआई कॉपीराइट कानूनों से संबंधित संदिग्ध कानूनी क्षेत्र में काम किया है।

डेटा की कमी को दूर करने के लिए, कंपनियों ने विभिन्न स्रोतों की तलाश की है। इनमें गिटहब से कंप्यूटर कोड, शतरंज चाल के डेटाबेस और क्विज़लेट जैसे प्लेटफार्मों से शैक्षिक सामग्री शामिल है।

ओपनएआई को, विशेष रूप से, प्रशिक्षण डेटा की कमी का सामना करना पड़ा। उन्होंने GPT-4 भाषा मॉडल को प्रशिक्षित करने के लिए व्हिस्पर ऑडियो ट्रांसक्रिप्शन मॉडल की मदद से दस लाख घंटे से अधिक के यूट्यूब वीडियो को ट्रांसक्राईब किया। तिस पर कानूनी अस्पष्टता का लाभ उठाते हुये ओपनएआई ने अपने कार्यों को फ़ेयर यूज़ करार देकर उचित भी ठहराया।

एक ओर तो गूगल ने यूट्यूब सामग्री की अनधिकृत स्क्रैपिंग या डाउनलोडिंग पर चिंता व्यक्त की, दूजी ओर, ओपनएआई और गूगल दोनों ने वैधता और अनुपालन के विभिन्न दृष्टिकोणों को दरकिनार कर, यूट्यूब ट्रांसक्रिप्शन का उपयोग करने की बात स्वीकार की है। गूगल ने तो डेटा उपयोग क्षमताओं का विस्तार करने के लिए अपनी गोपनीयता नीति को भी रातोंरात संशोधित किया, ताकि गूगल डॉक्स की सामग्री का भी उपयोग हो सके। मेटा (पहले फेसबुक) को भी इसी तरह की चुनौतियों का सामना करना पड़ा, जिसमें पुस्तक लाइसेंस खरीदने या प्रकाशन कंपनी का अधिग्रहण करने जैसे विकल्पों की खोज करते समय कॉपीराइट सामग्री के अनाधिकृत उपयोग का सहारा लिया गया।

2028 तक एआई प्रशिक्षण हेतु गुणवत्ता वाले डेटा की आसन्न कमी का अनुमान लगाया गया है। प्रस्तावित समाधानों में एआई मॉडल द्वारा उत्पन्न सिंथेटिक यानी नकली डेटा पर प्रशिक्षण या सीमित डेटा के साथ मॉडल की समझ को बढ़ाना शामिल है। हालाँकि, ये विधियाँ फिलहाल अप्रमाणित हैं।

घटते विकल्पों के कारण, कंपनियों अनुमति की परवाह किए बिना उपलब्ध डेटा का उपयोग करने के प्रलोभन का सामना करती रहेंगी भले ही इसमें कानूनी जोखिम हो। अगर आप अपने डेटा का एआई प्रशिक्षण हेतु प्रयोग नहीं होने देना चाहते तो संबंधित अनुप्रयोग की सेटिंग्स में जाकर देखें।

सावधान! आपके डेटा पर प्रशिक्षित हो रहे हैं AI मॉडल

विषय विविधा

पाठक उवाच

लेखागार

लोकप्रिय कहानियाँ

भाषा पर इतिहास का बोझ ना डालें: अनीता नायर

भारत में आधुनिक समुद्र विज्ञान के जनक

कश्मीर बहुत छोटा है आज़ादी के लिए

प्रायोगिक भौतिकी के जनक: गैलीलियो

फ़ेसबुक का इंद्रासन हिलाने आया गूगल+?

रॉकमेल्ट ब्राउज़र : फ़ेसबुकिया वेब की पराकाष्ठा?

पॉडभारती यूट्यूब चैनल से

पॉडभारती क्लासिक से

नवीन पॉडकास्ट