અંગ્રેજી જેવું જ અફલાતૂન ગુજરાતી ચેટજીપીટી હોત તો… (Part 2)
——————
ચેટજીપીટી જેવું એડવાન્સ્ડ લાર્જ લેંગ્વેજ મોડલ (LLM) સુધી પહોંચતા પહેલાં સૌથી પહેલાં તો ગુજરાતીમાં ફાંકડી નેચરલ લેંગ્વેજ પ્રોસેસિંગ (NLP) સિસ્ટમ વિકસાવવી પડે… અને આ દિશામાં વર્ષોથી કામ થઈ જ રહ્યું છે.
————————
વાત વિચાર – એડિટ પેજ – ગુજરાત સમાચાર
————————
ચેટજીપીટી વાપરનાર પ્રત્યેક ગુજરાતીને ક્યારેક તો વિચાર આવી જ જતો હશેઃ ચેટજીપીટી ગુજરાતીમાં પણ અંગ્રેજીની જેમ જ મસ્તમજાની રીતે ઓપરેટ થતું હોય તો કેવો જલસો પડે! ચેટજીપીટી એ આર્ટિફિશિયલ ઇન્ટેલિજન્સ (AI)નું સૌથી લોકપ્રિય ટૂલ છે. આર્ટિફિશિયલ ઇન્ટેલિજન્સની વાત આવે ત્યારે ભેગેભેગા મશીન લર્નિંગ (ML) અને ડીપ લર્નિંગ (DL) જેવા શબ્દો પણ ઉછળતા રહે છે. શું છે તે?
આર્ટિફિશિયલ ઇન્ટેલિજન્સને વિરાટ છત્રી કલ્પી લો. આ એક એવી ટેકનોલોજિકલ વિદ્યા છે જે બુદ્ધિશાળી મશીનોનું સર્જન કરે છે. AIની નીચે મશીન લર્નિંગ ઊભું છે. મશીન લર્નિંગ એવી સિસ્ટમ છે જે અનુભવના જોરે જાતે શીખતી જાય છે. મશીન લર્નિંગની છત્રી નીચે ઓર એક ચીજ ઊભી છે – ડીપ લર્નિંગ. ડીપ લર્નિંગ એવી સિસ્ટમ છે, જે જુદાં જુદાં નેટવર્ક્સનો ઉપયોગ કરીને ડેટા પ્રોસેસ કરે છે. ટૂંકમાં, આર્ટિફિશિયલ ઇન્ટેલિજન્સ એક વિરાટ ચંદરવો છે, જેની નીચે ડીપ લર્નિંગ અને મશીન લર્નિંગ બન્ને સ્થાન પામે છે.
મુખ્ય વિષય પર પહોંચતા પહેલાં એ પણ જાણી લો કે ન્યુરલ નેટવર્ક એટલે શું. ન્યુરલ નેટવર્ક એ AIની એવી પદ્ધતિ કે જેના થકી કમ્પ્યુટર માણસના દિમાગની જેમ ડેટાને પ્રોસેસ કરતાં શીખે છે. ન્યુરલ નેટવર્ક માણસની ઓછામાં ઓછી મદદ લઈને ઇન્ટેલિજન્ટ નિર્ણયો લેવામાં કમ્પ્યુટરને મદદ કરે છે. ધારો કે, કમ્પ્યુટરને બે જુદા જુદા ઇનપુટ મળે છે-
(૧) મને જણાવો કે હું પેમેન્ટ કેવી રીતે કરી શકું?
(૨) હું પૈસા ટ્રાન્સફર શી રીતે કરી શકું?
અહીં પૂછવાની રીત અલગ છે, પણ ન્યુરલ નેટવર્ક તરત સમજી જશે કે સવાલ તો એક જ પૂછાયો છે. ન્યુરલ નેટવર્કના ઉપયોગ ઘણી જગ્યાએ થાય છે. જેમ કે, મેડિકલ ઇમેજ ક્લાસિફિકેશન દ્વારા જે-તે બીમારીનું નિદાન કરવું, સોશિયલ નેટવર્ક ફિલ્ટર અને બિહેવિયર ડેટા એનેલિસિસ દ્વારા ટાર્ગેટેડ માર્કેટિંગ કરવું, ભૂતકાળના ડેટા અને ફાયનાન્શિયલ ઇન્સ્ટ્રુમેન્ટ્સનો ઉપયોગ કરીને આર્થિક આગાહીઓ કરવી, કેમિકલ કમ્પાઉન્ડ્સને આઇડેન્ટિફાય કરવી ઇત્યાદિ.
નેચરલ લેંગ્વેજ પ્રોસેસિંગ (NLP)માં પણ ન્યુરલ નેટવર્કનો ભરપૂર ઉપયોગ થાય છે. નેચર લેંગ્વેજ પ્રોસેસિંગ કઈ ચિડિયાનું નામ છે ભલા? જાવા, પાયથન, સી પ્લસ-પ્લસ આ બધી કમ્પ્યુટર લેંગ્વેજીસ છે. આમાંની કોઈ પણ ભાષામાં કોડિંગ કરવામાં આવે એટલે કમ્પ્યુટરને પાક્કી સૂચના મળે કે એણે શું કરવાનું છે. પણ આ તો કમ્પ્યુટર પ્રોગ્રામિંગ કે કોડિંગ થયું. તે કંઈ બધાને ન આવડે. આમ આદમી તો એમ જ ઇચ્છે છે કે કમ્પ્યુટરને એની સીધીસાદી, રોજિંદા વપરાશની ભાષા આવડવી જોઈએ. કમ્પ્યુટર તે સમજે પણ છે અને સાધારણ ભાષામાં અપાયેલી સૂચનાનો અમલ પણ કરે છે. આ જ નેચરલ લેંગ્વેજ પ્રોસેસિંગ છે. NLP આર્ટિફિશિયલ ઇન્ટેલિજન્સનું બહુ મહત્ત્વનું અંગ છે. સિરી અને એલેક્સા જેવા વોઇસ-કંટ્રોલ્ડ આસિસ્ટન્ટ્સ એ NLPનાં ઉત્તમ ઉદાહરણો છે. જુદી જુદી વેબસાઇટ્સ પર દેખાતા ચેટબોટ પણ NLPના જોરે કામ કરે છે.
અંગ્રેજી ચેટજીપીટી જેવું જ ફાંકડું ગુજરાતી ચેટજીપીટી હોવું જોઈએ – જો તમારા મનમાં પણ આવી ફુલગુલાબી ઝંખના જાગતી હોય તો સમજી લો કે ચેટજીપીટી જેવા એડવાન્સ્ડ લાર્જ લેંગ્વેજ મોડલ (LLM) સુધી પહોંચતા પહેલાં સૌથી પહેલાં તો ગુજરાતીમાં ફાંકડી નેચરલ લેંગ્વેજ પ્રોસેસિંગ સિસ્ટમ વિકસાવવી પડે… અને આ દિશામાં વર્ષોથી કામ થઈ જ રહ્યું છે.
ગુજરાતી NLP સિસ્ટમ વિકસાવવાની શરૃઆત ક્યારે થઈ હતી? પ્રાપ્ય માહિતીના આધારે, સંભવતઃ સૌથી પહેલું નામ સમીર અંતાણીનું સામે આવે છે. અમેરિકાની પેન્સિલવેનિયા સ્ટેટ યુનિવર્સિટીના કમ્પ્યુટર સાયન્સ એન્ડ એન્જિનીયરિંગ ડિપાર્ટમેન્ટમાં કાર્યરત આ રિસર્ચરે છેક ૧૯૯૯માં ‘ગુજરાતી કેરેક્ટર રેકગ્નિશન’ નામનું રિસર્ચ પેપર પ્રકાશિત કર્યું હતું. એમના સાથી રિસર્ચર હતાં, લલિતા અગ્નિહોત્રી (ફિલિપ્સ રિસર્ચ બ્રિઆર્કલિફ, ન્યુ યોર્ક). ૨૦૦૬માં પ્રોફેસર એસ.કે. શાહ અને એ. શર્માએ સંયુક્તપણે પેપર પ્રકાશિત કર્યું, જેનું શીર્ષક હતું, ‘ડિઝાઇન એન્ડ ઇમ્પ્લિમેન્ટેશન ઓફ ઓપ્ટિકલ કેરેક્ટર રેકગ્નિશન સિસ્ટમ ટુ રેકગ્નાઇઝ ગુજરાતી સ્ક્રિપ્ટ યુઝીંગ ટેમ્પલેટ મેચિંગ’. ત્યાર બાદ ૨૦૦૭માં ‘વેવલેટ ફિચર બેઝ્ડ કન્ફ્યુઝન કેરેક્ટર સેટ્સ ફોર ગુજરાતી સ્ક્રિપ્ટ’ નામનું રિસર્ચ પેપર પ્રકાશિત થયું, જેના લેખકો હતા જીજ્ઞેશ ધોળકિયા (ડિપાર્ટમેન્ટ ઓફ એપ્લાઇડ મેથ, એમ.એસ. યુનિવર્સિટી- વડોદરા), અર્ચિત યાજ્ઞિાક (ડિપાર્ટમેન્ટ ઓફ એપ્લાઇડ આર્ટ્સ, પારૃલ ઇન્સ્ટિટયુટ ઓફ ટેકનોલોજી-વડોદરા) અને અતુલ નેગી (ડિપાર્ટમેન્ટ ઓફ કમ્પ્યુટર એન્ડ ઇન્ફો સાયન્સીસ, યુનિવર્સિટી ઓફ હૈદરાબાદ). ૨૦૧૦થી ડૉ. અપૂર્વ દેસાઈનાં રિસર્ચ પેપર્સ કતારબદ્ધ પ્રકાશિત થતાં ગયાં. ૧૯૯૪થી વીર નર્મદ સાઉથ ગુજરાત યુનિર્વસિટીમાં કાર્યરત પ્રોફેસર (ડૉ.) અપૂર્વ દેસાઈ ડિપાર્ટમેન્ટ ઓફ કમ્પ્યુટર સાયન્સના હેડ છે. એમનું સૌથી પહેલું પેપર હતું, ‘ગુજરાતી હેન્ડરિટન ન્યુમરલ ઓપ્ટિકલ કેરેક્ટર રેકગ્નિશન through ન્યુરલ નેટવર્ક’.
ગુજરાતી NLPની વાત આવે ત્યારે ડો. અપૂર્વ દેસાઈ અને અને પ્રોફેસર પુષ્પક ભટ્ટાચાર્ય (આઇઆઇટી-બોમ્બે)નાં નામ આદરપૂર્વક લેવાં પડે, કેમ કે આ ક્ષેત્રમાં તેમણે ખૂબ મહત્ત્વપૂર્ણ અને પાયારૃપ કામ કર્યાં છે. ડો. ભટ્ટાચાર્યે વર્ડનેટ નામનો લેક્સિકન ડેટાબેઝ તૈયાર કર્યો છે. આ કામ કરવામાં એમને પ્રોફેસર સી.કે. ભેંસડેડીયા અને પ્રોફેસર બ્રિજેશ ભટ્ટનો મજબૂત સાથ મળ્યો હતો.
‘ઓપ્ટિકલ કેરેક્ટર રેકગ્નિશન (OCR) એ નેચરલ લેંગ્વેજ પ્રોસેસિંગનો જ એક ભાગ છે,’ ડો. અપૂર્વ દેસાઈ કહે છે, ‘OCR થકી કમ્પ્યુટર હસ્તલિખિત ગુજરાતી અક્ષરોને ઓળખી લે છે. તમે નોટપેડ પર સ્ટાઇલસ (પેન જેવા ઉપકરણ)થી ગુજરાતીમાં લખો તો તેને ટેક્સ્ટમાં કન્વર્ટ કરી દેવું, સાદાં ગુજરાતી વાક્યોના વ્યાકરણનું એનેલિસિસ કરીને એનું કલર કોડિંગ કરવું વગેરે કામ અમે કર્યાં છે. સ્ટિલ ઇમેજ એટલે કે તસવીરમાં છપાયેલા આંકડાને ઓળખીને અલગ તારવી લેવા, વીડિયોમાં દેખાતા ગુજરાતી શબ્દોને એનેલાઇઝ કરીને છૂટા પાડવા – આ બધાં કામ હજુ ચાલી રહ્યાં છે.’
ગુજરાતી NLPના રિસર્ચરો સામે સૌથી પહેલી ઊભી થતી સમસ્યા આ છેઃ લેંગ્વેજ મોડલને ટ્રેઇન કરવામાં ઉપયોગી બને તેવો શુદ્ધ ગુજરાતી લખાણનો વિશાળ ડેટાસેટ ઉપલબ્ધ નથી! ઓનલાઇન ગુજરાતી કોન્ટેન્ટ તો પુષ્કળ અવેલેબલ છે, પણ ભાષા, જોડણી તેમજ વ્યાકરણની દ્રષ્ટિએ તે શુદ્ધ હોતું નથી. જ્યારે તમે NLP મોડલ બનાવી રહ્યા હો ત્યારે કમ્પ્યુટરના પેટમાં કાચીપાકી ગુજરાતી ભાષા ઠૂંસી દો તે કેમ ચાલે? કમ્પ્યુટરને શરૃઆતથી જ શુદ્ધતમ ગુજરાતી ભાષા શીખવીએ તો જ એ સંતોષકારક પરિણામ આપે. આપણે સાચી જોડણી અને સાચા વ્યાકરણવાળી ગુજરાતી ભાષામાં જવાબો ઇચ્છતા હોઈએ તો NLP મોડલમાં ચોખ્ખામાં ચોખ્ખો ગુજરાતી ડેટા ફીડ કરવો પડે. આ દ્રષ્ટિએ ભગવદ્ગોમંડળ એક ઉત્તમ ડેટાસેટ છે, પણ કોણ જાણે કેમ, રિસર્ચરો માટે તે ઉપલબ્ધ નથી.
‘ધારો કે ભગવદ્ગોમંડળ અને તે કક્ષાના અન્ય ડેટાસેટ મળે તો પણ તે પૂરતું નથી,’ ડો. અપૂર્વ દેસાઈ કહે છે.
કેમ? ગુજરાતી ભાષાનું ટેકનોલોજીકરણ કરવા મથી રહેલા રિસર્ચરોને સામે કેવા કેવા અવરોધો ઊભા થતા રહે છે? આ અવરોધો દૂર કરવાના ઉપાયો ખરા? આના જવાબો હવે પછી.
– શિશિર રામાવત
#vaatvichar #gujaratsamachar #GujaratiAI #Gujarati #NLPTraining
Leave a Reply