Sun-Temple-Baanner

અંગ્રેજી જેવું જ અફલાતૂન ગુજરાતી ચેટજીપીટી હોત તો… (Part 2)


Post Published by


Post Published on


Post Categories


,

Search Your Query


Explore Content


Reach Us


Drop a Mail

hello@sarjak.org

Donate Us


Help us to enrich more with just a Cup of Coffee

Be a Sarjak


અંગ્રેજી જેવું જ અફલાતૂન ગુજરાતી ચેટજીપીટી હોત તો… (Part 2)


અંગ્રેજી જેવું જ અફલાતૂન ગુજરાતી ચેટજીપીટી હોત તો… (Part 2)

——————

ચેટજીપીટી જેવું એડવાન્સ્ડ લાર્જ લેંગ્વેજ મોડલ (LLM) સુધી પહોંચતા પહેલાં સૌથી પહેલાં તો ગુજરાતીમાં ફાંકડી નેચરલ લેંગ્વેજ પ્રોસેસિંગ (NLP) સિસ્ટમ વિકસાવવી પડે… અને આ દિશામાં વર્ષોથી કામ થઈ જ રહ્યું છે.

————————
વાત વિચાર – એડિટ પેજ – ગુજરાત સમાચાર
————————

ચેટજીપીટી વાપરનાર પ્રત્યેક ગુજરાતીને ક્યારેક તો વિચાર આવી જ જતો હશેઃ ચેટજીપીટી ગુજરાતીમાં પણ અંગ્રેજીની જેમ જ મસ્તમજાની રીતે ઓપરેટ થતું હોય તો કેવો જલસો પડે! ચેટજીપીટી એ આર્ટિફિશિયલ ઇન્ટેલિજન્સ (AI)નું સૌથી લોકપ્રિય ટૂલ છે. આર્ટિફિશિયલ ઇન્ટેલિજન્સની વાત આવે ત્યારે ભેગેભેગા મશીન લર્નિંગ (ML) અને ડીપ લર્નિંગ (DL) જેવા શબ્દો પણ ઉછળતા રહે છે. શું છે તે?

આર્ટિફિશિયલ ઇન્ટેલિજન્સને વિરાટ છત્રી કલ્પી લો. આ એક એવી ટેકનોલોજિકલ વિદ્યા છે જે બુદ્ધિશાળી મશીનોનું સર્જન કરે છે. AIની નીચે મશીન લર્નિંગ ઊભું છે. મશીન લર્નિંગ એવી સિસ્ટમ છે જે અનુભવના જોરે જાતે શીખતી જાય છે. મશીન લર્નિંગની છત્રી નીચે ઓર એક ચીજ ઊભી છે – ડીપ લર્નિંગ. ડીપ લર્નિંગ એવી સિસ્ટમ છે, જે જુદાં જુદાં નેટવર્ક્સનો ઉપયોગ કરીને ડેટા પ્રોસેસ કરે છે. ટૂંકમાં, આર્ટિફિશિયલ ઇન્ટેલિજન્સ એક વિરાટ ચંદરવો છે, જેની નીચે ડીપ લર્નિંગ અને મશીન લર્નિંગ બન્ને સ્થાન પામે છે.

મુખ્ય વિષય પર પહોંચતા પહેલાં એ પણ જાણી લો કે ન્યુરલ નેટવર્ક એટલે શું. ન્યુરલ નેટવર્ક એ AIની એવી પદ્ધતિ કે જેના થકી કમ્પ્યુટર માણસના દિમાગની જેમ ડેટાને પ્રોસેસ કરતાં શીખે છે. ન્યુરલ નેટવર્ક માણસની ઓછામાં ઓછી મદદ લઈને ઇન્ટેલિજન્ટ નિર્ણયો લેવામાં કમ્પ્યુટરને મદદ કરે છે. ધારો કે, કમ્પ્યુટરને બે જુદા જુદા ઇનપુટ મળે છે-

(૧) મને જણાવો કે હું પેમેન્ટ કેવી રીતે કરી શકું?
(૨) હું પૈસા ટ્રાન્સફર શી રીતે કરી શકું?

અહીં પૂછવાની રીત અલગ છે, પણ ન્યુરલ નેટવર્ક તરત સમજી જશે કે સવાલ તો એક જ પૂછાયો છે. ન્યુરલ નેટવર્કના ઉપયોગ ઘણી જગ્યાએ થાય છે. જેમ કે, મેડિકલ ઇમેજ ક્લાસિફિકેશન દ્વારા જે-તે બીમારીનું નિદાન કરવું, સોશિયલ નેટવર્ક ફિલ્ટર અને બિહેવિયર ડેટા એનેલિસિસ દ્વારા ટાર્ગેટેડ માર્કેટિંગ કરવું, ભૂતકાળના ડેટા અને ફાયનાન્શિયલ ઇન્સ્ટ્રુમેન્ટ્સનો ઉપયોગ કરીને આર્થિક આગાહીઓ કરવી, કેમિકલ કમ્પાઉન્ડ્સને આઇડેન્ટિફાય કરવી ઇત્યાદિ.

નેચરલ લેંગ્વેજ પ્રોસેસિંગ (NLP)માં પણ ન્યુરલ નેટવર્કનો ભરપૂર ઉપયોગ થાય છે. નેચર લેંગ્વેજ પ્રોસેસિંગ કઈ ચિડિયાનું નામ છે ભલા? જાવા, પાયથન, સી પ્લસ-પ્લસ આ બધી કમ્પ્યુટર લેંગ્વેજીસ છે. આમાંની કોઈ પણ ભાષામાં કોડિંગ કરવામાં આવે એટલે કમ્પ્યુટરને પાક્કી સૂચના મળે કે એણે શું કરવાનું છે. પણ આ તો કમ્પ્યુટર પ્રોગ્રામિંગ કે કોડિંગ થયું. તે કંઈ બધાને ન આવડે. આમ આદમી તો એમ જ ઇચ્છે છે કે કમ્પ્યુટરને એની સીધીસાદી, રોજિંદા વપરાશની ભાષા આવડવી જોઈએ. કમ્પ્યુટર તે સમજે પણ છે અને સાધારણ ભાષામાં અપાયેલી સૂચનાનો અમલ પણ કરે છે. આ જ નેચરલ લેંગ્વેજ પ્રોસેસિંગ છે. NLP આર્ટિફિશિયલ ઇન્ટેલિજન્સનું બહુ મહત્ત્વનું અંગ છે. સિરી અને એલેક્સા જેવા વોઇસ-કંટ્રોલ્ડ આસિસ્ટન્ટ્સ એ NLPનાં ઉત્તમ ઉદાહરણો છે. જુદી જુદી વેબસાઇટ્સ પર દેખાતા ચેટબોટ પણ NLPના જોરે કામ કરે છે.

અંગ્રેજી ચેટજીપીટી જેવું જ ફાંકડું ગુજરાતી ચેટજીપીટી હોવું જોઈએ – જો તમારા મનમાં પણ આવી ફુલગુલાબી ઝંખના જાગતી હોય તો સમજી લો કે ચેટજીપીટી જેવા એડવાન્સ્ડ લાર્જ લેંગ્વેજ મોડલ (LLM) સુધી પહોંચતા પહેલાં સૌથી પહેલાં તો ગુજરાતીમાં ફાંકડી નેચરલ લેંગ્વેજ પ્રોસેસિંગ સિસ્ટમ વિકસાવવી પડે… અને આ દિશામાં વર્ષોથી કામ થઈ જ રહ્યું છે.

ગુજરાતી NLP સિસ્ટમ વિકસાવવાની શરૃઆત ક્યારે થઈ હતી? પ્રાપ્ય માહિતીના આધારે, સંભવતઃ સૌથી પહેલું નામ સમીર અંતાણીનું સામે આવે છે. અમેરિકાની પેન્સિલવેનિયા સ્ટેટ યુનિવર્સિટીના કમ્પ્યુટર સાયન્સ એન્ડ એન્જિનીયરિંગ ડિપાર્ટમેન્ટમાં કાર્યરત આ રિસર્ચરે છેક ૧૯૯૯માં ‘ગુજરાતી કેરેક્ટર રેકગ્નિશન’ નામનું રિસર્ચ પેપર પ્રકાશિત કર્યું હતું. એમના સાથી રિસર્ચર હતાં, લલિતા અગ્નિહોત્રી (ફિલિપ્સ રિસર્ચ બ્રિઆર્કલિફ, ન્યુ યોર્ક). ૨૦૦૬માં પ્રોફેસર એસ.કે. શાહ અને એ. શર્માએ સંયુક્તપણે પેપર પ્રકાશિત કર્યું, જેનું શીર્ષક હતું, ‘ડિઝાઇન એન્ડ ઇમ્પ્લિમેન્ટેશન ઓફ ઓપ્ટિકલ કેરેક્ટર રેકગ્નિશન સિસ્ટમ ટુ રેકગ્નાઇઝ ગુજરાતી સ્ક્રિપ્ટ યુઝીંગ ટેમ્પલેટ મેચિંગ’. ત્યાર બાદ ૨૦૦૭માં ‘વેવલેટ ફિચર બેઝ્ડ કન્ફ્યુઝન કેરેક્ટર સેટ્સ ફોર ગુજરાતી સ્ક્રિપ્ટ’ નામનું રિસર્ચ પેપર પ્રકાશિત થયું, જેના લેખકો હતા જીજ્ઞેશ ધોળકિયા (ડિપાર્ટમેન્ટ ઓફ એપ્લાઇડ મેથ, એમ.એસ. યુનિવર્સિટી- વડોદરા), અર્ચિત યાજ્ઞિાક (ડિપાર્ટમેન્ટ ઓફ એપ્લાઇડ આર્ટ્સ, પારૃલ ઇન્સ્ટિટયુટ ઓફ ટેકનોલોજી-વડોદરા) અને અતુલ નેગી (ડિપાર્ટમેન્ટ ઓફ કમ્પ્યુટર એન્ડ ઇન્ફો સાયન્સીસ, યુનિવર્સિટી ઓફ હૈદરાબાદ). ૨૦૧૦થી ડૉ. અપૂર્વ દેસાઈનાં રિસર્ચ પેપર્સ કતારબદ્ધ પ્રકાશિત થતાં ગયાં. ૧૯૯૪થી વીર નર્મદ સાઉથ ગુજરાત યુનિર્વસિટીમાં કાર્યરત પ્રોફેસર (ડૉ.) અપૂર્વ દેસાઈ ડિપાર્ટમેન્ટ ઓફ કમ્પ્યુટર સાયન્સના હેડ છે. એમનું સૌથી પહેલું પેપર હતું, ‘ગુજરાતી હેન્ડરિટન ન્યુમરલ ઓપ્ટિકલ કેરેક્ટર રેકગ્નિશન through ન્યુરલ નેટવર્ક’.

ગુજરાતી NLPની વાત આવે ત્યારે ડો. અપૂર્વ દેસાઈ અને અને પ્રોફેસર પુષ્પક ભટ્ટાચાર્ય (આઇઆઇટી-બોમ્બે)નાં નામ આદરપૂર્વક લેવાં પડે, કેમ કે આ ક્ષેત્રમાં તેમણે ખૂબ મહત્ત્વપૂર્ણ અને પાયારૃપ કામ કર્યાં છે. ડો. ભટ્ટાચાર્યે વર્ડનેટ નામનો લેક્સિકન ડેટાબેઝ તૈયાર કર્યો છે. આ કામ કરવામાં એમને પ્રોફેસર સી.કે. ભેંસડેડીયા અને પ્રોફેસર બ્રિજેશ ભટ્ટનો મજબૂત સાથ મળ્યો હતો.

‘ઓપ્ટિકલ કેરેક્ટર રેકગ્નિશન (OCR) એ નેચરલ લેંગ્વેજ પ્રોસેસિંગનો જ એક ભાગ છે,’ ડો. અપૂર્વ દેસાઈ કહે છે, ‘OCR થકી કમ્પ્યુટર હસ્તલિખિત ગુજરાતી અક્ષરોને ઓળખી લે છે. તમે નોટપેડ પર સ્ટાઇલસ (પેન જેવા ઉપકરણ)થી ગુજરાતીમાં લખો તો તેને ટેક્સ્ટમાં કન્વર્ટ કરી દેવું, સાદાં ગુજરાતી વાક્યોના વ્યાકરણનું એનેલિસિસ કરીને એનું કલર કોડિંગ કરવું વગેરે કામ અમે કર્યાં છે. સ્ટિલ ઇમેજ એટલે કે તસવીરમાં છપાયેલા આંકડાને ઓળખીને અલગ તારવી લેવા, વીડિયોમાં દેખાતા ગુજરાતી શબ્દોને એનેલાઇઝ કરીને છૂટા પાડવા – આ બધાં કામ હજુ ચાલી રહ્યાં છે.’

ગુજરાતી NLPના રિસર્ચરો સામે સૌથી પહેલી ઊભી થતી સમસ્યા આ છેઃ લેંગ્વેજ મોડલને ટ્રેઇન કરવામાં ઉપયોગી બને તેવો શુદ્ધ ગુજરાતી લખાણનો વિશાળ ડેટાસેટ ઉપલબ્ધ નથી! ઓનલાઇન ગુજરાતી કોન્ટેન્ટ તો પુષ્કળ અવેલેબલ છે, પણ ભાષા, જોડણી તેમજ વ્યાકરણની દ્રષ્ટિએ તે શુદ્ધ હોતું નથી. જ્યારે તમે NLP મોડલ બનાવી રહ્યા હો ત્યારે કમ્પ્યુટરના પેટમાં કાચીપાકી ગુજરાતી ભાષા ઠૂંસી દો તે કેમ ચાલે? કમ્પ્યુટરને શરૃઆતથી જ શુદ્ધતમ ગુજરાતી ભાષા શીખવીએ તો જ એ સંતોષકારક પરિણામ આપે. આપણે સાચી જોડણી અને સાચા વ્યાકરણવાળી ગુજરાતી ભાષામાં જવાબો ઇચ્છતા હોઈએ તો NLP મોડલમાં ચોખ્ખામાં ચોખ્ખો ગુજરાતી ડેટા ફીડ કરવો પડે. આ દ્રષ્ટિએ ભગવદ્ગોમંડળ એક ઉત્તમ ડેટાસેટ છે, પણ કોણ જાણે કેમ, રિસર્ચરો માટે તે ઉપલબ્ધ નથી.

‘ધારો કે ભગવદ્ગોમંડળ અને તે કક્ષાના અન્ય ડેટાસેટ મળે તો પણ તે પૂરતું નથી,’ ડો. અપૂર્વ દેસાઈ કહે છે.

કેમ? ગુજરાતી ભાષાનું ટેકનોલોજીકરણ કરવા મથી રહેલા રિસર્ચરોને સામે કેવા કેવા અવરોધો ઊભા થતા રહે છે? આ અવરોધો દૂર કરવાના ઉપાયો ખરા? આના જવાબો હવે પછી.

– શિશિર રામાવત

#vaatvichar #gujaratsamachar #GujaratiAI #Gujarati #NLPTraining

DISCLAIMER


All the rights of Published Content is fully reserved by the respective Owner / Writer. Sarjak.org never taking the ownership of the content, we are just a Platform to publish content to serve the readers. Any Dispute or Query related Content on Platform, Do inform Us at bellow links First. We will Respect, take care of it and Try to Solve it Out as fast as Possible.

Please Do Not Copy the Content, Without Prior Written Permission of there Respective Owner.

Leave a Reply

Your email address will not be published. Required fields are marked *

Copying, distributing, or sharing our content without permission is strictly prohibited. All content on this website is sole property of Respective owners. If you would like to use any of our content, please contact us for permission. Thank you for respecting our work.