ગબ્બર સિંહ સૂટ-બૂટ પહેરીને મંગળના ગ્રહ પર ગરબે રમે છે…
—————
વાત વિચાર, ગુજરાત સમાચાર, એડિટ પેજ
——————–
જો તમે ગુજરાતી માધ્યમમાં ભણ્યા હશો તો બાલમંદિરમાં આ ગીત જરૃર ગાયું હશેઃ ‘એક બિલાડી જાડી, એણે પહેરી સાડી, સાડી છેડો છૂટી ગયો, મગરના મોંમાં આવી ગયો…’
મજેદાર કલ્પના છે. એક જાડ્ડીપાડ્ડી બિલાડી સાડી પહેરીને નદીકિનારે અથવા કોઈ સરોવર પાસે ફરવા ગઈ છે. ત્યાં વોર્ડરોબ માલફંકશન થઈ જતાં એની સાડીનો છેડો જળાશયમાં રહેતા મગરના મોંમાં ફસાઈ ગયો છે. બાળકો માટેની મોટી કલરફુલ ચોપડીમાં આ વર્ણનને અનુરૃપ ચિત્ર પણ છપાયું હોય. આજની તારીખે પુસ્તકો અને છાપાં-મેગેઝિનોમાં છપાતાં ચિત્રો તેમજ ઇલસ્ટ્રેશન્સ પ્રોફેશનલ આટસ્ટ્સ દ્વારા તૈયાર થાય છે. એ દિવસો હવે ઝાઝા દૂર નથી કે જ્યારે આ કામ કમ્પ્યુટર જ કરી નાખશે. તે પણ માંડ દસેક સેકન્ડમાં!
વાત થઈ રહી છે, ટેક્સ્ટ-ટુ-ઇમેજ આર્ટિફિશિયલ ઇન્ટેલિજન્સ (એઆઈ)ની. આજકાલ દુનિયાભરમાં ટેક્સ્ટ-ટુ-ઇમેજ એઆઈ ક્ષેત્રે થયેલા લેટેસ્ટ બ્રેક-થૂ્રની ચર્ચા ચાલે છે. ટેક્સ્ટ-ટુ-સ્પીચ અને સ્પીચ-ટુ-ટેક્સ્ટ ટેક્નોલોજી શું છે તે આપણે ઓલરેડી જાણીએ છીએ. તમે મોબાઇલ નજીક મોં લાવીને જે બોલો તે શબ્દશઃ સ્ક્રીન પર આપોઆપ ટાઇપ થઈ જાય – આ થઈ સ્પીચ-ટુ-ટેક્સ્ટ ટેક્નોલોજી (વાણી પરથી લિખિત શબ્દો). એ જ પ્રમાણે તમે કશુંક ટાઇપ કરો તો તમારું ગેજેટ એ શબ્દો યથાતથ બોલતું જાય – આ થઈ ટેક્સ્ટ-ટુ-સ્પીચ ટેક્નોલોજી (લિખિત શબ્દો પરથી વાણી). શરત એટલી જ તમારા ગેજેટમાં આ ટેક્નોલોજી કામ કરી શકે તેવી એપ્લિકેશન (એપ) યા તો ટૂલ પહેલેથી ઇન્સ્ટોલ થયેલાં હોવા જોઈએ.
હવે જમાનો આવી રહ્યો છે, ટેક્સ્ટ-ટુ-ઇમેજનો. તમે કંઈ પણ અતરંગી વર્ણન ટાઇપ કરો, આ વર્ણન પ્રમાણેનું ચિત્ર આંખના પલકારામાં તમારી ક્મ્પ્યુટર યા તો મોબાઇલની સ્ક્રીન પર આવી જશે. વળી, આ વિઝયુઅલ પણ જેવું-તેવું નહીં, બલ્કે તમારી આંખો અને એસ્થેટિક સેન્સને સંતોષ આપે તેવું અફલાતૂન હશે. અરે, બે ઘડી અનુભવી ચિત્રકાર કે ઇલસ્ટ્રેટરને પણ વિચાર આવી જાય કે મેં દિમાગ લગાડીને ને કલાકોની મહેનત કરીને જે ચિત્ર અથવા ઇલસ્ટ્રેશન બનાવ્યું હોત તે પણ કદાચ આટલું ક્રિયેટિવ ન હોત!
ઉદાહરણ તરીકે, તમે મોબાઇલમાં અંગ્રેજીમાં ટાઇપ કરો કે, ‘એક ઉંદર અવકાશયાત્રી જેવી હેલ્મેટ પહેરીને મેટ્રો ટ્રેનમાં બારી પાસે બેઠો છે.’ દસ જ સેકન્ડમાં ટેક્સ્ટ-ટુ-ઇમેજ જનરેટર જે મસ્તમજાનું ચિત્ર બનાવે છે તે આ લેખ સાથે મૂકાયેલું છે. જોઈ લો! તમે આકૃતિ જુઓ, રંગો જુઓ, કમ્પોઝિશન જુઓ… જાણે કોઈ ઘડાયેલા આટસ્ટે એકદમ પાક્કું આટસ્ટિક જજમેન્ટ લઈને ચિત્ર બનાવ્યું હોય એવું નથી લાગતું?
ઓકે, ચાલો, ધારો કે તમને આ વર્ણનમાં ઉમેરો કરવાનું મન થાય છે ને તમે ટાઇપ કરો છો – ‘એક ઉંદર અવકાશયાત્રી જેવી હેલ્મેટ પહેલીને મેટ્રો ટ્રેનમાં બારી પાસે બેઠો છે ને બહાર સૂર્યાસ્ત સમયનો મુંબઈનો ગેટ વે ઓફ ઇન્ડિયા દેખાય છે.’ તથાસ્તુ. તમારા મોબાઇલ પર હવે એક્ઝેક્ટલી આ જ પ્રકારનું હાઇ રિઝોલ્યુશનવાળું ચિત્ર ઊપસે છે. ઇવન ટ્રેનની બારી તેમજ ઉંદરની હેલ્મેટના કાચ પર સૂર્યાસ્તનાં કિરણોની ઝાંય પણ પડે છે. તમે એવુંય ટાઇપ કરી શકો કે, ‘મહાત્મા ગાંધી ચંદ્ર પર ઘોડેસવારી કરી રહ્યા છે’ અથવા તો ‘ગબ્બર સિંહ સૂટ-બૂટ પહેરીને મંગળના ગ્રહ પર ગરબે રમે છે.’ આ ચિત્રો ફટાક કરતાં બની જશે. આ તસવીરો તો પાછી ફોટો-રિયલિસ્ટિક હોય. તમે કશુંક કાવ્યાત્મક કે એબ્સ્ટ્રેક્ટ વર્ણન પણ ટાઇપ કરી શકો. જેમ કે, ‘લાલ વો ધારણ કરેલી એક સુંદર યુવતી એક અનંત સીડીનાં પગથિયાં ચડી રહી છે.’ ટૂંકમાં, તમે કંઈ પણ અતરંગી ટાઇપ કરી શકો છો. ટેક્સ્ટ-ટુ-ઇમેજ જનરેટર દસ જ સેકન્ડમાં તમારી આંખો પહોળી થઈ જાય એવું અદભુત ચિત્ર પેશ કરશે અને હા, તમને જે-તે ચિત્રનાં આઠ-દસ વિકલ્પો પણ મળશે.
ખરેખર, રોમાંચિત થઈ જવાય એવી આ ટેક્નોલોજી છે. આમ તો અનેક કંપનીઓ આ ટેક્નોલોજી પર કામ કરી રહી છે, પણ એમાંથી બે કંપનીઓ સૌથી આગળ છે – ગૂગલ અને ઓપનએઆઈ. ગૂગલે હમણાં ઇમેજન અથવા ઇમેજેન (Imagen) નામના ટેક્સ્ટ-ટુ-ઇમેજ જનરેટરની ઘોષણા કરી, જ્યારે ઓપનએઆઇ કંપનીએ બનાવેલા ટૂલનું નામ ડાલ-ઇ ટુ (Dall-E 2) છે. આ બન્ને મોડલ ન્યુરલ નેટવર્કનો ઉપયોગ કરે છે. ન્યુરલ નેટવર્ક એટલે મનુષ્યના દિમાગની નકલ કરતી, પ્રતિબિંબિત કરતી ટેક્નોલોજી, કે જે આટફિશિયલ ઇન્ટેલિજન્સ, મશીન લનગ અને ડીપ લનગનાં ક્ષેત્રોમાં જુદી જુદી પેટર્ન ઉકેલવામાં તથા નાની મોટી સમસ્યાઓને સોલ્વ કરવામાં વપરાય બને છે.
ઇન્ટરનેટના મહાસાગરમાં કરોડો તસવીરો હિલોળા લઈ રહ્યો છે ને આ ડેટાબેઝ દિવસે-દિવસે વિસ્તરતો જ જાય છે. મશીન લનગની તાલીમ પામેલાં કમ્પ્યુટર જે-તે લખાણ સાથે બરાબર મેળ ખાતી હોય તેવી એકાધિક તસવીરોને પેલા ડેટાબેઝમાંથી પસંદ કરી શકે છે. અલબત્ત, તસવીરોનું સિલેક્શન એક વાત છે અને કલા તદ્દન જુદી વસ્તુ છે. કલાત્મક પેઇન્ટિંગ યા વિઝયુઅલ બનાવવા માટે જીવતા-જાગતા-ધબકતા કલાકાર જેવું દિમાગ અને દૃષ્ટિ જોઈએ, ક્રિયેટિવિટી જોઈએ, ભરપૂર એસ્થેટિક સેન્સ જોઈએ. અત્યાર સુધી એવું મનાતું આવ્યું હતું કે આટફિશિયલ ઇન્ટેલિજન્સ ભલે ગમે તેટલા કૂદકા મારે, પણ કલા અને સર્જનાત્મકતા સામે એનું કશું ન ઉપજે. એ બહુ બહુ તો માહિતીનું જટિલમાં જટિલ પ્રોસેસિંગ કરી શકે, પણ મૌલિક સર્જન કરવું તેનું કામ નહીં. વેલ, આ માન્યતા ધીમે ધીમે ખોટી પૂરવાર થઈ રહી છે. આટફિશિયલ ઇન્ટેલિજન્સે હવે વિઝયુઅલ આર્ટને પણ પોતાના સકંજામાં લઈ લીધું છે!
તો શું ભવિષ્યમાં આટફિશિયલ ઇન્ટેલિજન્સ પોતાની મેળે માત્ર સ્ટિલ પિક્ચર જ નહીં, પણ મોશન પિક્ચર એટલે કે ફિલ્મો પણ બનાવવા માંડે, એવું બને? જવાબ છે, હા, આ બિલકુલ શક્ય છે. એનો અર્થ એ થયો કે તમે સીન ટાઇપ કરો એટલે એના આધારે કમ્પ્યુટર જાતે પાત્રો ક્રિયેટ કરે ને આખેઆખો સીન બનાવી નાખે. એક્ટર-ડિરેક્ટર-કેમેરામેન-એડિટર વગેરેની જરૃર જ નહીં!
સાંભળવા-વાંચવામાં આ બધું ભલે રોમાંચક લાગે, પણ આ ટેક્નોલોજી છે તો જોખમી. તેથી જ ગૂગલ કે ઓપનએઆઈ કંપનીમાંથી કોઈએ પોતાની ટેક્નોલોજી હજુ જાહેર જનતાના વપરાશ માટે મૂકી નથી. આ જમાનો ફેક ન્યુઝનો છે. ફોટોશોપ થયેલા કંઈકેટલાય ફોટા વાઇરલ થતા રહે છે. તસવીરોનું ફોટોશોપિંગ અને એડિટિંગ કરવા માટે અમુક સોફ્ટવેર જોઈએ, થોડી આવડત પણ જોઈએ. અગાઉ સરસ તસવીરો ખેંચવા માટે મોંઘા કમેરા અને કસબની જરૃર પડતી હતી, પણ આજે ચાર વર્ષના ટેણિયાથી માંડીને ૯૦ વર્ષના વૃદ્ધ સુધીના સૌ કોઈ મોબાઇલથી હાલતાંચાલતાં ફોટા પાડી શકે છે ને વિડીયો ઉતારી શકે છે. કલ્પના કરો કે ટેક્સ્ટ-ટુ-ઇમેજ એઆઈ ટેક્નોલોજી સૌને હાથવગી થઈ ગઈ તો એનો કેટલો ભયાનક ગેરઉપયોગ થઈ શકે. કોઈ ટીખળીને વિચાર આવ કે હાલો, આતંકવાદીઓએ અમિતાભ બચ્ચનનું શરીર મશીનગનથી વીંધી નાખ્યું હોય એવી એકદમ સાચુકલી લાગતી તસવીર બનાવું ને એને વાઇરલ કરી નાખું, તો તે આવું આસાનીથી કરી શકે છે. ટેકસ્ટ-ટુ-ઇમેજ જનરેટરથી અત્યંત અશ્લીલ તસવીરો પણ ક્રિયેટ થઈ જ શકે છે.
આ તો ખેર, આત્યંતિક કિસ્સા થયા. અત્યારે સ્થિતિ એ છે કે સાવ ડાહ્યો માણસ ટેક્સ્ટ-ટુ-ઇમેજ જનરેટર એકદમ સાત્ત્વિક વર્ણન ટાઇપ કરે તો પણ એનાં ‘પોલિટિકલી ઇનકરેક્ટ’ ગણાઈ શકે તેવાં પરિણામો મળી શકે છે. દાખલા તરીકે, ‘સીઈઓ’ ટાઇપ કરવામાં આવે તો શક્ય છે કે પુરુષનું ચિત્ર જ ઉપસે. શું સીઈઓ કોઈ મહિલા ન હોઈ શકે? ‘ફ્લાઇટ અટેન્ડન્ટ’ ટાઇપ કરવામાં આવે તો મહિલા એર હોસ્ટેસનું જ ચિત્ર મળે છે. શું પુરુષો ફ્લાઇટ અટેન્ડન્ટ તરીકે કામ નથી કરતા? આમ, રંગભેદ અને લિંગભેદને ઉત્તેજન આપે એવી, સામાજિક રીતે સ્વીકાર્ય ન હોય તેવાં સ્ટીરિયોટાઇપ થઈ ગયેલી ઇમેજીસને ગાળવાનું કામ હજુ બાકી છે. ઓપનએઆઈ કંપની એટલે જ હાલ ટેક્સ્ટ ફિલ્ટર અને ઓટોમેટેડ રિસ્પોન્સ સિસ્ટમ પર કામ કરી રહી છે, જ્યારે ગૂગલ ‘વોકેબ્યુલરી ઓફ પોટેન્શિયલ હાર્મ’ વિકસાવી રહી છે કે જેથી ટેક્સ્ટ-ટુ-ઇમેજ જનરેટર દ્વારા જે કંઈ કોન્ટેન્ટ ક્રિયેટ થાય તેમાંનું કશું હાનિકર્તા કે વાંધાજનક સાબિત ન થાય. જ્યાં સુધી આ જડબેસલાક વ્યવસ્થા ઊભી નહીં થાય ત્યાં સુધી ટેક્સ્ટ-ટુ-ઇમેજ એઆઇ ટેક્નોલોજી જાહેર જનતાને ઉપલબ્ધ નહીં જ કરાવાય.
લેટ્સ વેઇટ એન્ડ વોચ!
– શિશિર રામાવત
Leave a Reply