જ્યારે પણ મેડોના તેની કોન્સર્ટ ટૂરમાં 1980ના દાયકાનું હિટ “લા ઇસ્લા બોનિટા” ગાય છે, ત્યારે તેની પાછળના વિશાળ એરેના સ્ક્રીન પર ઘૂમતા, સૂર્યાસ્ત-ટિન્ટેડ વાદળોની ફરતી તસવીરો જોવા મળે છે.
તે અલૌકિક દેખાવ મેળવવા માટે, પોપ લિજેન્ડે જનરેટિવ આર્ટિફિશિયલ ઇન્ટેલિજન્સ – ટેક્સ્ટ-ટુ-વિડિયો ટૂલની હજુ પણ અજાણી શાખા અપનાવી. કેટલાક શબ્દો ટાઈપ કરો — કહો, “અવાસ્તવિક વાદળ સૂર્યાસ્ત” અથવા “સવારે જંગલમાં ધોધ” — અને એક ત્વરિત વિડિઓ બનાવવામાં આવે છે.
AI ચેટબોટ્સ અને સ્ટિલ ઇમેજ-જનરેટર્સના પગલે પગલે, કેટલાક AI વિડિયો ઉત્સાહીઓ કહે છે કે ઉભરતી ટેક્નોલોજી એક દિવસ મનોરંજનમાં વધારો કરી શકે છે, જે તમને કસ્ટમાઇઝ કરી શકાય તેવી સ્ટોરી લાઇન અને અંત સાથે તમારી પોતાની મૂવી પસંદ કરવા સક્ષમ બનાવે છે. પરંતુ તેઓ તે કરી શકે તે પહેલાં ઘણી લાંબી મજલ કાપવાની છે, અને રસ્તામાં ઘણી બધી નૈતિક મુશ્કેલીઓ છે.
મેડોના જેવા પ્રારંભિક દત્તક લેનારાઓ માટે, જેમણે લાંબા સમયથી કલાની સીમાઓને આગળ ધપાવી છે, તે વધુ એક પ્રયોગ હતો. તેણીએ “લા ઇસ્લા બોનીટા” કોન્સર્ટ વિઝ્યુઅલનું અગાઉનું સંસ્કરણ નિક્સ કર્યું જેમાં ઉષ્ણકટિબંધીય મૂડને ઉત્તેજીત કરવા માટે વધુ પરંપરાગત કમ્પ્યુટર ગ્રાફિક્સનો ઉપયોગ કરવામાં આવ્યો હતો.
“અમે CGI અજમાવ્યો. તે ખૂબ જ નમ્ર અને ચીઝી દેખાતું હતું અને તેણીને તે ગમ્યું ન હતું,” મેડોનાના સેલિબ્રેશન ટૂર માટે કન્ટેન્ટ ડિરેક્ટર સાશા કાસિયુહાએ જણાવ્યું હતું કે જે એપ્રિલના અંત સુધી ચાલુ રહે છે. “અને પછી અમે AI અજમાવવાનું નક્કી કર્યું.”
ChatGPT-નિર્માતા OpenAI એ એક ઝલક આપી હતી કે જ્યારે કંપનીએ તાજેતરમાં સોરા, એક નવું સાધન જે હજુ સુધી સાર્વજનિક રૂપે ઉપલબ્ધ નથી, પ્રદર્શિત કર્યું ત્યારે અત્યાધુનિક ટેક્સ્ટ-ટુ-વિડિયો ટેક્નોલોજી કેવી દેખાઈ શકે છે. મેડોનાની ટીમે ન્યૂ યોર્ક સ્થિત સ્ટાર્ટઅપ રનવેથી અલગ ઉત્પાદનનો પ્રયાસ કર્યો, જેણે ગયા માર્ચમાં તેનું પહેલું પબ્લિક ટેક્સ્ટ-ટુ-વિડિયો મોડલ બહાર પાડીને ટેક્નોલોજીને આગળ વધારવામાં મદદ કરી. કંપનીએ જૂનમાં વધુ અદ્યતન “Gen-2” વર્ઝન બહાર પાડ્યું હતું.
રનવેના CEO ક્રિસ્ટોબલ વેલેન્ઝુએલાએ જણાવ્યું હતું કે જ્યારે કેટલાક આ ટૂલ્સને “જાદુઈ ઉપકરણ તરીકે જુએ છે જે તમે એક શબ્દ લખો છો અને કોઈક રીતે તે તમારા મગજમાં જે હતું તે બરાબર નક્કી કરે છે,” સૌથી વધુ અસરકારક અભિગમ સર્જનાત્મક વ્યાવસાયિકો દ્વારા છે જે દાયકાઓ-જૂનામાં અપગ્રેડ કરવા માટે શોધે છે. ડિજિટલ એડિટિંગ સોફ્ટવેર તેઓ પહેલેથી જ ઉપયોગ કરી રહ્યાં છે.
તેણે કહ્યું કે રનવે હજુ સુધી સંપૂર્ણ લંબાઈની ડોક્યુમેન્ટ્રી બનાવી શકતો નથી. પરંતુ તે કેટલાક પૃષ્ઠભૂમિ વિડિયો, અથવા બી-રોલ – સહાયક શોટ અને દ્રશ્યો કે જે વાર્તા કહેવામાં મદદ કરે છે તે ભરવામાં મદદ કરી શકે છે.
“તે તમને કદાચ એક અઠવાડિયાના કામની જેમ બચાવે છે,” વેલેન્ઝુએલાએ કહ્યું. “ઘણા બધા ઉપયોગના કેસોમાં સામાન્ય થ્રેડ એ છે કે લોકો તેનો ઉપયોગ તેઓ પહેલાં કરી શક્યા હોત તે વધારવા અથવા તેને ઝડપી બનાવવાના માર્ગ તરીકે કરે છે.”
રનવેના લક્ષ્યાંક ગ્રાહકો “મોટી સ્ટ્રીમિંગ કંપનીઓ, ઉત્પાદન કંપનીઓ, પોસ્ટ-પ્રોડક્શન કંપનીઓ, વિઝ્યુઅલ ઇફેક્ટ કંપનીઓ, માર્કેટિંગ ટીમો, જાહેરાત કંપનીઓ છે. ઘણા લોકો કે જેઓ આજીવિકા માટે સામગ્રી બનાવે છે, ”વેલેનઝુએલાએ કહ્યું.
જોખમો રાહ જોઈ રહ્યા છે. અસરકારક સલામતી વિના, AI વિડિયો-જનરેટર્સ લોકશાહીને એવી વસ્તુઓના “ડીપફેક” વિડિયોઝની ખાતરી આપી શકે છે જે ક્યારેય બની નથી, અથવા – જેમ કે AI ઇમેજ જનરેટર્સ સાથે પહેલાથી જ છે – નકલી અશ્લીલ દ્રશ્યો સાથે ઇન્ટરનેટને છલકાવી શકે છે જે વાસ્તવિક લોકો સાથે દેખાય છે. ઓળખી શકાય તેવા ચહેરા. નિયમનકારોના દબાણ હેઠળ, મોટી ટેક કંપનીઓએ વાસ્તવિક શું છે તે ઓળખવામાં મદદ કરવા માટે AI-જનરેટેડ આઉટપુટને વોટરમાર્ક કરવાનું વચન આપ્યું છે.
વિડિયો અને ઇમેજ કલેક્શન વિશે પણ કૉપિરાઇટ વિવાદો છે જેના પર AI સિસ્ટમને તાલીમ આપવામાં આવી રહી છે (ન તો રનવે કે ઓપનએઆઈ તેના ડેટા સ્ત્રોતો જાહેર કરે છે) અને તેઓ કેટલી હદે અયોગ્ય રીતે ટ્રેડમાર્ક કરેલા કાર્યોની નકલ કરી રહ્યાં છે. અને એવી આશંકા છે કે, અમુક સમયે, વિડિયો-મેકિંગ મશીનો માનવ નોકરીઓ અને કલાત્મકતાને બદલી શકે છે.
હમણાં માટે, સૌથી લાંબી AI-જનરેટેડ વિડિયો ક્લિપ્સ હજુ પણ સેકન્ડોમાં માપવામાં આવે છે, અને તેમાં આંચકાજનક હલનચલન અને વિકૃત હાથ અને આંગળીઓ જેવી ટેલટેલ ગ્લિચ દર્શાવવામાં આવી શકે છે. કાર્નેગી મેલોન યુનિવર્સિટીના કોમ્પ્યુટર સાયન્સ પ્રોફેસર એલેક્ઝાન્ડર વાઈબેલે જણાવ્યું હતું કે, “વધુ ડેટા અને વધુ તાલીમનો પ્રશ્ન” અને કોમ્પ્યુટીંગ પાવર કે જેના પર તે તાલીમ નિર્ભર છે તેને ઠીક કરવું એ 1970 ના દાયકાથી AI પર સંશોધન કરી રહ્યા છે.
“હવે હું કહી શકું છું કે, ‘મને ન્યૂયોર્ક સિટીમાંથી પસાર થતા નેપોલિયનના પોશાક પહેરેલા સસલાના વીડિયો બનાવો,” વાઇબેલે કહ્યું. “તે જાણે છે કે ન્યુ યોર્ક સિટી કેવું દેખાય છે, સસલું કેવું દેખાય છે, નેપોલિયન કેવું દેખાય છે.”
જે પ્રભાવશાળી છે, તેમણે કહ્યું, પરંતુ હજુ પણ આકર્ષક વાર્તાની રચનાથી દૂર છે.
ગયા વર્ષે તેનું ફર્સ્ટ જનરેશન મૉડલ બહાર પાડ્યું તે પહેલાં, AI ફેમ માટે રનવેનો દાવો ઇમેજ-જનરેટર સ્ટેબલ ડિફ્યુઝનના સહ-વિકાસકર્તા તરીકે હતો. બીજી કંપની, લંડન સ્થિત સ્ટેબિલિટી AI, ત્યારથી સ્ટેબલ ડિફ્યુઝનના વિકાસને સંભાળી ચૂકી છે.
ઈમેજીસ અને વિડિયોના મોટા ભાગના અગ્રણી AI જનરેટર્સ પાછળની અંતર્ગત “પ્રસરણ મોડલ” ટેક્નોલોજી ઈમેજીસ પર અવાજ અથવા રેન્ડમ ડેટાને મેપ કરીને કામ કરે છે, જે મૂળ ઈમેજને અસરકારક રીતે નષ્ટ કરે છે અને પછી નવી કેવી હોવી જોઈએ તેની આગાહી કરે છે. તે ભૌતિકશાસ્ત્રમાંથી એક વિચાર ઉધાર લે છે જેનો ઉપયોગ વર્ણન કરવા માટે કરી શકાય છે, ઉદાહરણ તરીકે, ગેસ કેવી રીતે બહારની તરફ ફેલાય છે.
મેસેચ્યુસેટ્સ ઇન્સ્ટિટ્યૂટ ઓફ ટેક્નોલોજીના કોમ્પ્યુટર સાયન્સના સહયોગી પ્રોફેસર ફિલિપ ઇસોલાએ જણાવ્યું હતું કે, “પ્રસરણ મોડલ શું કરે છે તે પ્રક્રિયાને ઉલટાવી દે છે.” “તેઓ એક પ્રકારનું રેન્ડમનેસ લે છે અને તેઓ તેને વોલ્યુમમાં પાછું ભેળવે છે. તે રેન્ડમનેસમાંથી સામગ્રી તરફ જવાની રીત છે. અને આ રીતે તમે રેન્ડમ વિડિયો બનાવી શકો છો