મેડોના અને પાયોનિયર્સ એઆઈ વિડિયો-જનરેટર્સની નેક્સ્ટ વેવને સ્વીકારે છે: ક્રિએટિવ ઈનોવેશનમાં ભવિષ્યની ઝલક

Technology
Views: 64

જ્યારે પણ મેડોના તેની કોન્સર્ટ ટૂરમાં 1980ના દાયકાનું હિટ “લા ઇસ્લા બોનિટા” ગાય છે, ત્યારે તેની પાછળના વિશાળ એરેના સ્ક્રીન પર ઘૂમતા, સૂર્યાસ્ત-ટિન્ટેડ વાદળોની ફરતી તસવીરો જોવા મળે છે.

તે અલૌકિક દેખાવ મેળવવા માટે, પોપ લિજેન્ડે જનરેટિવ આર્ટિફિશિયલ ઇન્ટેલિજન્સ – ટેક્સ્ટ-ટુ-વિડિયો ટૂલની હજુ પણ અજાણી શાખા અપનાવી. કેટલાક શબ્દો ટાઈપ કરો — કહો, “અવાસ્તવિક વાદળ સૂર્યાસ્ત” અથવા “સવારે જંગલમાં ધોધ” — અને એક ત્વરિત વિડિઓ બનાવવામાં આવે છે.

AI ચેટબોટ્સ અને સ્ટિલ ઇમેજ-જનરેટર્સના પગલે પગલે, કેટલાક AI વિડિયો ઉત્સાહીઓ કહે છે કે ઉભરતી ટેક્નોલોજી એક દિવસ મનોરંજનમાં વધારો કરી શકે છે, જે તમને કસ્ટમાઇઝ કરી શકાય તેવી સ્ટોરી લાઇન અને અંત સાથે તમારી પોતાની મૂવી પસંદ કરવા સક્ષમ બનાવે છે. પરંતુ તેઓ તે કરી શકે તે પહેલાં ઘણી લાંબી મજલ કાપવાની છે, અને રસ્તામાં ઘણી બધી નૈતિક મુશ્કેલીઓ છે.

મેડોના જેવા પ્રારંભિક દત્તક લેનારાઓ માટે, જેમણે લાંબા સમયથી કલાની સીમાઓને આગળ ધપાવી છે, તે વધુ એક પ્રયોગ હતો. તેણીએ “લા ઇસ્લા બોનીટા” કોન્સર્ટ વિઝ્યુઅલનું અગાઉનું સંસ્કરણ નિક્સ કર્યું જેમાં ઉષ્ણકટિબંધીય મૂડને ઉત્તેજીત કરવા માટે વધુ પરંપરાગત કમ્પ્યુટર ગ્રાફિક્સનો ઉપયોગ કરવામાં આવ્યો હતો.

“અમે CGI અજમાવ્યો. તે ખૂબ જ નમ્ર અને ચીઝી દેખાતું હતું અને તેણીને તે ગમ્યું ન હતું,” મેડોનાના સેલિબ્રેશન ટૂર માટે કન્ટેન્ટ ડિરેક્ટર સાશા કાસિયુહાએ જણાવ્યું હતું કે જે એપ્રિલના અંત સુધી ચાલુ રહે છે. “અને પછી અમે AI અજમાવવાનું નક્કી કર્યું.”

ChatGPT-નિર્માતા OpenAI એ એક ઝલક આપી હતી કે જ્યારે કંપનીએ તાજેતરમાં સોરા, એક નવું સાધન જે હજુ સુધી સાર્વજનિક રૂપે ઉપલબ્ધ નથી, પ્રદર્શિત કર્યું ત્યારે અત્યાધુનિક ટેક્સ્ટ-ટુ-વિડિયો ટેક્નોલોજી કેવી દેખાઈ શકે છે. મેડોનાની ટીમે ન્યૂ યોર્ક સ્થિત સ્ટાર્ટઅપ રનવેથી અલગ ઉત્પાદનનો પ્રયાસ કર્યો, જેણે ગયા માર્ચમાં તેનું પહેલું પબ્લિક ટેક્સ્ટ-ટુ-વિડિયો મોડલ બહાર પાડીને ટેક્નોલોજીને આગળ વધારવામાં મદદ કરી. કંપનીએ જૂનમાં વધુ અદ્યતન “Gen-2” વર્ઝન બહાર પાડ્યું હતું.

રનવેના CEO ક્રિસ્ટોબલ વેલેન્ઝુએલાએ જણાવ્યું હતું કે જ્યારે કેટલાક આ ટૂલ્સને “જાદુઈ ઉપકરણ તરીકે જુએ છે જે તમે એક શબ્દ લખો છો અને કોઈક રીતે તે તમારા મગજમાં જે હતું તે બરાબર નક્કી કરે છે,” સૌથી વધુ અસરકારક અભિગમ સર્જનાત્મક વ્યાવસાયિકો દ્વારા છે જે દાયકાઓ-જૂનામાં અપગ્રેડ કરવા માટે શોધે છે. ડિજિટલ એડિટિંગ સોફ્ટવેર તેઓ પહેલેથી જ ઉપયોગ કરી રહ્યાં છે.

તેણે કહ્યું કે રનવે હજુ સુધી સંપૂર્ણ લંબાઈની ડોક્યુમેન્ટ્રી બનાવી શકતો નથી. પરંતુ તે કેટલાક પૃષ્ઠભૂમિ વિડિયો, અથવા બી-રોલ – સહાયક શોટ અને દ્રશ્યો કે જે વાર્તા કહેવામાં મદદ કરે છે તે ભરવામાં મદદ કરી શકે છે.

“તે તમને કદાચ એક અઠવાડિયાના કામની જેમ બચાવે છે,” વેલેન્ઝુએલાએ કહ્યું. “ઘણા બધા ઉપયોગના કેસોમાં સામાન્ય થ્રેડ એ છે કે લોકો તેનો ઉપયોગ તેઓ પહેલાં કરી શક્યા હોત તે વધારવા અથવા તેને ઝડપી બનાવવાના માર્ગ તરીકે કરે છે.”

રનવેના લક્ષ્યાંક ગ્રાહકો “મોટી સ્ટ્રીમિંગ કંપનીઓ, ઉત્પાદન કંપનીઓ, પોસ્ટ-પ્રોડક્શન કંપનીઓ, વિઝ્યુઅલ ઇફેક્ટ કંપનીઓ, માર્કેટિંગ ટીમો, જાહેરાત કંપનીઓ છે. ઘણા લોકો કે જેઓ આજીવિકા માટે સામગ્રી બનાવે છે, ”વેલેનઝુએલાએ કહ્યું.

જોખમો રાહ જોઈ રહ્યા છે. અસરકારક સલામતી વિના, AI વિડિયો-જનરેટર્સ લોકશાહીને એવી વસ્તુઓના “ડીપફેક” વિડિયોઝની ખાતરી આપી શકે છે જે ક્યારેય બની નથી, અથવા – જેમ કે AI ઇમેજ જનરેટર્સ સાથે પહેલાથી જ છે – નકલી અશ્લીલ દ્રશ્યો સાથે ઇન્ટરનેટને છલકાવી શકે છે જે વાસ્તવિક લોકો સાથે દેખાય છે. ઓળખી શકાય તેવા ચહેરા. નિયમનકારોના દબાણ હેઠળ, મોટી ટેક કંપનીઓએ વાસ્તવિક શું છે તે ઓળખવામાં મદદ કરવા માટે AI-જનરેટેડ આઉટપુટને વોટરમાર્ક કરવાનું વચન આપ્યું છે.

વિડિયો અને ઇમેજ કલેક્શન વિશે પણ કૉપિરાઇટ વિવાદો છે જેના પર AI સિસ્ટમને તાલીમ આપવામાં આવી રહી છે (ન તો રનવે કે ઓપનએઆઈ તેના ડેટા સ્ત્રોતો જાહેર કરે છે) અને તેઓ કેટલી હદે અયોગ્ય રીતે ટ્રેડમાર્ક કરેલા કાર્યોની નકલ કરી રહ્યાં છે. અને એવી આશંકા છે કે, અમુક સમયે, વિડિયો-મેકિંગ મશીનો માનવ નોકરીઓ અને કલાત્મકતાને બદલી શકે છે.

હમણાં માટે, સૌથી લાંબી AI-જનરેટેડ વિડિયો ક્લિપ્સ હજુ પણ સેકન્ડોમાં માપવામાં આવે છે, અને તેમાં આંચકાજનક હલનચલન અને વિકૃત હાથ અને આંગળીઓ જેવી ટેલટેલ ગ્લિચ દર્શાવવામાં આવી શકે છે. કાર્નેગી મેલોન યુનિવર્સિટીના કોમ્પ્યુટર સાયન્સ પ્રોફેસર એલેક્ઝાન્ડર વાઈબેલે જણાવ્યું હતું કે, “વધુ ડેટા અને વધુ તાલીમનો પ્રશ્ન” અને કોમ્પ્યુટીંગ પાવર કે જેના પર તે તાલીમ નિર્ભર છે તેને ઠીક કરવું એ 1970 ના દાયકાથી AI પર સંશોધન કરી રહ્યા છે.

“હવે હું કહી શકું છું કે, ‘મને ન્યૂયોર્ક સિટીમાંથી પસાર થતા નેપોલિયનના પોશાક પહેરેલા સસલાના વીડિયો બનાવો,” વાઇબેલે કહ્યું. “તે જાણે છે કે ન્યુ યોર્ક સિટી કેવું દેખાય છે, સસલું કેવું દેખાય છે, નેપોલિયન કેવું દેખાય છે.”

જે પ્રભાવશાળી છે, તેમણે કહ્યું, પરંતુ હજુ પણ આકર્ષક વાર્તાની રચનાથી દૂર છે.

ગયા વર્ષે તેનું ફર્સ્ટ જનરેશન મૉડલ બહાર પાડ્યું તે પહેલાં, AI ફેમ માટે રનવેનો દાવો ઇમેજ-જનરેટર સ્ટેબલ ડિફ્યુઝનના સહ-વિકાસકર્તા તરીકે હતો. બીજી કંપની, લંડન સ્થિત સ્ટેબિલિટી AI, ત્યારથી સ્ટેબલ ડિફ્યુઝનના વિકાસને સંભાળી ચૂકી છે.

ઈમેજીસ અને વિડિયોના મોટા ભાગના અગ્રણી AI જનરેટર્સ પાછળની અંતર્ગત “પ્રસરણ મોડલ” ટેક્નોલોજી ઈમેજીસ પર અવાજ અથવા રેન્ડમ ડેટાને મેપ કરીને કામ કરે છે, જે મૂળ ઈમેજને અસરકારક રીતે નષ્ટ કરે છે અને પછી નવી કેવી હોવી જોઈએ તેની આગાહી કરે છે. તે ભૌતિકશાસ્ત્રમાંથી એક વિચાર ઉધાર લે છે જેનો ઉપયોગ વર્ણન કરવા માટે કરી શકાય છે, ઉદાહરણ તરીકે, ગેસ કેવી રીતે બહારની તરફ ફેલાય છે.

મેસેચ્યુસેટ્સ ઇન્સ્ટિટ્યૂટ ઓફ ટેક્નોલોજીના કોમ્પ્યુટર સાયન્સના સહયોગી પ્રોફેસર ફિલિપ ઇસોલાએ જણાવ્યું હતું કે, “પ્રસરણ મોડલ શું કરે છે તે પ્રક્રિયાને ઉલટાવી દે છે.” “તેઓ એક પ્રકારનું રેન્ડમનેસ લે છે અને તેઓ તેને વોલ્યુમમાં પાછું ભેળવે છે. તે રેન્ડમનેસમાંથી સામગ્રી તરફ જવાની રીત છે. અને આ રીતે તમે રેન્ડમ વિડિયો બનાવી શકો છો

You May Also Like

કેવી રીતે 25 મિલિયન વર્ષો પહેલા આનુવંશિક ફેરફારો માનવ પૂર્વજોને પૂંછડીઓ છોડી દેવા તરફ દોરી ગયા, પરિણામ વિના નહીં
ફેન્ટાનીલની ઉત્પત્તિ: યુ.એસ.માં અભૂતપૂર્વ ઓવરડોઝ મૃત્યુ તરફ દોરી જતા પદાર્થના ઇતિહાસને ઉજાગર કરવો

Author

Must Read

No results found.