Hollywood retteghet? Jön a szövegből videót készítő robot

0

Fotók alapján fantasztikus képeket készítő appok, chatbotként működő, mindenről véleményt alkotó mesterséges intelligencia, szavak alapján képeket generáló robot – manapság egyre több ilyesmiről hallunk, de most jön a következő lépcsőfok. A Runway új fejlesztése azt ígéri, egyszerűen szöveges betanítás alapján készít videókat.

A mesterséges intelligencia, röviden az MI vagy AI jó ideig csak amolyan láthatatlan ígéretként volt jelen a techvvilágban. Bár sokan ijesztgettek azzal, hogy majd a Terminátor-filmek lázadó Skynetjévé válik, éveken keresztül inkább csak arra volt jó, hogy az AI-powered kifejezéssel bármit el lehessen adni egy szoftveres rásegítéssel fotózó telefontól az asztali hangos asszisztensig. A technológia valódi erejét akkor kezdte megmutatni, amikor felbukkantak az első olyan appok, amelyek fotók alapján tudtak valami teljesen elvont, fantasztikus képeket készíteni. Ezután jött a szöveges változat, amelynek zászlóvivője a ChatGPT, és persze érkeznek a követői is. És vannak már olyan képgenerátorok is, amelyek egyszerűen szöveges meghatározások alapján, mindenféle vizuális input nélkül állítanak elő képeket, ilyen a DALL-E2 vagy a Midjourney.

Ezek egyike sem tökéletes persze: a képgenerátorok néha háromszemű, hatujjú embereket, torz állatokat, szürreális környezeteket kutyulnak, ahogy a ChatGPT is tud néha bődületes butaságokat tényként állítani. De itt nem is ez a lényeg, hanem az, hogy valami elindult – a pontosságot, részletességet már a tanítási folyamat, az oktatáshoz használt adattömeg nagysága fogja feljavítani. Arra viszont még nem volt példa, hogy bárki által elérhető legyen egy olyan algoritmus, amely teljes videókat képes megalkotni “a semmiből”, tisztán szöveges instrukció alapján.

Apró trükköktől a képzelet határáig

A Runway nevű startupot 2018-ban alapították, első fejlesztésük a Stable Diffusion nevű képgenerátor volt. Weboldalukon azóta elérhető egy sor olyan eszköz, amelyben valamilyen szintű AI bevetésével tudunk látványos projekteket létrehozni: van itt kép-alapú arc- és környezetgenerátor, megadott szövegek segítségével egybemosott “végtelen képek” készítése, valamint olyan trükkök, mint a tárgyak vagy alakok hátterének eltávolítása és folyamatos videó készítése több állóképből.

Idén februárban azonban bejelentették, hogy olyan videószerkesztő modellen is dolgoznak, amely hamarosan nem csak meglévő képekből és videókból alakít át újakat a Gen-1 nevű, meglévő technológiájukhoz hasonlóan. A Gen-2 ugyanis már csak szavakat, meghatározásokat kér, és ez alapján saját kútfejéből – pontosabban a rendelkezésre álló képek, animációk adatbázisából – hozza létre a teljesen új, személyre szabott videókat.

Ahogy a videóból is látható, az algoritmus folyamatosan tanul és fejlődik. Korábbi változatához képest már kifejezetten részletes mozgóképeket tud összerakni, bár jelenlegi állapotában azért még mindig olyan a végeredmény, mintha szürrealista festők képzeletét társítanák virtuális gyurmafilmesek tudásával. Ennek ellenére a haladás már hónapok távlatában is nagyon látványos, ezért csak a tanítási folyamat gyorsasága, valamint a háttérben dolgozó hardverek és szoftverek bővítése szabhat határt annak, mire lesz képes hamarosan a megoldás.

A nagyközönség számára jelenleg még kissé trükkösen lehet csak kipróbálni az algoritmust: a Gen-2 weboldalán található linken csatlakozhatunk a szolgáltatás Discord szerveréhez, ahol egy várólistára tudunk feliratkozni. Ha pedig hozzáférést kapunk, egyelőre csak néhány másodperces videók készítésére van lehetőség, de a cég már bejelentette, hogy dolgoznak a még egyszerűbb, mindenki számára használható és egyre hosszabb videókat készítő megoldáson is.

A robotok Hollywoodot is beveszik?

Ahogy a ChatGPT és társainak példáján látjuk, egyelőre attól nem kell tartani, hogy a Runway videógenerátora hónapokon, vagy akár éveken belül feleslegessé teszi az emberi filmesek, színészek, díszlettervezők és egyéb szakemberek munkáját. De nem is ez a cél: a szöveges videókészítő alkotásait egyedi művészeti projektekben lehet majd használni, de azoknak is segíthet, akiknek nincs meg a saját felszerelésük, tudásuk vagy lehetőségük valamilyen animációt készíteni például egy iskolai előadásukhoz vagy videoklip helyett a zenéi aláfestésére.

Emellett arra is fel lehet készülni, hogy az ilyen, egyre kifinomultabb AI-generátorok ingyenesen csak valamilyen limitált felhasználási módon lesznek elérhetőek: egyrészt licenc-alapon ajánlják fel szervezeteknek, vagy fizetős konstrukciókban bárki másnak, hiszen az ilyen modelleket “meghajtó” hardveres és szoftveres háttér üzemeltetése és folyamatos bővítése embertelen költségekkel jár.

HOZZÁSZÓLOK A CIKKHEZ

Kérjük, írja be véleményét!
írja be ide nevét