Bemutatkozott a keresőóriás új mesterséges intelligenciája – eddig ez a Google legnagyobb teljesítménye a generatív AI-k világában.

Gábor János

2024.01.27. – Szövegből és akár betöltött képek felhasználásával generál videókat a Google legújabb mesterséges intelligenciája, amit szerénytelenül a folyamatos mozgóképet kifejlesztő Lumière-fivérekről neveztek el. A Google a héten jelentette be a generatív AI megjelenését (pontosabban a vele kapcsolatos kutatás előrehaladott állapotát), majd egy bemutató videót is megosztott arról, hogy mire lehetünk képesek a videókat szövegből, illetve referencia képek alapján készítő mesterséges intelligenciával. Nos, kis túlzással bármire.

Forrás: Google

A videógenerálásra fejlesztett Tér-idő Diffúziós Modell mintavideói közül talán nem is azok a legfélelmetesebbek, amelyek teljesen fotorealisztikusan jelenítenek meg kocsikázó pandát vagy víz alatt sétáló elefántot, hanem azok, amelyeken olyan ismert portrék elevenednek meg, mint a Mona Lisa. A klasszikus festmények karakterei egyszer csak mozgásba lendülnek és elkezdenek dermesztően mosolyogni vagy integetni. A Lumiere viszont láthatóan akkor van igazán elemében, amikor természetes környezeteket hoznak létre vele: a kamerába belebambuló teknősről, a nyugodt tavon sikló hajóról vagy a tengerparton elkapart autóról és a többiről elsőre meg se lehet mondani, hogy gyakorlatilag egyetlen igazi képkockát sem tartalmazó videókat látunk.

Csodás lehetőségeket tartogat továbbá az állóképek egyes elemeit (pl. lobogó tűz, vagy zászló) animáló, esetleg a videókon szereplő személyeket pillanatok alatt „átöltöztető” funkció.

A Lumiere persze arra is képes, hogy a felhasználó egyedi ízlése és művészete alapján hozzon létre új, mozgó tartalmakat (amelyek kezdetben biztosan csak néhány másodperces videók lesznek). Elég megmutatni neki egy akár kézzel készült rajzról készült fotót, vagy olyan képet, aminek a stílusából más kontenteket szeretnénk kihozni, és a többit már szöveges utasítással elvégeztethetjük a Google AI-jával.

Döbbenetes teljesítmény – ilyen videókat generál a Google AI-ja

A Lumiere-ről szóló tanulmányban a Google szakemberei azt állítják, hogy az AI modell (egyelőre) öt másodperces, 1024×1024 pixeles videókat készít. E korlátozások ellenére már most lefuttattak vele egy felhasználói kutatást, és azt állítják, hogy a kimenetei előnyösebbek a meglévő AI-videoszintetizáló modelleknél. Ami viszont a képzési adatokat illeti, a Google nem árulja el, honnan szerezte a Lumiere-be táplált videókat: „A T2V [text to video] modellünket egy olyan adathalmazon képezzük, ami 30 millió videót tartalmaz, a hozzájuk tartozó szöveges feliratokkal együtt. A videók 80 képkockát tartalmaznak és 16 fps-sel futnak”. A mesterséges intelligencia által generált videók még kezdetleges állapotban vannak, de az elmúlt két évben minőségi fejlődésen mentek keresztül. Ennek ellenére még nincs híre annak, hogy a felhasználók mikor vethetik rá magukat, akár éppen a Lumiere-re.

Mindeközben (vagy mindezért?) a gaming iparban:

Többezer gaming szakembert rúg ki a Microsoft – érintett a Blizzard is

×