Mens vi almindelige dødelige sidder og griner over, at kunstig intelligens får Arnold Schwarzenegger til at synge Whitney Houston-numre , arbejder Google på den alvorlige(re) side af AI. Et af resultaterne er værktøjet Lumiere, der formår at skabe voldsomt imponerende videoklip ud fra tekstbeskrivelser.
Lumiere bruger en ny diffusionsmodel kaldet Space-Time-U-Net eller STUNet, der finder ud af, hvor tingene er i en video (rum), og hvordan de samtidig bevæger sig og ændrer sig (tid). Ifølge Ars Technica giver det modellen skabe videoen i én proces i stedet for at sætte mindre stillbilleder sammen.
Og lad os bare sige, at de ansatte hos Industrial Light & Magic måske skal se sig om efter et nyt job – eller lære at mestre Lumieres kommandoprompt. Tjek bare videoen herunder, der viser, hvad den nye AI model er i stand til. På nuværende tidspunkt.
Bevares, der er naturligvis steder, der afslører, at der ikke tale om “naturlig” video. Men giv modellen et år eller to, så tror jeg, den kan narre de fleste.
I skrivende stund kan Lumiere levere fem sekunder lange videoklip i en opløsning på 1.024 x 1.024 pixels. Videoerne er kodet med 16 billeder i sekundet og består altså af 80 billeder. Du kan læse mere på denne side , hvor Google beskriver projektet.
T2V [Text to Video] modellen er trænet med et datasæt der rummer 30 millioner videoer med tilhørende tekstbeskrivelser. Fagre nye verden. Du kan læse mere
Og lad os så få Schwarzenegger på banen …