През последните няколко години генеративните невронни мрежи преодоляха важен етап от своето развитие, ставайки по-мощни и способни да създават не само изображения, но и видеоклипове, базирани на текстови описания. Новият алгоритъм VASA-1 на Microsoft вероятно ще изненада мнозина, защото не изисква никакво описание, за да работи.
Достатъчно е да предоставите едно изображение на човек и аудио запис, въз основа на които невронната мрежа ще генерира видео на говорещ човек с широк спектър от емоции и естествени изражения на лицето.
Резултатът от VASA-1 изглежда много естествен и правдоподобен. Само от една снимка на лице и гласов запис, алгоритъмът създава реалистично видео, в което човекът на снимката буквално „оживява“, а изражението на лицето, движенията на устните и главата му изглеждат напълно естествени.
Тъй като видеоклиповете, създадени с помощта на VASA-1, са трудни за незабавно разграничаване от истинските, вече има опасения, че алгоритъмът може да бъде използван за създаване на фалшификати.
Що се отнася до самата невронна мрежа, основната ѝ разлика от други подобни алгоритми е наличието на холистичен модел за генериране на изражения на лицето и движения на главата. Microsoft провжда задълбочено проучване, включително оценка на редица нови показатели. В резултат на това става ясно, че новият алгоритъм значително надминава представените по-рано аналози в много отношения.
„Нашият метод не само генерира висококачествено видео с реалистични изражения на лицето и движения на главата, но също така поддържа генериране на онлайн видео от 512x512 пиксела при 40 кадъра в секунда с ниска първоначална латентност. Това проправя пътя за взаимодействия в реално време с реалистични аватари, които имитират човешкото разговорно поведение“, се казва в изявление на Microsoft.
С други думи, невронната мрежа може да създава висококачествени фалшиви видеоклипове, базирани само на едно изображение. Така че не е изненадващо, че Microsoft нарича VASA-1 „изследователска демонстрация“ и няма планове да го пусне на пазара, поне не в скоро време. Вижте повече.