2020-7-1 08:38 |
Неделю назад вирусную популярность в социальных сетях приобрел пародийный ролик, в котором лицом президента РФ Владимира Путина заменили лицо карикатурного гея из ролика в поддержку поправок к Конституции
Неделю назад вирусную популярность в социальных сетях приобрел пародийный ролик, в котором лицом президента РФ Владимира Путина заменили лицо карикатурного гея из ролика в поддержку поправок к Конституции. В оригинальном ролике, выполненном медиагруппой Патриот (связана с прокремлевским бизнесменом Евгением Пригожиным - прим. ред.) ребенка забирает из детдома гей-пара. В обновленном ролике мальчику представляют не маму мужского пола, а обнуленного Путина, который радостно показывает ребенку Конституцию. Znak.com поговорил с Марией Чмир основательницей и генеральным директором стартапа Dowell - компании, развивающей технологию Deepfake. - Технология Deepfake позволяет делать убедительные подделки видео с заменой лиц. Не могли бы вы максимально упрощенно объяснить, как работает эта технология? - Глобально визуальные дипфейки можно разделить на два больших класса - face-swap (трансфер внешности от донора к дублеру ) и reenactment (перенос мимики и эмоций). В рамках этих направлений есть несколько подходов к обработке видео, которые позволяют видоизменять контент. Я расскажу о том, которым углубленно занимается Dowell. Наша команда исторически специализируется на компьютерном зрении: мы обучали алгоритмы читать фото и видео как текст, учиться определять объекты и взаимосвязи между ними на изображениях. Это позволило нам натренировать наши искусственные нейронные сети с высокой точностью распознавать, где на лице находятся глаза, нос и рот, куда направлен взгляд, даже если голова двигается, как падают тени и где лежат морщинки. Такому дотошному анализу подвергаются и видео с донором , и видео с дублером . Следующий этап - алгоритмы учатся воссоздавать донорское лицо поверх лица дублера, сохраняя позы, освещение и мимику дублера. Дальше подключаются алгоритмы обработки - они стабилизируют видео, устраняют несовершенства и выравнивают цвет. В нашем случае в 8 из 10 случаев получается неотличимое от оригинала лицо. Сейчас мы способны создать до 50 видео за 72 часа. - Насколько такие технологии доступны? В сети много дипфейк-роликов, созданных разными блогерами. Их может делать любой желающий? - Сейчас действительно есть несколько открытых библиотек, а также приложений и веб-сервисов, с помощью которых можно произвести фото- и видеофейки. Большинство из них направлены на создание развлекательных коротких роликов в низком качестве - они отлично вписываются в ваши соцсети, но на их основе не сделать качественный сюжет для киноэкранов. Те решения, которые обладают высоким реализмом результата, требуют, во-первых, серьезных технологических мощностей (для обучения нейросетей используются графические процессоры с высокой производительностью), а также нуждаются в серьезной ручной постобработке в редакторах: вы могли видеть результат такого симбиоза человека и алгоритмов в Ирландце Скорсезе. - Как выглядит процесс обучения нейросети? Нужно скормить ей множество видеороликов и фото? Можно ли подменять лица в реальном времени? Насколько это трудоемкая задача? - Работа с генеративными технологиями - это всегда баланс трех компонентов: увеличить скорость, сохранив высокий реализм при минимальном объеме входящих данных. Мы, например, научились создавать по-настоящему неотличимые от оригинала копии лиц и даже голов, и сейчас колдуем над ускорением нашей модели, а также снижаем ее прожорливость по части требуемых для генерации материалов. Существенного прогресса мы добились, когда начали работу с облачным сервисом Hostkey из Нидерландов. Некоторые наши коллеги по цеху, наоборот, умеют очень быстро - за пару секунд - осуществлять трансфер лиц, но бьются над проблемой улучшения качества генерируемого лица. Яркий пример - команда стартапа AI Factory, основатели которого, кстати, наши земляки, челябинцы Александр Машрабов и Григорий Ткаченко, продавшие свою разработку пересадки лиц в реальном времени Snapchat за $166 млн. - От чего зависит качество созданного фейка ? От чего зависит его стоимость? - Если мы говорим про cinema production quality, когда важно создать максимально похожую и живую копию, то в этом кейсе алгоритмы действительно чувствительны ко многим характеристикам контента: в идеале условия съемки в видео, для которого мы имитируем лицо, и в видео, из которого лицо извлекаем, должны быть схожи по цветокоррекции, иметь высокое разрешение, а лица не должны перекрываться предметами. Но мы учимся нивелировать эти капризы . Например, за счет глубокой сегментации видео обнаруживаем кадры, в которых перед лицом машут руками, и автоматически удаляем их из обучающей выборки, чтоб минимизировать шум в итоговой работе. С некачественными контентом мы работаем с помощью алгоритмов, восстанавливающих изображения до более высокого разрешения. И чем больше манипуляций с контентом нам приходится производить, тем выше цена работы. Самое сложное - сгенерировать первые 30 секунд нового лица, а дальше модель, познакомившись с ним, будет реагировать на новые задачи (кадры) все лучше и лучше. - За какую сумму ваша компания вставит лицо известной личности (или неизвестной) в порноролик или во что-то подобное? Или вы откажетесь от такой работы? - Мы в Dowell на старте договорились о том, что этичное использование технологии - ключевая ценность нашей команды. У нас глобальные амбиции, поэтому даже в наших пародийных роликах для YouТube мы четко заявляем о фейковости контента, даем ссылки на первоисточники и сопровождаем особо экстравагантные сюжеты дисклеймерами. - Про этичность и законность - как сейчас регулируется эта сфера? Есть ли какие-то громкие прецеденты? - Традиционно пионерами в этой сфере выступают Штаты: в октябре 2019-го губернатор Калифорнии подписал законопроект, запрещающий использовать фейки (в любом виде - голосовые, текстовые, визуальные) в политических целях. При этом есть оговорка, которая допускает создание материалов, раскрывающих свою подражательную природу. Подобные инициативы есть в Великобритании и Канаде. В то же время в феврале перед выборами в индийский парламент один из кандидатов использовал подмену движения губ на видео, чтоб заговорить с электоратом на диалекте хариани, которым он не владеет. В западной прессе последовала волна обеспокоенных публикаций, но на родине санкций к чиновнику не применили. Безусловно, мы подходим к новому этапу определения норм относительно обращения с персональными данными. Понятие кражи личности , возникшее полвека назад в англосаксонском праве, очевидно, требует расширения значения и включения individual visual identity (уникальной внешности человека) в перечень охраняемых категорий. - Получается, сейчас видео вообще нельзя верить? Человек может сказать - я этого не говорил, не делал, это все Deepfake. Или, наоборот, образ человека могут использовать, чтобы от его лица наговорить всякого. Как с этим бороться? Есть ли способ вычислять фейки? Насколько он эффективный? - Кибербезопасность в плоскости дипфейков - одна из самых горячих тем, как для государств, так и для корпораций, который сталкиваются со шквалом критики из-за своей неспособности предотвратить распространение ложной информации. Microsoft, Google и Facebook выделяют миллиарды на сбор данных и научные исследования. Техногигант Марка Цукерберга две недели назад завершил свой масштабный челлендж по детекции дипфейков на видео с призовым фондом в миллион долларов (победил инженер по машинному обучению из Белоруссии). Нейросети участников показывали точность угадывания подделок равную 83% на тренировочных данных, но когда их алгоритмам предлагали незнакомые видео и фото, качество снижалось до 65%. Как видите, точность определения дипфейков сейчас лежит где-то в области подбрасывания монетки. И это по-прежнему колоссально сложная задача. - Технологию уже использовали в кино и различных развлекательных видео. А недавно она помогла заменить настоящие лица героев фильма BBC о преследуемых в Чечне геях. Для чего еще она может использоваться? Может, есть какие-то неочевидные примеры? - Кейс с заменой лиц героев фильма Добро пожаловать в Чечню на представителей ЛГБТ-активистов - мой любимый. По-моему, это по-настоящему гуманное использование технологии, и таких кейсов пока немного, к сожалению. Из арт-мира интересным выглядит проект музея Дали в Санкт-Петербурге, Флорида: нейросети оживили отца сюрреализма, с которым каждый посетитель экспозиции мог обменяться парой фраз. Цифровое воскрешение умерших звезд, создание нарративов с естественным старением героев (вместо дублеров и грима), возможность фанатов оказаться внутри киновселенной, загрузив фото на стриминговую платформу, перенос своих мимики и эмоций для управления любимыми персонажами - это уже не будущее, это наше реальное завтра, в приближении которого команда Dowell принимаем активное участие. Мне же любопытным видится социально-ответственное направление развития дипфейков, связанное с лечением и реабилитацией. VR-технологии уже сегодня начинают применяться для работы с фобиями и психотравмами, и возможность моделирования с помощью генерации лица и голоса значимой для пациента персоны - ценный инструмент для терапии. Такой подход сегодня кажется экстремальным, и он нуждается в масштабных клинических исследованиях, но первые шаги уже делают , скажем, наши корейские коллеги. - Про ролик с Путиным. Как он создавался? Как развивались события потом, просили ли его удалить? - Около года мы вели наши научно-исследовательские разработки в области генеративных сетей, иногда отвлекаясь на коммерческие проекты, и не без боли следили за тем, как набирают популярность авторы, создающие дипфейки с помощью открытых алгоритмов - после видео с Маском, которое, кажется, не переслал мне только сам Маск, мы тоже решили действовать. Нам не очень интересно пересаживать актеров из одной картины в другую, как делает большинство, поэтому мы выбрали вектор иронии над повесткой: сначала был ролик, в котором Собянин ввел пропуски в Хогвартсе , а следующим стала пародия на нашумевшую пропаганду в поддержку поправки в Конституцию о семье как о союзе мужчины и женщины. Публикации этой работы медиагруппы Патриот вызвала у меня такую мощную фрустрацию, что попытка переосмысления стала естественной реакцией. Мы собрали качественный датасет с Владимиром Путиным из публичных источников и пофантазировали в творческом ключе о том, как будет выглядеть Россия после поправок. Честно, мы боялись его публиковать. Долго спорили. И даже после того, как решились, закрыли доступ к ролику на YouТube через 10 часов после публикации. Басманный суд вам тоже что-нибудь сгенерирует , - дал обратную связь на наше предложение опубликовать ролик администратор одного известного паблика в телеграме. Но видео успели скачать, и оно попало в телеграм, твиттер и ВК без нашей воли, собрав там, по моим подсчетам, около 100 тыс. просмотров. Сейчас доступ к нему снова открыт: мы не хотим бояться говорить о том, что нас волнует, оставаясь при этом корректными и используя язык пародии. - Расскажите непосредственно о вашем стартапе, как он зарождался и к чему в итоге вы хотите прийти? - Сейчас мы параллельно разрабатываем два продукта: в конце лета планируем завершить автоматизацию нашего алгоритма переноса внешности и упаковать его в решение для замены лиц в реальном времени (большой пул потенциальных клиентов в рекламе и потоковых медиа ждут этого релиза), а уже в июле мы запустим сервис, оживляющий фотографии, - как в Гарри Поттере, помните? Можно будет загрузить портрет своего босса и анимировать его разными эмоциями, а из полученных гифок сделать стикерпак или поделиться ими в соцсетях. Гифки стали сегодня универсальным средством коммуникации - в мае Facebook купил Giphy за $400 млн, что подчеркивает интерес широкой аудитории к созданию и обмену короткими визуальными сообщениями. В этом направлении мы видим потенциал для масштабирования.
Подробнее читайте на znak.com ...
Источник: znak.com | Рейтинг новостей: 104 |