Инженеры обучают робота по-человечески двигать губами во время речи и вокала
В исследовании, опубликованном в журнале Science Robotics, учёные рассказали, что робот сначала научился пользоваться своими 26 лицевыми моторами, наблюдая за собой в зеркале, а затем научился имитировать движения человеческих губ, просмотрев много часов видео на YouTube.
Источник: Фото: Jane Nisselson / Columbia Engineering
МОСКВА, 23 января /Новости науки/. Инженеры Колумбийского университета обучают робота по-человечески двигать губами во время речи и вокала, говорится в сообщении Columbia University School of Engineering and Applied Science.
Люди придают большое значение мимике в целом и движениям губ в частности. Роботы часто кажутся безжизненными и даже пугающими именно потому, что их губы не двигаются. Команда Columbia Engineering создала робота, который впервые способен учиться реальным движениям губ и лица для речи и исполнения песен.
В исследовании, опубликованном в журнале Science Robotics, учёные рассказали, что робот сначала научился пользоваться своими 26 лицевыми моторами, наблюдая за собой в зеркале, а затем научился имитировать движения человеческих губ, просмотрев много часов видео на YouTube.
Теперь робот может очень естественно двигать губами во время исполнения песен, пишут авторы статьи.
Почему реалистичная “работа губ” у робота — сложная задача
Во-первых, нужна специализированная «лицевая» аппаратная часть: гибкая «кожа» лица, приводимая в действие множеством маленьких моторов, которые должны работать быстро, тихо и согласованно. Сам рисунок движения губ — это сложная динамика, определяемая последовательностями звуков речи и фонем.
Лицо человека оживляют десятки мышц под мягкой кожей; они естественно синхронизируются с голосом и движениями губ. У гуманоидных роботов, напротив, лицо чаще всего жёсткое, с небольшим числом степеней свободы, а движения губ «ставятся» по заранее заданным, строгим правилам. Из-за этого мимика выходит скованной, неестественной и даже зловещей.
Роботизированное лицо с 26 моторами поставили перед зеркалом, чтобы робот мог понять, как его собственное лицо меняется в ответ на работу «мышц» (моторчиков). Как ребёнок, который впервые строит рожицы перед зеркалом, робот сделал тысячи случайных выражений лица и движений губ. Со временем он научился управлять моторами так, чтобы получать заданный внешний вид лица. Этот подход исследователи называли “vision-to-action” языковой моделью (VLA) — модель «из зрительного образа в действие».
Затем роботу показали записанные ролики, где люди говорят и поют. Это дало ИИ, управляющему роботом, возможность выучить, как именно движется рот человека при произнесении различных звуков. Имея эти две модели, ИИ робота смог переводить звук напрямую в команды моторчикам губ.
Учёные протестировали способность робота на разных звуках, языках и ситуациях, а также на нескольких песнях. Не понимая смысла аудиофрагментов, робот всё равно смог синхронно двигать губами в соответствии со звучанием.
В то же время создатели робота признают, что результат пока далёк от идеала.
Люди придают большое значение мимике в целом и движениям губ в частности. Роботы часто кажутся безжизненными и даже пугающими именно потому, что их губы не двигаются. Команда Columbia Engineering создала робота, который впервые способен учиться реальным движениям губ и лица для речи и исполнения песен.
В исследовании, опубликованном в журнале Science Robotics, учёные рассказали, что робот сначала научился пользоваться своими 26 лицевыми моторами, наблюдая за собой в зеркале, а затем научился имитировать движения человеческих губ, просмотрев много часов видео на YouTube.
Теперь робот может очень естественно двигать губами во время исполнения песен, пишут авторы статьи.
Почему реалистичная “работа губ” у робота — сложная задача
Во-первых, нужна специализированная «лицевая» аппаратная часть: гибкая «кожа» лица, приводимая в действие множеством маленьких моторов, которые должны работать быстро, тихо и согласованно. Сам рисунок движения губ — это сложная динамика, определяемая последовательностями звуков речи и фонем.
Лицо человека оживляют десятки мышц под мягкой кожей; они естественно синхронизируются с голосом и движениями губ. У гуманоидных роботов, напротив, лицо чаще всего жёсткое, с небольшим числом степеней свободы, а движения губ «ставятся» по заранее заданным, строгим правилам. Из-за этого мимика выходит скованной, неестественной и даже зловещей.
Роботизированное лицо с 26 моторами поставили перед зеркалом, чтобы робот мог понять, как его собственное лицо меняется в ответ на работу «мышц» (моторчиков). Как ребёнок, который впервые строит рожицы перед зеркалом, робот сделал тысячи случайных выражений лица и движений губ. Со временем он научился управлять моторами так, чтобы получать заданный внешний вид лица. Этот подход исследователи называли “vision-to-action” языковой моделью (VLA) — модель «из зрительного образа в действие».
Затем роботу показали записанные ролики, где люди говорят и поют. Это дало ИИ, управляющему роботом, возможность выучить, как именно движется рот человека при произнесении различных звуков. Имея эти две модели, ИИ робота смог переводить звук напрямую в команды моторчикам губ.
Учёные протестировали способность робота на разных звуках, языках и ситуациях, а также на нескольких песнях. Не понимая смысла аудиофрагментов, робот всё равно смог синхронно двигать губами в соответствии со звучанием.
В то же время создатели робота признают, что результат пока далёк от идеала.