News.ua


Нейросеть нарисовала лицо по голосу

Май 29
13:26 2019

Американские разработчики представили нейросетевую модель Speech2Face. Обученная на нескольких миллионах видео, эта модель умеет воссоздавать по спектрограмме речи человека примерное изображение его лица, основываясь на трех основных параметрах: поле, расе и возрасте. Описание алгоритма и результаты его работы доступны в препринте, опубликованном на arXiv.org.

По голосу человека можно с разной точностью определить некоторые его особенности: легко можно определить пол, чуть сложнее (но все равно возможно) — возраст, а наличие акцента дает общее представление о национальности. В результате этого можно примерно представить, как выглядит человек, но это представление не будет достаточно точным.

Ученые из Массачусетского технологического института при участии Тэхёна О (Tae-Hyun Oh) решили проверить, можно ли точно восстановить внешность человека по его голосу с помощью машинного обучения. Для обучения нейросети они использовали датасет AVSpeech, состоящий из более миллиона коротких видео более ста тысяч разных людей: каждое видео в базе данных разделено на аудио- и видеодорожку. Архитектура натренированной нейросети устроена следующим образом. Сначала предварительно натренированный алгоритм VGG-Face (ранее его использовали для создания модели, которая умеет определять сексуальную ориентацию человека — при условии ее бинарности) использует особенности лица человека из кадра на видео для создания изображения лица человека в анфас с нейтральным выражением лица. Другая часть алгоритма воссоздает из аудиодорожки использованного видео (небольшого фрагмента — от 3 до 6 секунд) спектрограмму речи и, используя результаты из параллельной нейросети, генерирующей изображение лица, дает на выход примерное изображение лица человека, который разговаривает на видео.

1458cabdce83c8696464306195a16fdec.png (83 KB)

Схема работы алгоритма

Точность разработанного алгоритма оценили по трем демографическим показателям: ученые сравнили пол, примерный возраст и расу оригинального изображения человека из видео и изображения, восстановленного на основе голоса. Несмотря на то, что авторам удалось добиться успехов в восстановлении изображений некоторых людей по видео, объективные метрики показывают несовершенство разработанной модели. В частности, модель хорошо угадывает пол человека, но редко может определить возраст с точностью до десяти лет, а также лучше всего «рисует» людей с европеоидной и азиатской внешностью. Последнее разработчики объясняют неравномерным распределением рас в обучающей выборке.

27b19d1f1d67b150ef6a26896bda50177.png (71 KB)

Матрица ошибок для пола, расы и возраста. Чем контрастнее цвет по диагонали, тем точнее определен параметр

Исследователи отметили, что целью их работы не было точное восстановление внешности человека по его голосу; сосредоточились они именно на выделении и точности некоторых важных параметров: пола, возраста и этнической принадлежности. Именно поэтому точно показать по голосу, как выглядит человек, пока что нельзя: при этом определенных параметров хватит для того, чтобы создавать, к примеру, анимационные аватары человека по его голосу. Также ученые отмечают, что их работа носит также исследовательскую пользу: генерация целых лиц на основе голоса поможет лучше изучить корреляцию с внешностью.

Источник: nplus1.ru

Share

Статьи по теме







0 Комментариев

Хотите быть первым?

Еще никто не комментировал данный материал.

Написать комментарий

Комментировать

Залишаючи свій коментар, пам'ятайте, що зміст та тональність вашого повідомлення можуть зачіпати почуття реальних людей, що безпосередньо чи опосередковано пов'язані із цією новиною. Виявляйте повагу та толерантність до своїх співрозмовників. Користувачі, які систематично порушують це правило, будуть заблоковані.

Останні новини

— Forbes |

0 комментариев Читать всю статью

Ми в соцмережах



Наші партнери

UA.TODAY - Украина Сегодня UA.TODAY
News.ua