Инженеры стремятся заставить среднестатистических певцов звучать как виртуозы

WEST LAFAYETTE, Ind. - Караоке, возможно, уже никогда не будет прежним, благодаря представленному в Нэшвилле исследованию, в котором подробно описаны последние результаты усилий по созданию компьютеризированной системы, позволяющей обычным певцам звучать как профессионалы.

«Наша конечная цель - создать компьютерную систему, которая превратит плохой певческий голос в великолепный певческий голос», - сказал Марк Дж. Т. Смит, профессор и глава Школы электротехники и вычислительной техники Университета Пердью.

С этой целью Смит, бывший преподаватель Технологического института Джорджии, работает с аспирантом Технологического института Джорджии Мэтью Ли над созданием компьютерных моделей для анализа и синтеза голоса. Эти модели или программы, называемые алгоритмами, разбивают певческий голос человека на компоненты, которые затем можно модифицировать для получения более профессионально звучащего исполнения исходного голоса.

Потребуется гораздо больше работы, прежде чем система будет завершена, сказал Смит. Он сказал, однако, что специализированные программы способны изменять некоторые важные характеристики голоса человека, такие как высота тона, продолжительность и «вибрато» или частотная модуляция, производимая профессиональными певцами..

Ли представит результаты последних исследований 30 апреля во время 145-й встречи Американского акустического общества в Нэшвилле, штат Теннеси, столице страны, исполняющей музыку кантри. Ли продемонстрирует систему, проигрывая аудиоклипы кантри-музыки до и после исследователям, присутствовавшим на конференции.

Система использует специальную технику для разделения исходного голоса. Затем голос реконструируется с помощью математического метода, называемого быстрым преобразованием Фурье, который позволяет системе быстро ресинтезировать голос.

Смит, который специализируется в области электротехники, известной как обработка сигналов, начал работать над базовой «синусоидальной моделью» в середине 1980-х годов вместе с бывшим докторантом Э. Брайаном Джорджем, который впервые разработал этот метод. Модель позволяет разбить певческий голос человека на компоненты или сегменты синусоидальной волны. Совсем недавно Смит и Ли разработали метод изменения параметров синусоидальной волны в сегментах для улучшения качества пения.

«Хотя нам удалось улучшить качество образцов певческого голоса в нашей базе данных, нам предстоит еще многое сделать, прежде чем мы сможем надежно обрабатывать все типы голосов», - сказал Смит. «Существует много проблем при разработке системы такого типа.

"Возможность охарактеризовать свойства хорошего голоса с точки зрения составляющих синусоидальной волны, которые мы вычисляем, - нетривиальная задача. Проблема еще более усложняется большим разнообразием присутствующих стилей пения и типов голоса. среди нашего населения."

Например, компоненты синусоиды для мужских и женских голосов существенно различаются.

"Оказывается, у нас больше проблем с певцами-мужчинами, чем с певицами", - сказал Смит. «В целом нам легче работать с более высокими голосами».

Другие задачи включают в себя поиск способов улучшить пение человека без резкого изменения исходного голоса, определение параметров, которые необходимо изменить для конкретных типов улучшения качества, а затем управление системой в режиме реального времени на доступном оборудовании.

Важной особенностью метода синусоидальной модели является конструкция «перекрытие-добавление», в которой певческий голос разбивается на сегменты и обрабатывается блоками. По словам Смита, модель разработана на основе перекрывающихся блоков, в результате чего синтез голоса звучит естественно, а не прерывисто.

Пение сначала преобразуется в последовательность чисел, которая преобразуется в новый набор чисел, представляющий более профессиональный певческий голос. По словам Смита, новые числа затем подаются на цифро-аналоговый преобразователь и громкоговоритель.

Синусоидальная модель, которую используют Смит и Ли, может иметь более широкое применение, например, для синтеза музыкальных инструментов и улучшения качества программ преобразования текста в речь, в которых слова, набранные на компьютере, автоматически преобразуются в устную речь. Бывший аспирант Технологического института Джорджии Майкл Мейкон и его советник Марк Клементс использовали синусоидальную модель, разработанную Смитом и Джорджем, для создания системы, которая преобразовывает текст в речь, а текст - в пение.

Другие возможные применения включают программы для слабослышащих, облегчающие слышимость речи, и системы, меняющие скорость воспроизведения цифровых записей.

«Идея о цифровом улучшении человеческого пения зрела в моей голове уже давно», - сказал Смит. «Чего бы я действительно хотел, так это чтобы мы записали альбом на днях».

Ранние части исследования финансировались Национальным научным фондом.