Программное обеспечение Sing-a-long может добавить сладкую мелодию к любому какофоническому крику

Программа Sing-a-long, разработанная в ASTAR, привносит сладкую мелодию в любой какофонический крик.

Независимо от того, прикладываете ли вы все усилия, технология I2R Speech2Singing заставит вас звучать как мелодичный певец, которым вы всегда хотели быть. Программное обеспечение для синтеза голоса, разработанное исследователями ASTAR, впервые обеспечивает высококачественное пение автоматически, сохраняя при этом исходный характер вашего естественного голоса.

«Многие люди любят петь, но им не хватает для этого навыков», - говорит Минхуэй Донг, который руководил исследованием в Институте исследований информационно-коммуникационных технологий ASTAR. «Мы хотим использовать нашу технологию, чтобы помочь обычному человеку хорошо петь».

Речь состоит из трех основных элементов - содержания, просодии и тембра. Содержание передается с помощью слов, просодия - или мелодия в случае пения - выражается через ритм и высоту звука, но тембр - это то отличительное качество, которое отличает звук банджо от трубы, а голос одного певца от голоса другого. I2R Speech2Singing работает, полируя мелодию, сохраняя при этом исходное содержание и тембр звука[1].

Существующие технологии, направленные на исправление мелодии, пытаются привести фальшивые звуки либо к ближайшей ноте музыкальной гаммы, либо к точной ноте исходной партитуры. Первый хорошо работает для профессиональных певцов, которые могут лишь слегка фальшивить, но не могут исправить фальшивое пение или просто чтение вслух. Последний лучше исправляет диссонирующие мелодии, но игнорирует многие другие аспекты мелодии, такие как вибрато и растяжение гласных.

Вместо этого I2R Speech2Singing использует записи профессиональных певцов в качестве шаблонов для исправления мелодии певческого голоса или преобразования говорящего голоса в певческий. Программное обеспечение определяет синхронизацию каждого фонетического звука с помощью технологии распознавания речи, а затем растягивает и сжимает продолжительность сигнала с помощью технологии преобразования голоса, чтобы он соответствовал ритму профессионального певца. Затем синтезатор речи комбинирует скорректированный по времени голос с данными высоты тона и фоновой музыкой для создания красивого соло.

«Когда мы сравнили результат с другими приложениями на рынке и в ходе исследований, мы поняли, что наше программное обеспечение обеспечивает гораздо лучшее качество передачи голоса», - говорит Донг.

Сингапурцы впервые познакомились с программным обеспечением в 2013 году через приложение «Sing for Singapore», которое является частью мобильного приложения, посвященного параду в честь Национального дня 2013 года (см. изображение). А в 2014 году компания I2R Speech2Singing получила награду за лучший вклад в шоу и рассказы на INTERSPEECH, крупнейшей международной площадке для исследований в области науки и технологий речевой коммуникации.

Дун и его команда сейчас работают над улучшением доступности программного обеспечения и добавлением функции, позволяющей пользователям настраивать свое пение по своему усмотрению.

Аффилированные с ASTAR исследователи, участвовавшие в этом исследовании, представляют Институт исследований в области информационных технологий.

Ссылка: Dong, M., Lee, S. W., Li, H., Chan, P., Peng, X., Ehnes, JW & Huang, D. I2R Speech2Singing совершенствует пение каждого. ИНТЕРСПИЧ 2014, 2148-2149 (2014).