Домой Регистрация
Приветствуем вас, Гость



Форма входа

Население


Вступайте в нашу группу Вконтакте! :)




ПОИСК


Опросник
Используете ли вы афоризмы и цитаты в своей речи?
Проголосовало 514 человек


Вокодер что это такое


Вокодер

Вокодер (англ. voice coder — кодировщик голоса) — электронный музыкальный инструмент, устройство синтеза речи на основе произвольного сигнала с богатым спектром.

Изначально вокодеры были разработаны в целях экономии частотных ресурсов радиолинии системы связи при передаче речевых сообщений. Экономия достигается за счет того, что вместо собственно речевого сигнала передают только значения его определенных параметров, которые на приемной стороне управляют синтезатором речи.

Основу синтезатора речи составляют три элемента: генератор тонального сигнала для формирования гласных звуков, генератор шума для формирования согласных и система формантных фильтров для воссоздания индивидуальных особенностей голоса. После всех преобразований голос человека становится похожим на голос робота, что вполне терпимо для средств связи и интересно для музыкальной сферы.

Вокодер как необычный эффект был взят на вооружение электронными музыкантами и в последствии стал полноценным эффектом благодаря фирмам-изготовителям музыкального оборудования, которые придали ему форму и удобство музыкального эффекта.

Вокодер как музыкальный эффект позволяет перенести свойства одного (модулирующего) сигнала на другой сигнал, который называют носителем. В качестве сигнала-модулятора используется голос человека, а в качестве носителя — сигнал, формируемый музыкальным синтезатором или другим музыкальным инструментом. Так достигается эффект «говорящего» или «поющего» музыкального инструмента.

Помимо голоса модулирующий сигнал может быть и гитарой, клавишными, барабанами и вообще любым звуком синтетического и «живого» происхождения. Так же нет ограничений и на несущий сигнал. Экспериментируя с моделирующим и несущим сигналом можно получать совершенно разные эффекты — говорящая гитара, барабаны со звуком пианино, гитара звучащая как ксилофон.

Современные вокодеры можно поделить на аппаратные (с которых все и началось) и виртуальные (появились гораздо позже с развитием компьютерных технологий создания музыки). В практике компьютерного музыканта значительно чаще используются вокодеры виртуальные, реализованные в виде VST-плагинов (VST-pugins), так как они более гибкие в настройке.

Применяются подобные решения вокодеров не сами по себе, а совместно с программой-хостом. В качестве таковой может быть использована любая виртуальная студия, поддерживающая технологию VST, например, Cakewalk SONAR, Steinberg Cubase или Fruity Loops Studio. Программа хост позволяет подключать собственно сам вокодер, и выбирать откуда будет поступать несущий и модулирующий сигнал (некоторые вокодеры имеют встроенный синтезатор несущего сигнала) — с синтезаторов и семплеров (которые, кстати, имеют тоже формат VST), или c микрофонов и других подключенных к звуковой карте инструментов. А управление несущим сигналом осуществляется посредством MIDI команд, поступающих из MIDI-секвенсора или MIDI-клавиатуры в VST-плагин (синетзатор или сэмплер).

Примером виртуальных вокодоров могут служить VST плагины такие как — Steinberg Vocoder, Fruity Vocoder, Akai DC Vocoder, Voctopus, AC vocoder, Formulator, Lpc-vocoder, Darkoder, Cylonix (как работающий самостоятельно (standalone). Любой, знакомый с его принципиальным устройством, может собрать собственный вокодер в любой модульной програме типа NI Reactor/Generator, Max MSP, Buzz Composer.Примером аппаратного вокодера могут служить Электроника ЭМ-26 со встроенным синтезатором, Korg KAOSS PAD 3 (цифровой), Korg VC-10 Vocoder, Boss Vt1-Vocoder, Sennheiser Vocoder, Korg R3 Synth & Vocoder, KORG MicroKORG SYNTHESIZER & VOCODER, MAM VF11 Vocoder, Analog Lab Vocoder X32, Roland VP-330 Vocoder Plus, EMS Vocoder.

Видео: Вокодер на видео + звучание

Благодаря этим видео Вы можете ознакомиться с инструментом, посмотреть реальную игру на нём, послушать его звучание, ощутить специфику техники:

Продажа инструментов: где купить/заказать?

В энциклопедии пока ещё нет информации о том, где можно купить или заказать этот инструмент. Вы можете это изменить!

eomi.ru

Что такое вокодер и как им пользоваться?

Вокодер (в переводе с английского voice coder – кодировщик голоса, речи) – инструмент, который используется для синтеза речи на основе сигнала с богатым спектром.

Вокодер – это музыкальный эффект, который привносит в свойства одного сигнала, свойства другого. С его помощью можно добиться эффекта «говорящего» инструмента (например, гитары) или сделать голос более «роботизированным».

Вокодер использует два сигнала – носитель и модулятор.

Носитель – это основной сигнал, модулятор – сигнал, модулирующий носитель.

Структурная схема вокодера выглядит вот так:

Давайте на примере плагина Fruity Vocoder рассмотрим основные настройки данного устройства и разберёмся с принципом его работы.

Область FREQ:

FORM – смещение тональности в центах;

MIN – высокочастотный фильтр;

MAX – низкочастотный фильтр;

SCALE – масштаб оси частот;

INV – инверсия частот модулятора;

BW – ширина полосы пропускания фильтра.

Область ENV:

ATT – атака модулятора;

REL – восстановление модулятора.

Область MIX:

MOD – уровень необработанного сигнала модулятора;

CAR – уровень необработанного сигнала носителя;

WET – уровень обработанного сигнала.

Графическая область:

Bands – число частотных полос в группе. Чем меньше полос, тем более грубой будет обработка.

Filter – этот параметр задаёт порядок фильтров (это влияет на крутизну полос).

Также в этой области расположен графический эквалайзер.

Для правильной работы с данным прибором необходимо направить оба сигнала (носитель и модулятор) на один и тот же канал микшера. После чего в insert поставить инструмент Fruity Vocoder. Модулятор, при этом панорамируется полностью в левый канал, а носитель – полностью в правый.

Параметры вокодера настраиваются по необходимости, в зависимости от желаемого результата.

Для примера, я использовал в качестве носителя встроенный синтезатор программы FL Studio Plucked, а в качестве модулятора вокальный сэмпл.

Давайте послушаем эти звуки до обработки.

Прослушать носитель (синтезатор Plucked)

//fierymusic.ru/wp-content/uploads/2012/10/Plucked.mp3

Прослушать модулятор (Sample)

//fierymusic.ru/wp-content/uploads/2012/10/Sample.mp3

А вот так звучит обработанный вокодером сигнал.

//fierymusic.ru/wp-content/uploads/2012/10/Vocoder.mp3

Это основы работы с данным инструментом.

Удачи в творчестве!

Если вам понравилась статья, поделитесь ей с друзьями, нажав на кнопки социальных сетей.

Понравилась статья? Поделись с друзьями.

fierymusic.ru

Вокодер - это... Что такое Вокодер?

Структурная схема вокодера

Вокодер (англ. voice coder — кодировщик голоса) — устройство синтеза речи на основе произвольного сигнала с богатым спектром. Изначально вокодеры были разработаны в целях экономии частотных ресурсов радиолинии системы связи при передаче речевых сообщений. Экономия достигается за счёт того, что вместо собственно речевого сигнала передают только значения его определённых параметров, которые на приемной стороне управляют синтезатором речи. Основу синтезатора речи составляют три элемента: генератор тонального сигнала для формирования гласных звуков, генератор шума для формирования согласных и система формантных фильтров для воссоздания индивидуальных особенностей голоса. После всех преобразований голос человека становится похожим на голос робота, что вполне терпимо для средств связи и интересно для музыкальной сферы. Так было лишь в самых примитивных вокодерах первой половины прошлого столетия. Современные связные вокодеры обеспечивают высочайшее качество голоса при существенно более сильной степени сжатия в сравнении с упомянутыми выше.

Вокодер как необычный эффект был взят на вооружение электронными музыкантами и впоследствии стал полноценным эффектом благодаря фирмам-изготовителям музыкального оборудования, которые придали ему форму и удобство музыкального эффекта. Вокодер как музыкальный эффект позволяет перенести свойства одного (модулирующего) сигнала на другой сигнал, который называют носителем. В качестве сигнала-модулятора используется голос человека, а в качестве носителя — сигнал, формируемый музыкальным синтезатором или другим музыкальным инструментом. Так достигается эффект «говорящего» или «поющего» музыкального инструмента. Помимо голоса модулирующий сигнал может быть и гитарой, клавишными, барабанами и вообще любым звуком синтетического и «живого» происхождения. Так же нет ограничений и на несущий сигнал. Экспериментируя с моделирующим и несущим сигналом можно получать совершенно разные эффекты — говорящая гитара, барабаны со звуком фортепиано, гитара, звучащая как ксилофон.

Современные вокодеры можно поделить на аппаратные (с которых все и началось) и виртуальные (появились гораздо позже с развитием компьютерных технологий создания музыки). В практике компьютерного музыканта значительно чаще используются вокодеры виртуальные, реализованные в виде VST-плагинов (VST-plugins), так как они более гибкие в настройке. Применяются подобные решения вокодеров как самостоятельные программы, так совместно с программой-хостом. В качестве таковой может быть использована любая виртуальная студия, поддерживающая технологию VST, например, Cakewalk Sonar, Steinberg Cubase или FL Studio. Программа-хост позволяет подключать собственно сам вокодер и выбирать, откуда будет поступать несущий и модулирующий сигнал (некоторые вокодеры имеют встроенный синтезатор несущего сигнала) — с синтезаторов и семплеров (которые, кстати, имеют тоже формат VST) или c микрофонов и других подключенных к звуковой карте инструментов. А управление несущим сигналом осуществляется посредством MIDI-команд, поступающих из MIDI-секвенсора или MIDI-клавиатуры в VST-плагин (синтезатор или семплер). Примером виртуальных вокодеров могут служить VST-плагины — такие как Steinberg Vocoder, Fruity Vocoder, Akai DC Vocoder, Voctopus, AC vocoder, Formulator, Lpc-vocoder, Darkoder, Cylonix (как работающий самостоятельно (standalone)). Любой знакомый с его принципиальным устройством может собрать собственный вокодер в любой модульной программе типа NI Reactor/Generator, Max MSP, Buzz Composer. Примером аппаратного вокодера могут служить Электроника ЭМ-26 со встроенным синтезатором[1], Крок 2401[2], Korg KAOSS PAD 3 (цифровой), Korg VC-10 Vocoder, Boss Vt1-Vocoder, Sennheiser Vocoder, Korg R3 Synth & Vocoder, KORG MicroKORG SYNTHESIZER & VOCODER, MAM VF11 Vocoder, Analog Lab Vocoder X32, Roland VP-330 Vocoder Plus, EMS Vocoder.

dic.academic.ru

4.4. Полосное кодирование. Вокодеры

Повышение эффективности цифровых методов передачи возможно применением полосного кодирования, основанного на делении полосы частот речевого сигнала ограниченного фильтром нижних частот (ФНЧ) первичного сигнала C(t) до пределов эффективно передаваемой полосы частот (ЭППЧ) соответствующего канала передачи, на ряд полос с помощью блока полосовых фильтров тракта передачи, образуя, таким образом, субканалы (СК), число которых лежит в пределах 4...8 (рис. 4.10).

Рис. 4.10. Структурная схема кодека с разделением на полосы

В тракте передачи сигнал каждого из СК с помощью однополосной модуляции переносится в полосу частот 0…Fмакс и затем обрабатывается раздельно при помощи, например, кодера адаптивной дифференциальной импульсно-кодовой (Кодер АДИКМ). Для каждого СК дискретизация осуществляется соответствующей частотой дискретизации Fд. Квантова­ние и кодирование в каждом СК осуществляется с разной точностью с учетом свойств уха, при этом учитывается то положительное свойство, что сигнал каждого СК по своим статистическим свойствам более одно­роден, чем исходный речевой сигнал. Если применяется кодирование с мгновенным компандированием, то для всех СК может быть использован общий кодер. Однако, чтобы минимизировать скорость передачи, для каж­дого СК используется адаптивный кодер.

После того как сигнал в каждом из СК закодирован, индивидуальные цифровые потоки объединяются устройством формирования канального цифрового сигнала (ФКЦС) для передачи по общему каналу. На приеме осуществляются обратные преобразования: разделение канального циф­рового сигнала в распределители канального цифрового сигнала (РКЦС), декодирование сигналов каждого СК в декодере АДИКМ и синтезирова­ние исходного речевого сигнала в блоке синтеза речевого сигнала (CPQ).

Раздельное кодирование в каждом СК обладает следующими преиму­ществами.

  1. За счет использования раздельной адаптации в каждом СК можно выбрать размеры шагов квантования в соответствии с уровнем энергии сигнала в каждом СК. В СК, содержащих сигналы с относительно высо­кими уровнями, возможно осуществление квантования с большим шагом. Таким образом, спектр шума квантования подгоняется под мгновенный спектр сигнала СК.

  2. Скорость передачи в каждом из СК может быть оптимизирована со­гласно степени воздействия каждой из полос на восприятие. В частности, относительно большое число разрядов mj на отсчет может быть использо­вано для низких частот спектра речи, где это важно для сохранения ос­новного тона и структуры формант гласных и звонких согласных звуков. На высоких частотах можно использовать меньшее число разрядов на отсчет, поскольку шумоподобные глухие звуки не требуют сопоставимого качества воспроизведения.

Кодеры с разделением на полосы (СК) обеспечивают значительное уменьшение скорости передачи по сравнению с общими и относительно простыми алгоритмами кодирования в АДМ и АДИКМ.

Коэффициент сжатия цифрового сообщения при таком кодировании определяется из выражения

Где - число служебных символов, например синхронизации, за 1с;

- частота дискретизации и число разрядов кодовой комбинации при типовом способе цифровой передачи ().

Как показали экспериментальные исследования, кодирование с разде­лением на полосы обеспечивает хорошее качество передачи речевого сиг­нала при скорости 16...24 кбит/с при коэффициенте сжатия

Реализация современных кодеков полосного кодирования осуществля­ется только методами цифровой обработки сигналов на всех этапах фор­мирования канального цифрового сигнала с широким использованием микропроцессорной техники.

Метод полосного кодирования нашел применение при передаче рече­вого сообщения в полосе частот до 7 кГц на скорости основного цифрово­го канала (ОЦК). При этом полоса частот такого сигнала делится на две полосы с образованием двух СК. В первом СК передача осуществляется в полосе частот 0,1...4,0 кГц с помощью АДИКМ со скоростью 48 кбит/с; во втором канале передается полоса частот 4...7 кГц с предварительным преобразованием в полосу частот 0.. .3 кГц и передачей методом АДИКМ, но со скоростью 16 кбит/с. Алгоритмы полосного кодирования предна­значаются прежде всего для воспроизведения формы входного сигнала (рис. 4.10) с максимально возможной точностью. Они предполагают малую степень или полное отсутствие знаний о природе сигнала и приме­нимы практически к любому сигналу, передаваемому по каналу тональ­ной частоты, например к факсимильным сигналам. Для получение более низких скоростей передачи речевого сигнала (20 кбит/с и менее) необхо­димо учитывать статистические свойства речевого сигнала и применять весьма специфические методы его кодирования. Устройства, реализую­щие методы кодирования на основе использования статистических свойств речевого сигнала, называются вокодерами, от соединения слов voice coders, что означает кодеры речевого сигнала (голоса).

Основным назначением вокодеров является кодирование только важ­ных для восприятия речи параметров сигнала с уменьшенным числом символов. При построении вокодеров используются следующие специфи­ческие особенности спектра речевого сигнала:

1. Спектр гласных и звонких согласных звуков дискретный, все ком­поненты спектра являются кратными гармониками частоты основного тона Fот, индивидуального для каждого говорящего. Такие звуки можно описать выражением

Где - амплитудак-тл гармоники частоты основного тона Параметр изменяется от звука к звуку, параметр - от говорящего к говорящему.

2. Спектр глухих звуков (глухих согласных) является практически сплошным.

  1. Для всех звуков характерно неравномерное распределение энергии спектральных составляющих с концентрацией их в отдельных областях, называемых формантами. Число формант для каждого звука зависит от особенностей говорящего и лежит в пределах 3...5 (иногда доходит до 7). Основными параметрами формантной области являются ее центральная частота Fфi и максимальная амплитуда Ai, которые изменяются от звука к звуку и от говорящего к говорящему.

  2. Усредненные центральные частоты первых трех формант лежат в пределах 200.. .700 Гц (с условным максимумом на частоте Fф1=500 Гц), 1000.. .2000 Гц (с условным максимумом на Fф2=1500 Гц), 2000.. .4000 Гц (с условным максимумом на Fф3=3500 Гц) для 1-й, 2-й и 3-й формант соответственно.

  3. Частота следования отдельных звуков или слогов для нормального речевого процесса не превышает 10 Гц, при этом длительность самых коротких согласных звуков - не менее 30 мс, а самых длинных гласных -не более 350 мс.

  4. Фазовые соотношения между отдельными частотными составляю­щими спектра речи менее существенны для ее восприятия. По существу, ухо воспринимает уровень энергии на различных частотах в спектре речи, но не фазовые соотношения между отдельными частотными составляю­щими.

В зависимости от того, какие из перечисленных особенностей выбра­ны при анализе речевого сигнала на передаче и его синтезе на приеме различают: полосные вокодеры (ПВК), формантные вокодеры (ФВК), гармонические вокодеры (ГВК), вокодеры с линейным предсказанием.

Полосный вокодер ПВК был впервые разработан в 1928 г. Г. Дадли, в котором речевой сигнал путем компрессирования спектра преобразовы­вался в аналоговый сигнал с общей полосой порядка 300 Гц. Затем были разработаны цифровые полосные вокодеры (ЦПВК), основанные на этих идеях, на скорости передачи от 1 до 2 кбит/с.

Структурная схема тракта передачи цифрового полосного вокодера приведена на рис. 4.11.

Рис. 4.11. Структурная схема тракта передачи цифрового полосного вокодера

Полоса частот первичного речевого сигнала C(t) фильтром нижних частот (ФНЧ) ограничивается до эффективно-передаваемой полосы час­тоты канала тональной частоты. Получаемый на выходе ФНЧ сигнал набором полосовых фильтром делится на ряд субканалов (СК). В состав каждого СК входит амплитудный детектор АД, на выходе которого получается огибающая сигнала соответствующего СК, выделяе­мая ФНЧ, с полосой пропускания от 0 до 25...35 Гц. В результате на вы­ходах этих фильтров имеем низкочастотные сигналы каждый из которых несет информацию о средней интенсивности спектра речевого сигнала в пределах полосы частот СК. Далее сигнал соответствующего СК в блоке аналого-цифрового преобразования (АЦП) под­вергается всем процедурам формирования соответствующего цифрового сигнала на основе обычной ИКМ или ее модификаций: ДИКМ или АДИКМ.

С помощью блока ВОТ (выделитель основного тона) производится оп­ределение частоты основного тона Fот, а с помощью блока ОТШ ( опреде­литель тон-шум) определяется тип звука - звонкий (тональный) или глу­хой (шумный). Для передачи информации от ВОТ и ОТШ требуется по­лоса частот порядка 100 Гц. Совокупность устройств, образующих блок субканалов совместно с ВОТ и ОТШ, называется анализатором.

Затем цифровые сигналы отдельных СК и ВОТ я ОТШ объединяются в ФГВКЦС (формирователь группового вокодерного цифрового сигнала) в групповой вокодерный цифровой сигнал (ГВКЦС). Коэффициент сжатия по тактовой частоте определяется по формуле:

Где - тактовая частота ГЦС вокодера; - частота дискретизации

и разрядность в i-м СК (обычно ); и - частота дискретизации и разрядность кода типового основного циф­рового канала ЦСП ИКМ-ВРК. Для передачи информации от ВОТ и ОТШ и сигнала цикловой синхронизации требуется до 600 бит. Для числа СК п = 6... 12 скорость передачи полосового вокодера составляет 1200...2400 бит/с, что соответствует коэффициенту сжатия

Обобщенная структурная схема тракта приема полосного вокодера приведена на рис. 4.12, где происходят операции декодирования цифро­вых сигналов СК, получение соответствующих им огибающих и синтеза речевого сигнала по этим огибающим и сигналов основного тона и тон-шум.

На вход тракта приема поступает вокодерный групповой цифровой сигнал (ВКГЦС), который в блоке разделения вокодерного группового цифрового сигнала делится на сигналы соответствующих субканалов, при этом информация от ВОТ тракта передачи поступает на импульсный гене­ратор основного тона - ГОТ и управляет его частотой, информация от ОТШ тракта передачи поступает на коммутатор КОМ, который подклю­чает к гребенке полосовых фильтров - ПФ субканалов или ГОТ или гене­ратор шума - ГШ. Генератор шума формирует короткие импульсы слу­чайной длительности и частоты, что эквивалентно шуму с равномерной спектральной плотностью.

Генератор основного тона представляет собой генератор гармоник, формирующий периодическую последовательность импульсов, следую­щих с частотой основного тона Fот. Совокупность элементов СК: цифро-

Рис. 4.12. Структурная схема тракта приема полосного вокодера

аналоговый преобразователь - ЦАП, амплитудный модулятор субканала -АМСК, полосовые фильтры - ПФ субканалов, ГОТ, ГШ и КОМ образуют синтезатор речевого сигнала - СРС.

Огибающая сигнала S(t) соответствующего СК с выхода ЦАП поступа­ет на АМСК, где происходит амплитудная модуляция либо сигналов ГОТ, либо ГШ. В результате чего формируется так называемый окрашенный спектр частот, характерных для того или иного звука. В зависимости от значения сигнала S(t) соответствующего СК меняется интенсивность спектра в его полосе. Полосовые фильтры ПФ служат в основном для ис­ключения побочных продуктов модуляции. Выходом вокодерного канала является усилитель УС, обеспечивающий номинальный уровень приема.

Наиболее трудным в реализации полосных вокодеров является точное определение параметров основного тона и сигнала тон-шум для гласных или звонких согласных звуков. Кроме того, определенные звуки затруд­нительно четко определить как чисто звонкие или чисто глухие (или шу­мовые). Поэтому усовершенствование полосовых вокодеров связано с получением более точных характеристик генераторов возбуждения (ГОТ и ГШ). Без точной информации об этих сигналах качество речи на вы­ходе вокодера является низким и зависит как от говорящего, так и от конкретных произнесенных звуков. Некоторые из более совершенных вокодеров при скорости передачи 2400 бит/с создают разборчивую речь, хотя с недостаточной узнаваемостью и несколько ощутимым син­тетическим звучанием.

Как отмечалось выше, мгновенный энергетический спектр речи редко занимает всю полосу частот КТЧ. Энергия речи имеет тенденцию концен­трироваться в трех или четырех областях максимума - формантах.

Форматный вокодер (ФВК) определяет положение и амплитуду этих спектральных максимумов и передает эту информацию вместе с оги­бающей всего спектра. Вследствие этого ФВК формирует цифровой сиг­нал с пониженной скоростью передачи за счет кодирования только наибо­лее значительных мгновенных составляющих в спектре речи. ФВК отли­чается от ПВК построением анализатора и синтезатора, при этом блоки выделения команд ОТ и ТШ практически аналогичны, но для своей реа­лизации требует меньшего числа полосовых фильтров (обычно не более трех). Самым важным требованием для получения приемлемого качества синтезированной на приеме речи ФВК является точное прослеживание динамики изменения формант. Если это выполнить, то ФВК может дать весьма разборчивую речь при скорости передачи не более 1000 бит/с.

Гармонический вокодер. Идея гармонического вокодера основана на методе гармонического кодирования речевого сигнала, разработанного советским ученым А.А. Пироговым. Сущность метода сводится к переда­че огибающей текущего энергетического спектра речевого сигнала, ус­редненного за некоторый (весьма небольшой) промежуток времени, в ви­де коэффициентов разложения огибающей в ряд Фурье. В зависимости от требуемой точности воспроизведения огибающей число членов ряда бу­дет различным. Соответственно этому изменяется и число передаваемых параметров. Поскольку каждый член ряда в общем случае определяется двумя параметрами, то число последних должно быть вдвое больше числа членов ряда. Как известно, для определения коэффициентов разложения достаточно иметь ординаты огибающей спектра речевого сигнала. Число этих ординат берется равным 2и - 1, где п - число членов ряда.

Следовательно, при гармоническом кодировании необходимо изме­рять уровень спектра речевого сигнала на (2п - 1) частотах, выделяемых соответствующими полосовыми фильтрами - ПФ. Величины этих уров­ней и будут ординатами огибающей. Оптимальная ширина полосы про­пускания ПФ при представлении огибающей в натуральном масштабе частот примерно равна

Где - полоса частот речевого сигнала (как правило, равная эффектив­но-передаваемой полос частот КТЧ);q - число формант.

Возможен и бесфильтровый метод спектрального анализа путем при­менения линий задержки, который свободен от недостатков фильтровых методов, но имеет свои трудности: сложность реализации временных за­держек на низких частотах.

Коэффициенты разложения огибающей, определенные по ее ординатам, изменяются во времени примерно с той же скоростью, что и спектральные уровни в полосном вокодере, т. е. с частотой не выше 25.. .50 Гц.

Для сохранения качества звучания и натуральности речи необходимо передавать не менее 3...4 формант. Следовательно, число ординат спек­тральной огибающей должно быть не менее 6...8. Это соответствует трем-пяти членам разложения ряда Фурье, что требует полосы частот гармони­ческого вокодера, равной 75.. .250 Гц.

Структурная схема гармонического цифрового вокодера аналогична схеме полосного вокодера, однако на выходе каждого полосового фильтра появля­ются коэффициенты разложения Фурье. Результирующий сигнал на выходе этих фильтров представляют в виде ряда гармонических функций, которые затем подвергаются преобразованию по алгоритмам ИКМ, АДИКМ и др.

Рис. 4.13. Модель генерации речевого сигнала в ВКЛП

Вокодеры с линейным предсказанием. Анализатор вокодера с ли­нейным предсказанием (ВКЛП) формирует существенные характеристики речи непосредственно из временной функции сигнала C(t), а не из частотного спектра, как в полосовом, формантном или гармоническом вокоде­рах. По существу, ВКЛП анализирует речевой сигнал, для получения ме­няющейся во времени модели возбуждения (ГОТ и ГШ) синтезатора трак­та приема и функции передачи. Синтезатор тракта приема формирует ре­чевой сигнал путем пропускания полученных сигналов ГОТ и ГШ через устройство, соответствующее математической модели речеобразующего тракта.

Синтезатор приспосабливается к изменениям параметров модели и элементов возбуждения путем периодического уточнения этих парамет­ров. Однако предполагается, что в течение любого одного интервала уточнения речеобразующий тракт представляет собой линейное устрой­ство с постоянными во времени параметрами. Структурная схема типо­вой модели для генерации речи представлена на рис. 4.13.

Выражение, описывающее работу модели речеобразующего тракта, имеет вид

где у(п) - п-й отсчет на выходе; - k-й коэффициент предсказания; К -коэффициент усиления регулируемого усилителя УС; х(п) - входной сиг­нал в момент дискретизации п;р - порядок модели, под которым понима­ется число последних отсчетов, определяющих алгоритм линейного пред­сказания.

Отметим, что выходной речевой сигнал в формуле для у(п) представ­лен в виде суммы входного сигнала в настоящий момент и линейной ком­бинации р предыдущих выходных сигналов речеобразующего тракта. Эта модель является адаптивной в том смысле, что в кодере периодически определяется новое семейство коэффициентов предсказания, соответст­вующих последовательным фрагментам речи. В этом кодирование в ВЛКП аналогично адаптивной ДИКМ или кодированию с адаптивным предска­занием. Отличие состоит в определении коэффициентов предсказания и в том, что в ВКЛП не измеряются и не кодируются разностные сигналы или сигналы ошибки. Вместо этого при определении коэффициентов предска­зания минимизируются средние квадратические значения ошибок. Воз­можность избежать кодирования ошибок предсказания вытекает из того факта, что в ВЛКП используются параметры предсказания, полученные из отрезков реального речевого сигнала, к которым эти параметры и приме­няются (прямая оценка).

В вокодере с линейным предсказанием в кодере (анализаторе) опреде­ляется и передается в сторону декодера (синтезатора) следующая инфор­мация о:

  1. характере возбуждения (гласные или звонкие согласные звуки в со­поставлении с глухими звуками);

  2. периоде основного тона (для воспроизводства гласных или звонких согласных);

3) коэффициенте усиления К;

4) коэффициенте предсказания (параметрах модели речеобразующего тракта).

Частота основного тона определяется измерением периодичности, если она существует. Помимо того, что кодер (анализатор) с линейным предска­занием измеряет основной тон способами, аналогичными используемыми другими типами вокодеров, он обладает еще и специфическими свойствами, которые содействуют определению параметров основного тона.

Определение коэффициентов предсказания осуществляется следующим образом: в качестве желаемого выходного сигнала синтезатора используют­ся отсчеты реального сигнала, затем образуется система из р линейных уравнений с р неизвестными коэффициентами. В результате эти коэффици­енты определяются путем интегрирования матрицы размером р х р. По­скольку порядок р может варьироваться в зависимости от желаемого каче­ства синтезированной речи, прямая инверсия матрицы требует огромного объема вычислений. Однако, если принять для модели специальные ограни­чения, матрицы приобретают особые свойства, которые существенно упро­щают решения уравнений. При использовании микропроцессорной техники решение даже сложных матриц не вызывает особых затруднений.

Хотя ВКЛП обрабатывают сигнал во временной области, они обеспе­чивают хорошие оценки пиков в спектре речи. Кроме того, ВКЛП способен эффективно отслеживать медленные изменения огибающей спектра. Итоговый результат состоит в том, что ВКЛП на скорости передачи 1,2...2,4 кбит/с дает более естественное звучание речи, чем полосные во­кодеры и их модификации.

Полувокодеры. Рассмотренные типы цифровых вокодеров, обеспечи­вая высокую разборчивость даже при десятикратном сжатии спектра ре­чевого сигнала, не удовлетворяют требованиям по натуральности звуча­ния и узнаваемости голосов. Получаемая синтезированная речь отличает­ся машинным акцентом. Это происходит в основном из-за погрешности измерения основного тона, различения гласных и звонких согласных зву­ков. Эти недостатки усугубляются изумительной способностью человече­ского уха обнаруживать малейшие неточности восстановления основного тона.

Трудности и неточности анализа речевого сигнала и его синтеза по па­раметрам преобразования можно обойти, применив полувокодер. Струк­турная схема полувокодера показана на рис. 4.14. В этом устройстве ин­формация об основном тоне передается непреобразованной полосой низ­кочастотной части спектра речевого сигнала, образуя нулевой субканал (фильтр нижних частот - ФНЧ), сигнал которого далее подвергается со­ответствующему цифровому преобразованию в блоке аналого-цифрового преобразования - АЦП.

Сигналы субканалов анализатора и нулевого субканала объединяются в устройстве формирования группового цифрового сигнала (ФГЦС) полу­вокодера. В разделителе группового цифрового сигнала (РГЦС) тракта приема сигнал нулевого субканала, испытав обратные преобразования в цифро-аналоговом преобразователе - ЦАП, подается на нелинейное уст­ройство формирования широкополосного сигнала (ФШС) с равномерным спектром. Этот сигнал с выровненным (размноженным) спектром далее используется как источник возбуждения синтезатора полосного (или ино­го полувокодера), формирующего спектр речевого сигнала выше нулевого субканала. Сигнал с выровненным спектром отражает дискретный харак-

Рис. 4.14. Структурная схема полувокодера

тер спектра квазипериодических гласных и звонких согласных звуков и сплошной спектр глухих и шипящих звуков. Будучи извлеченным из час­ти спектра исходной речи, он сохраняет как информацию тон-шум, так и информацию об основном тоне.

Тонкая временная структура голосового возбуждения (она считается важной для натуральности) при сглаживании не теряется. Ценой некоторой потери полосы частот качество синтезированной речи может быть прибли­женно к качеству речи телефонного канала с эффективно-передаваемой по­лосой частот 0,3.. .3,4 кГц. Таким образом, получаем относительно высокое качество синтезированной речи и некоторую часть в экономии пропускной способности как канала тональной частоты, так и основного цифрового ка­нала. В одном из первых вариантов полувокодера непреобразованная поло­са частот (нулевой субканал) взята равной 250.. .940 Гц. Диапазон частот от 940 до 3650 Гц разделен на 17 субканалов. Из них первые 14 имеют полосы пропускания по 150 Гц, а самые верхние - несколько шире. Общая полоса частот полувокодера получилась равной 1000... 1200 Гц, что соответствует примерно трехкратной компрессии.

Экспериментальные исследования последних лет показывают, что, выбирая полосу частот нулевого субканала равной 800... 1000 Гц и при­меняя полосный вокодер с числом субканалов 6... 10 для полосы частот 1000.. .3400 Гц, можно обеспечить такое качество речи, что 82% слушателей не замечают различий в сравнении с каналом тональной частоты.

При использовании эффективных кодеков можно получить результи­рующую скорость передачи сигнала цифрового полувокодера, равную 9,5 кбит/с. Успехи в области микросхемотехники и алгоритмов быстрой цифровой обработки сигналов позволяют создавать миниатюрные кодеки цифровых вокодеров на скорости передачи 16, 9,6, 8 и 4,8 кбит/с, что по­зволяет весьма эффективно использовать пропускную способность основ­ного цифрового канала.

Эффективность цифровых систем передачи можно значительно повы­сить, если найти оптимальные способы ввода вокодерных цифровых ка­налов в каналы и тракты цифровых систем передачи. Эта проблема также важна и для организации различного вида каналов передачи данных по типовым каналам и трактам цифровых систем передачи.

studfiles.net

История вокодера

Вокодер в переводе с английского означает «кодировщик голоса». Аппарат, в котором речь синтезировалась на основе сигнала с большим спектром. Вокодер – электронный современный музыкальный инструмент, его изобретение и история были далеки от мира музыки.

Секретная военная разработка

Закончилась Первая мировая война, американские инженеры получили задание от спецслужб. Необходимо было устройство, которое обеспечивало секретность телефонных переговоров. Первое изобретение назвали скремблером. Испытание проводили, используя радиотелефон для сообщения острова Каталины с Лос-Анджелесом. Применили два аппарата: один в точке передачи, другой на месте приема. Принцип работы устройства сводился к изменению речевого сигнала.Метод скремблера усовершенствовался, но немцы научились дешифровке, поэтому нужно было создать новый аппарат, который помог бы решить эту проблему.

Вокодер для систем связи

В 1928 году Хомер Дадли, ученый-физик изобрел прототип вокодера. Он был разработан для систем связи, в целях экономии ресурсов телефонных переговоров. Принцип работы: передача только значений параметров сигнала, при получении синтезирование в обратном порядке.

В 1939 годы на выставке в Нью-Йорке был представлен голосовой синтезатор Voder, создателем которого стал Хомер Дадли. Девушка, работающая на приборе, нажимала клавиши, а вокодер воспроизводил механические звуки, похожие на человеческую речь. Первые синтезаторы звучали очень неестественно. Но в дальнейшем постепенно совершенствовались.

В первой половине ХХ века при использовании вокодера, голос человека походил на «голос робота». Что и стало использоваться в средствах связи и в музыкальных произведениях.

Первые шаги вокодера в музыке

В 1948 году в Германии вокодер заявил о себе, как о музыкальном устройстве будущего. Прибор привлек пристальное внимание любителей электронной музыки. Таким образом, вокодер из лабораторий переместился в электроакустические студии.

В 1951 году немецкий ученый Вернер Мейер-Эпплер, проводивший исследования по синтезированию речи и звуков, вместе с композиторами Робертом Бейром и Гербертом Аймертом открыли в Кельне электронную студию. Таким образом, появилась новая концепция электронной музыки.

Немецкий композитор Карлхайнц Штокхаузен начал создавать электронные пьесы. В кельнской студии родились музыкальные произведения известные на весь мир.

Следующий этап – выходит фильм «Заводной апельсин» с саундтреком Венди Карлос, американского композитора. В 1968 году Венди выпустила альбом «Switched-On Bach», исполнив на синтезаторе произведения И.С. Баха. Это был первый шаг, когда сложная и экспериментальная музыка шагнула в массовую культуру.

От космической синтезаторной музыки к хип-хопу

В 80-х годах эпоха космической синтезаторной музыки заканчивалась, начиналась новая эпоха — хип-хопа и электрофанка. А после того, как в 1983 году вышел альбом «Lost In Space Jonzun Crew» он больше не выходил из музыкальной моды. Примеры эффектов с использованием вокодера есть в мультфильмах Диснея, в произведениях Pink Floyd, в саундтреках фильмов и передач.

toolsmusic.ru

Исследование работы речевых вокодеров, ч.1 (исправленная)

Самостоятельная работа по теме: «Исследование работы речевых вокодеров для систем подвижной радиосвязи»

Цель работы: исследование существующих вокодеров для кодирования и передачи речи в сжатом виде.

Ведение

     Речь – это один из самых сложных сигналов из всех существующих в природе. Речевой сигнал  – это процесс передачи речевого сообщения (акустические, электрические, механические и другие процессы).  Для кодирования-декодирования речевого сигнала и его передачи по каналу связи существуют такие устройства, как вокодеры. Современные вокодеры  широко применяются в цифровой телефонной связи, в том числе – Internet-телефонии. Причиной тому – высокая степень сжатия информации.

     Для достижения приемлемого качества речевой связи необходимо сохранить все кратковременные спектры мощности речевого сигнала. Основная задача вокодера заключается в минимизации суммарного количества информации о сигнале речи, необходимого для воспроизведения разборчивой речи, с использованием меньшего числа бит, чем это необходимо при обычном кодировании и декодировании. Вокодеры обычно воспроизводят ненатуральное звучание речи и поэтому использовались для записи такой информации, как сообщение «неправильно набран номер», шифрования речи для передачи по аналоговым телефонным каналам, а также в компьютерах. Но работа современных вокодеров стремится к моделированию человеческой речи с учетом всех ее характерных особенностей. Тут появляются новые проблемы, одной из которых является определение частоты основного тона.

Актуальность темы

     В настоящее время применение речевого сигнала быстро увеличивается. Наиболее популярными являются такие технологии, как: распознавание речевых команд, преобразование речи в текст, распознавание и верификация дикторов. Поэтому совершенствование таких устройств, как речевые вокодеры, является актуальной задачей перед исследователями, занимающимися кодированием речи.

Классификация вокодеров

     Вокодеры разделяют на две группы: речеэлементные и параметрические. В речеэлементных вокодерах при кодировании распознаются произносимые элементы речи и на выход кодера подаются только их номера. В декодере эти элементы создаются по правилам речеобразования или берутся из памяти декодера. В таких вокодерах приходится решать задачу распознавания элементов речи.

     Параметрические вокодеры можно подразделить на:

     Такие вокодеры выделяют из речевого сигнала два вида параметров: параметры, характеризующие спектральную огибающую  сигнала (фильтровую функцию), и параметры, характеризующие сам источник речевого сигнала (генераторную функцию). 

Рисунок 1 – Блок-схема параметрического вокодера

     На схеме: А – анализатор входного сигнала, который на основе сегмента входной реализации речевого сигнала находит параметры, подлежащие передаче. Устройство Т-Ш (обнаружитель «Тон-шум») осуществляет различение типа сегмента сигнала – вокализованный он, или фрикативный, а ДОТ – детектор  основного тона (блок оценки параметров основного тона) в случае, если сегмент относится к вокализованному типу. УО – устройство  объединения сигналов для передачи через канал связи, УР – устройство разделения сигналов, переданных через канал. На приёмной стороне на основе принятых параметров происходит синтез речевого сигнала. Для этого используются ГОТ – генератор  основного тона, ГШ – генератор шума, К – ключ. С – синтезатор, в котором воссоздаётся речевой сигнал.

1. Полосовой вокодер

В полосовых вокодерах спектр речи делится на 7-20 полос (каналов) с помощью полосовых фильтров. Анализатор определяет величину средней интенсивности речевого сигнала в каждой полосе. Эти величины передаются через канал связи. Чем большее число каналов используется в вокодере, тем больше натуральность и разборчивость речи. Блок-схема полосного вокодера изображена на рисунке 2:

Рисунок 2 – Блок-схема полосового вокодера

     В полосовых вокодерах спектр речи делится на 7-20 полос (каналов) с помощью полосовых фильтров. Анализатор определяет величину средней интенсивности речевого сигнала в каждой полосе. Эти величины передаются через канал связи. Чем большее число каналов используется в вокодере, тем больше натуральность и разборчивость речи. Но чем больше информации о частотных полосах, тем больше придется передавать информации по цифровому тракту.

     Полосовой вокодер представляет собой совокупность двух основных частей – анализирующей (передающая сторона) и синтезирующей (принимающая сторона), которые содержат идентичные наборы (гребенки) полосовых фильтров, перекрывающих определенный частотный интервал. Фильтры блока анализа обеспечивают тональное разделение спектра сигнала. Детектор и фильтр НЧ в каждом канале выделяют огибающую сигнала данного канала, и каждая из них характеризует энергию речевого спектра в соответствующей полосе частот для фрагмента речи. Для более компактной передачи выходы каждого из каналов могут логарифмироваться и кодироваться с помощью дельта-импульсной кодовой модуляции (ДИКМ).

     К основным недостаткам полосных вокодеров, ухудшающим разборчивость синтезированной речи, относят появление больших интерференционных искажений огибающей спектра, возникающих из-за несогласованности ФЧХ полосных фильтров, а также искажения спектральной картины в формантной области, связанные с попаданием форманты в межфильтровую зону.

2. Ортогональный вокодер

     Принцип действия ортогональных вокодеров базируется на возможности представления спектральной огибающей речевого сигнала в виде суммы ортогональных функций. В этих случаях, в отличие от других вокодеров, спектральная огибающая на приёме воспроизводится не по отдельным ординатам, а в виде суммы тех же ортогональных функций.

      Проще говоря, ортогональные вокодеры отличаются от полосовых тем, что функции фильтров выполняются с помощью цифровых методов. Это либо быстрое преобразование Фурье, либо ортогональные функции Уолша (периодические дискретные функции, принимающие значения 0 или 1). 

     В ортогональных вокодерах, в отличие от .полосных, сигнал-параметры неравнозначны и некоррелированы друг с другом. Поэтому искажение одного из них иногда приводит к значительным искажениям передачи. Особенно заметно это свойство ортогональных вокодеров сказывается на качестве – передачи речи при небольшом числе передаваемых параметров. Другим недостатком гармонических вокодеров, также проявляющимся при небольшом числе передаваемых параметров, является искажение формы формантных кривых: вместо резонансных получаются кривые синусоидальной формы и появляются дополнительные максимумы – ложные форманты, как показано на рисунке 3:

Рисунок 3 – Искажение формы формантных кривых

Появление таких искажений придает звучанию синтезированной речи назальность. Чтобы приблизить форму спектральной огибающей к типичной формантной структуре, можно использовать квадратичный ортогональный (гармонический) вокодер (рис. 4):

Рисунок 4 – Блок-схема квадратичного ортогонального вокодера

     На приемной стороне сигнал-параметры управляют двумя синтезаторами линейного типа. На вход линии задержки первого синтезатора подается сигнал от источника речевых колебаний, т. е. от генератора ОТ или генератора шума, а на вход линии задержки второго синтезатора подается сигнал с выхода первого синтезатора. В результате этой операции происходит «квадрирование» огибающей спектра, получаемая спектральная огибающая становится близкой к исходной как по формантным кривым, так и вследствие устранения ложных формант. Экспериментально доказано, что в данном случае разборчивость лучше по сравнению с линейным вокодером.

3. Липредеры (вокодеры с линейным предсказанием)

     Вокодеры с линейным предсказанием являются самыми распространёнными  в  современных  системах  передачи  речи. Именно метод кодирования с линейным предсказанием и применяются в сотовой связи. Суть метода в том, что для прогноза текущего отсчета речевого сигнала можно использовать линейно взвешенную сумму предшествующих отсчетов, то есть предсказываемый отсчет. При кодировании (на передаче) производится оценка параметров ФЛП и параметров сигнала возбуждения, а при декодировании (на приеме) - сигнал возбуждения пропускается через фильтр-синтезатор, на выходе которого получается восстановленный сигнал речи. Этот  метод  становится  доминирующим  при оценке  основных  параметров  речевого  сигнала,  таких,  как  период  основного тона, форманты, спектр, а также при сокращенном представлении речи с целью ее  низкоскоростной  передачи  и  экономного  хранения.  Важность  метода  обусловлена  высокой  точностью  получаемых  оценок  и  простотой  вычислений. Рассмотрим сначала модель речевого тракта, которая позволяет использовать методы линейного предсказания для анализа и синтеза речевого сигнала:

Рисунок 5 – Блок-схема модели речеобразования

Рассмотрим структурную схему вокодера с линейным предсказанием (рис. 6):

Рисунок 6 – Структурная схема липредера

     На подготовительном этапе выполняют аналого-цифровое преобразование речевого сигнала и сегментацию цифрового потока: для последующей обработки выбирают отсчеты сигнала на интервале длительностью 20 мс, что при частоте дискретизации 8 кГц обеспечивает в каждом сегменте 160 обрабатываемых отсчетов. После сегментации отсчетов речевого сигнала в кодере последовательно выполняются следующие три процедуры:

1)     кратковременный (формантный) анализ с использованием процедуры линейного предсказания, в результате чего получают первый остаточный сигнал;

2)     долговременный анализ с использованием линейного предсказания для определения параметров основного тона, в результате чего получают второй остаточный сигнал , близкий по своим характеристикам к шумовому, поскольку между отсчетами этого сигнала корреляция мала;

3)     аппроксимация второго остаточного сигнала с целью формирования сигнала возбуждения.

     Восстановленный сигнал достаточно близок к исходному сигналу на входе кодера. Выполнив цифро-аналоговое преобразование и пропустив сигнал через ФНЧ, получают восстановленный аналоговый сигнал. Все процедуры обработки сигнала в кодере и декодере выполняются цифровыми методами. Показанные на рис. 6 модули липредера фактически являются блоками программного обеспечения.

4. Формантные вокодеры

      В формантных вокодерах спектральная огибающая речевого сигнала аппроксимируется комбинацией нескольких простых резонансных кривых. Принципы построения форматного вокодера во многом аналогичны принципам естественного речеобразования и приёма речи. Поскольку речевой тракт представляет собой комплекс резонаторов, резонансные частоты и добротности которых изменяются в процессе речи в соответствии с сигналами, идущими из центральной нервной системы, то и в формантном вокодере происходит выделение из речевого сигнала управляющих сигналов (сигнал-параметров), которые на приёме воздействуют на резонансные контуры и воспроизводят требуемую огибающую спектра. 

Структурная схема формантного вокодера:

Рисунок 7 – Структурная схема формантного вокодера

     На передающей стороне в анализаторе вокодера выделяются структурные сигналы-параметры первых трех формант, а также интонационные параметры. В качестве оценки амплитуды форманты используется её усредненный уровень, выделяемый с помощью полосовых фильтров, выпрямителей и ФНЧ. Для выделения формантных частот применяются метод ро-метра, а также методы дискриминаторный и фильтрационный. Синтезатор формантного вокодера состоит из трех управляемых резонансных контуров (УК) с плавной перестройкой их частоты под приходящий параметр. На модуляторах происходит взаимодействие резонансного и колебательного процессов в зависимости от уровня соответствующего сигналапараметра. Считается, что с помощью формантного вокодера можно получать достаточно высококачественный синтез речи, как по разборчивости, так и по натуральности — даже при скорости цифрового потока порядка 1200 бит/с. При этом коэффициент компрессии формантного вокодера не менее чем вдвое выше, чем полосного.

Задачи 

На вторую часть учебно-исследовательской работы поставлены задачи моделирования полосового вокодера в программной среде Matlab и исследование работы детектора основного тона, находящегося в составе модели.

Заключение

Так как моя учебно-исследовательская работа оказалась очень масштабной, в размещенном выше сообщении я указала основные виды вокодеров и описания их работы. По факту их теоретические исследования проведены намного основательнее. Для подтверждения сказанного прикрепляю файл с защищенной УИР. 

omoled.ru


Смотрите также




© 2012 - 2020 "Познавательный портал yznai-ka.ru!". Содержание, карта сайта.