В чем смысл вокодерного принципа преобразования речи водолаза?

Вокодером (от английского voice — голос и code — код) обычно называют аппаратуру в системе связи, с помощью которой производится кодирование речи на передаче и декодирование на приеме. Цель кодирования состоит в том, чтобы более эффективно использовать канал связи, т. е. скомпреси-ровать сигнал таким образом, чтобы вместо одного обычного (300…3400 Гц) канала связи можно было получить несколько каналов. Решение этой задачи достигается путем сокращения избыточной информации, имеющейся в речевом сигнале. Естественно, что на приеме исключенная избыточность в речевом сигнале не восстанавливается.

Особенность преобразованной таким образом речи состоит прежде всего в ненатуральности звучания, что нашло отражение в названии такой системы связи — синтетическая телефония.

Со времени создания первого вокодера и до настоящего времени было предло. сено много различных разновидностей вокодерных систем. В отличие от задач синтетической телефонии цель преобразования речи водолаза с использованием вокодерных принципов — максимально улучшить разборчивость речи и восстановить натуральность ее звучания. При этом задача компрессии речи водолаза ставится лишь в том плане, чтобы привести характеристики речевого сигнала в соответствие с характеристиками органов слуха человека. При этом предполагается, что в идеальном случае компрессия устраняет только ту избыточность в речевом сигнале водолаза, которая не наблюдается в момент вдыхания воздуха при нормальном давлении. Например, огибающая частотного спектра какого-либо звука, произнесенного в специальной дыхательной среде, определяется в N раз (отношение скорости звука в специальной дыхательной среде к скорости звука в воздухе) большим числом гармоник, чем соответствующая спектральная огибающая того же звука в воздухе. После преобразования такого частотного спектра он ничем не должен отличаться от спектра звука, произнесенного тем же диктором в нормальной воздушной среде.

Следует указать еще на одно принципиальное отличие синтетической телефонии от систем водолазной связи: анализатор с кодирующим устройством и декодер с синтезатором в системе синтетической телефонии удалены друг от друга на какое-то расстояние, в то время как в водолазной системе связи анализатор и синтезатор расположены в одном месте.

В основе всех существующих в настоящее время систем сжатия спектра речи лежит представление о том, что речевой сигнал может быть полностью описан с помощью небольшого числа параметров, медленно меняющихся во времени в соотве-ствии с изменениями положения артикуляторных органов человека. Эти параметры делят на две основные группы: 1) величины, характеризующие огибающую мгновенного спектра речевого сигнала; 2) величины, характеризующие качественную сторону речевого сигнала, а именно его заполнение в данный момент времени, г. е. содержащие информацию о характере возбуждения речевого тракта и дающие представление о том, каков спектр в данный момент — дискретный, определяемый гармониками основного тона, или сплошной, свидетельствующий о шумовой природе возбуждения.

Многочисленными экспериментами с монотонной и шепотной речью, генерируемой в воздушной среде, показано, что огибающая спектра заключает в себе основную часть смысловой информации, содержащейся в речевом сигнале и для достаточно полного описания этой огибающей необходимо 10… 15 ее координат, изменяющихся во времени с частотой 0…25 Гц.

Определение и обработка каждой из названных групп параметров не связаны друг с другом, и здесь может быть сочетание любых методов. Этим и объясняется большое число различных предложений при разработке вокодерных преобразователей гелиевой речи. Большие успехи синтетической телефонии в разработках полосных вокодеров и определили исторически их применение в системах водолазной связи.

Идею, положенную в основу полосного вокодера, в общем случае можно понять, рассмотрев структурную схему, приведенную на рис. 3.3.

Речевой сигнал, полученный на выходе микрофона и затем усиленный с помощью микрофонного усилителя, поступает одновременно на входы полосовых фильтров. Полоса частот каждого фильтра выбирается таким образом, чтобы начальная граничная частота последующего фильтра совпадала с верхней граничной частотой предыдущего и в сумме составляла полосу частот, которую требуется передать, например, 300…3400 Гц, если речь идет о нормальном телефонном канале. Так как каждый звук, в том числе и речевой, имеют свой частотный спектр, то, включив на выходе каждого фильтра какой-либо регистрирующий прибор, например вольтметр, и произнося перед микрофоном протяжно один из гласных звуков (А, О, У и т. д.), можно наблюдать, что сигнал фиксируется для каждого звука только на выходе определенных фильтров. Происходит как бы разделение частотного спектра звука на отдельные составляющие, а точнее его анализ, в связи с чем эти фильтры получили название фильтры, анализатора. Можно прослушать, как звучит речь на выходе каждого фильтра анализатора, и убедиться в почти полном отсутствии разборчивости речи. Но такое частотное разделение сигнала еще не дает эффекта компрессии сигнала, так как, если суммировать все сигналы с выходов анализотора, получим фактически исходный сигнал с тем же частотным спектром.

Рис. 3.3. Структурная схема полосного вокодера

Выше мы уже упоминали о параметрах первой группы, характеризующих огибающую мгновенного спектра речевого сигнала. Если теперь на выходе каждого фильтра анализатора включить детекторы и фильтры низких частот с полосой пропускания 0…25 Гц, то получим медленно меняющиеся сигналы, представляющие собой параметры первой группы. В электрическом отношении это будут величины, отражающие средние значения сигналов в каждой полосе в данный момент времени. После такого преобразования сигналы уже могут быть переданы по каналу связи в более узкой полосе, чем 300…3400 Гц. Кроме этих сигналов, с помощью устройств тон-шум, по каналу сязи передается информация о шумовом или тональном характере сигнала, что несколько расширяет полосу передаваемых частот.

На приемной станции с помощью модуляторов происходит обратное преобразование сигналов. При этом преобразовании в результате взаимодействия параметрических сигналов первой группы и сигналов тон-шум восстанавливается исходный речевой сигнал. Возникающие при нелинейном преобразовании в модуляторе дополнительные составляющие частотного спектра отфильтровываются группой фильтров, называемых фильтрами синтезатора. Затем сигналы усиливаются сумматор-усилителем и подаются на громкоговоритель или какое-либо телефонное устройство.

Важно обратить внимание на то, что с целью восстановления исходного частотного спектра каждый параметрический сигнал должен быть преобразован в соответствующей ему полосе частот. Несоблюдение этого требования приведет к изменению структуры частотного спектра по шкале частот. Собственно это и обусловило применение полосных методов преобразования частотного спектра речевого сигнала для улучшения качества связи с водолазами.

Выше мы уже говорили, что для водолазной связи нет необходимости разделять анализирующую и синтезирующую части аппаратуры. В связи с этим в полосных преобразователях гелиевой речи сигналы после фильтров низких частот сразу же поступают в модуляторы.

При практической реализации преобразователя гелиевой речи возникает много вопросов, определяющих техническую сторону выделения параметрических сигналов первой группы. Это вопросы выбора числа фильтров анализатора, анализа, неравноточного по шкале частот, сглаживания спектра в каждой из анализируемых полос и т. д. На примере спектрально-полос-ного метода преобразования речевого сигнала произведем рассмотрение этих вопросов применительно к сигналу гелиевой речи.

Казалось бы, наиболее точное выделение параметров огибающей частотного спектра можно получить путем увеличения числа фильтров анализатора, однако техническая реализация такого анализатора была бы крайне затруднена. Кроме того, на результаты анализа значительное влияние оказывали бы переходные процессы в фильтрах.

Многочисленные эксперименты показывают, что применение фильтров с полосой пропускания менее 100 Гц ухудшает динамику речи. Отсюда можно установить предельное число фильтров для анализа спектра воздушной речи (300…3400 Гц)—31. При таком числе фильтров достаточно точно определяются только две гармоники. Качество синтезируемой речи снижается незначительно при использовании анализатора из 15 фильтров. Меньшее число фильтров анализатора приводит к заметному снижению качества преобразованной речи вследствие уменьшения точности определения ординат огибающей спектра. При построении преобразователя гелиевой речи вопрос о ширине полосы фильтров анализатора, как правило, решается после определения числа фильтров синтезатора, поскольку полоса фильтров синтезатора должна быть в N раз уже полосы фильтров анализатора и не уменьшаться до величины, при которой переходные процессы начинают оказывать влияние на качество синтезируемой речи. При числе фильтров синтезатора, равном 15, ширина полосы в среднем составляет 200 Гц. Ширина полосы фильтров анализатора в этом случае при N=2 соответственно должна быть 400 Гц. Предельное увеличение N до 3 при том же числе каналов преобразования потребует ширины полосы фильтров анализатора в среднем 600 Гц. В этом случае отсчеты, измеряемые как напряжения на выходе детекторов, включенных после фильтров анализатора, будут в значительной степени неоднозначно связаны с подлинными значениями ординат огибающей спектра, поскольку гармониками суммируются с некоторыми произвольными и переменными во времени весовыми коэффициентами, определяемыми случайным характером фазового сдвига между гармоники. Увеличение числа фильтров анализатора приведет к тому, что ширина полосы фильтров синтезатора должна будет выбрана более узкой и, как следствие этого, произойдет ухудшение качества связи из-за усиления влияния переходных процессов в фильтрах синтезаторов.

Опубликовано:
9.04.12


Категория -

 

Комментирование этой статьи закрыто.

 
     

© Ilovediving.ru