Статьи: Аурализация - виртуальный звуковой мир

Итак, начнем с самого "горячего" направления в современной звукотехнике - "аурализации".

В одной из статей фирмы "Брюэль и Кьер" была высказана любопытная мысль, что отношения человека со звуком можно разбить на три крупных этапа:

I. От начала эпохи "человека разумного" до начала XX когда звук прошел эволюцию от средства чисто сигнального, необходимого для выживания, через средство коммуникации (речь) к средству эмоционального и эстетического воздействия, то есть к музыке.

К началу ХХ века музыка достигла невиданных высот, стала мощным средством передачи величайших глубин человеческой мысли и эмоций. Гениальные композиторы (Бах, Бетховен, Моцарт и др.)подняли музыкальное творчество на небыкновенную высоту, разработали особый язык (код), способный передавать не меньшее богатство мыслей и нюансов, чем письменная и устная речь (литература).

Человечество создало широкую палитру музыкальных инструментов, отработало вокальную технику, построило великолепные концертные залы, театры, соборы и др. Однако,эти величайшие достижения искусства были доступны очень ограниченному кругу людей лишь доли процента населения могли слушать хорошую "естественную" музыку в хороших "естественных" залах);

II. от начала ХХ века до 80-х годов с момента изобретения радио и телевидения музыкальное и вокальное искусство стало доступно миллионам, но, как всегда, при массовом тиражировании качество звука резко упало отставали технические средства. Главной задачей в тот период было передача смысловой (семантической) вербальной информации.

К середине века техника звукозаписи, воспроизведения и звукопередачи значительно выросла, и это позволило поднять проблему передачи эмоциональной и эстетической информации на новый уровень родилось движение Hi-Fi (high-fidelity, высокая верность воспроизведения), идеология которого состояла в том, чтобы акустическая аппаратура могла воспроизводить звук максимально похоже на натуральный "живой" источник. Постановка проблемы достоверной передачи звука в записи дала мощный толчок к развитию акустики и созданию крупной индустрии, производящей звукотехническую аппаратуру.

Современная акустика представляет мощное и развитое направление науки во всех странах мира, и имеет огромную промышленную базу: сотни научных институтов, тысячи фирм, разрабатывающих и производящих огромное разнообразие звукотехники:

- студийное оборудование микшеры, микрофоны, усилители, мониторы и т.д.;
- передающее оборудование радио- и телепередатчики;
- воспроизводящее оборудование акустические системы, проигрыватели, магнитофоны и др.

Объемы мирового производства например, громкоговорителей, достигают более 500 млн в год; акустические системы только на рынке США представлены З00 фирмами, выпускающими более3000 моделей) и т.д.

III. от 80 лет до настоящего времени. В начале 80-х известным акустиком проф.Олсоном (Olson) были сформулированы проблемы третьего этапа развития акустики "перенос атмосферы первичного поля в любое вторичное помещение прослушивания"

Сама постановка такой проблемы была бы в принципе невозможна без создания новой научной и технической базы развития цифровых компьютерных технологий обработки звука и соответствующих технических средств: звуковых процессоров, цифровых станций обработки, монтажа, редактирования, архивирования и т.д., цифровых магнитофонов и лазерных проигрывателей и т.д.

Разработка этой проблемы уже привела к развитию пространственных систем звукопередачи (Dolby, бинауральная стереофония и т.д.), появлению адаптивных цифровых процессоров, систем пространственного звуковоспроизведения Dolby Stereo, Dolby surround и др. Однако она потребовала решения целого ряда новых задач в области психоакустики, и привела к появлению новых направлений в цифровой акустике.

Одним из принципиальных этапов в решении этой проблемы было создание технологии аурализации.

Термин "аурализация" (auralization) появился несколько лет тому назад и еще не определился окончательно. Его определение дал Мендель Клейнер (Mendel Kleiner) по аналогии с термином "визуализация" на конгрессе AES в 1989году. Он звучит так:

"Аурализация процесс превращения звукового поля источника в пространстве в "слышимый звук" путем физического или математического моделирования таким образом, чтобы смоделировать бинауральное слуховое ощущение на заданной позиции моделируемого пространства".

Сейчас этой проблеме уделяется очень большое внимание в специальной литературе: появляется много научных статей и докладов, в том числе и на последнем конгрессе AES; разработаны специальные пакеты программ для реализации этой идеи; появились фирмы, которые специализируются на создании и внедрении таких программных продуктов, например, фирма Одеон, которая предложила свое определение:

"Аурализация искусство создания цифровых моделей бинауральных записей в несуществующих помещениях".

Иначе говоря, аурализация - это способ воссоздать трехмерное звуковое поле, пытаясь с помощью компьютерных программ повторить способы обработки звука, которые слуховая система применяет к звуковому сигналу в помещении, чтобы создать ощущение пространства.

Необходимо отметить, что точное определение этого процесса пока еще не принято окончательно, а в русской технической литературе его вообще еще нет.

Нужно сказать, что трехмерное визуальное пространство удалось создать раньше, что нашло уже широкое применение в компьютерных играх, видеоклипах, системах обнаружения и др., поэтому моделирование трехмерного звукового пространства стало необходимым этапом, поскольку вместе они могут полностью воссоздать "пространственный виртуальный мир". К чему это приведет в ХХI веке сказать трудно…

Попробуем рассмотреть, что надо сделать с музыкальным сигналом, чтобы после его компьютерной обработки слушатель, находящийся при воспроизведении в любом помещении, воспринимал звуковое пространство таким же, как если бы он слушал музыку в реальном концертном зале.

По существу, задача ставится таким образом: как надо "обмануть" мозг, чтобы создать у слушателя ощущение трехмерного звукового пространства концертного зала вот для чего нужна психоакустика. Рис.1.

Рис.1. Общая структура системы аурализации

Как уже было рассмотрено в предыдущих статьях по психоакустике (и еще будет рассмотрено в следующих), только два физических параметра сигнала воспринимаются нашей слуховой системой: интенсивность (т.е. энергия или звуковое давление), и время начало и конец сигнала, и его повторяемость во времени (периодичность или частота).

Человек "слышит" звук, воспринимая изменения величины звукового давления, воздействующие на его барабанную перепонку, во времени. Вся информация, которую мы получаем о звуке, содержится в звуковых волнах, являющихся сжатием-разрежением воздуха. Все остальное, что мы оцениваем в звуке: его громкость, высота, тембр, звуковое пространство, тонкие музыкальные нюансы и др. - это результат обработки его нашим слуховым аппаратом и мозгом.

Рассмотрим, что происходит, когда слушатель воспринимает звук в помещении.

Музыкальный инструмент (голос, оркестр и т.п.) создают определенный акустический сигнал, который представляет собой некоторую звуковую волну, с определенной зависимостью звукового давления от времени p1(t). Например, осциллограмма звучания мужского голоса при произнесении слова "sound" (записанная в заглушенной камере) показана на рис.2. Затем этот сигнал определенным образом изменяется помещением за счет отражений звуковых волн, процессов затухания, дифракции и т.д. Если рассматривать помещение как линейный фильтр, который имеет свои характеристики р.пом(t), то в каждой точке пространства суммарный сигнал получается как "свертка" сигнала источника и характеристик помещения (термином "свертка" называется результат обработки одного сигнала другим, например, в данном случае

Рис.2. Спектрограмма звука sound, записанная в заглушенной камере

Наконец, голова и ушные раковины производят свою обработку звукового сигнала (см. "Звукорежиссер", №10/1999). Пример осциллограммы того же самого звука после обработки его помещением и слуховой системой в левом и правом ушах показан на рис.3.

Рис.3. Спектрограмма звука sound, снятая на двух входах в ушной канал в помещении

Таким образом, чтобы вызвать такие же ощущения у слушателя, надо сделать следующее:

записать оригинальный звуковой источник, изменить программно его импульсную характеристику (или спектр) так, как это делает заданное помещение (концертный зал, собор или подвал), а затем произвести его фильтрацию аналогично тому, как это происходит в ушных раковинах и голове. После того как это сделано, можно воспроизвести эти сигналы, например, через головные телефоны, и получить ощущение того, что слушатель находится в реальном трехмерном акустическом пространстве вместе с источником звука (певцом, музыкантом, оркестром) см. рис.4 .

Рис.4. Схема обработки сигнала

Процесс формирования звуковых сигналов при аурализации проходит следующие последовательные стадии:

- моноуральная запись источника звука обычно записи делают в заглушенной камере,но допустимо и в полузаглушенных помещениях,если запись делается там, где отражения не являются определяющими. Расстояние для записи выбирается обычно 1 м на оси. Уровень записи должен соответствовать среднему уровню данного источника звука при естественном звучании. Допускается использование синтезированных музыкальных записей, а также различных банков семплов.Это дает возможность прослушать, как в данном помещении, существующем или желаемом, будут звучать различные виды музыки.

- создание компьютерных моделей звукового поля в помещении как известно из архитектурной акустики, при прослушивании любого звукового источника в помещении к слушателю поступает прямой звук и его многочисленные отражения от стен, потолка, пола и др. (рис.5). Для расчета структуры этих отражений в помещениях различной формы и размеров, с различными поглощающими или отражающими материалами и конструкциями, мебелью, элементами декораций и др., используются пакеты программ, построенные как на приближенных методах геометрической акустики (лучевой метод или метод мнимых источников),так и на более точных методах волновой акустики (МКЭ, МГЭ и др.).

Рис.5. Структура отражений в помещении

Если записать микрофоном звуковой сигнал, например, короткий импульс, воспроизведенный через акустическую систему установленную в помещении, то сигнал в любой точке помещения будет иметь вид ,показанный на рис.6, т.е. наряду с прямым сигналом в данную точку приходят ранние дискретные отражения, затем число их увеличивается, и процесс приобретает сплошной характер. Важнейшей характеристикой этого реверберационного процесса является время реверберации Тс, т.е. время, в течение которого сигнал затухает на 60 дБ.

Рис.6. Структура реверберационного процесса в помещении

Время реверберации, структура ранних отражений, характер затухания их на последнем этапе и др. вызывают у слушателя субьективное ощущение размеров пространства, полноты звука, ясности, тембра и др. параметров, по которым отличается акустически хороший зал от плохого. (О связях обьективных параметров реверберационного процесса и субьективных ощущениях акустики залов получено за последнее время много новых результатов ).

Таким образом для определения импульсных характеристик помещения (под импульсной характеристикой понимается реакция системы на воздействие в виде короткого импульса) можно произвести измерения микрофоном в разных точках пространства, а можно, задав геометрические размеры помещения, поглощающие свойства его стен, потолков и др., рассчитать его для любой точки помещения, что и делается в программах аурализации.

- определение бинауральных импульсных характеристик помещения(BRIR) после того как звуковой сигнал, созданный источником звука, изменен помещением (т.е. к прямому сигналу добавлены его отражения), он обрабатывается двумя слуховыми приемниками, и только после этого он поступает на барабанную перепонку и проходит дальнейшие стадии обработки в периферической слуховой системе и в высших отделах мозга.

Импульсные характеристики, которые получаются на входе левого и правого слуховых каналов, называются бинауральными импульсными характеристиками помещения BRIR (binaural room impulse response).

Эти функции BRIR несут в себе всю необходимую информацию: о положении и свойствах источника звука, о свойствах помещения и свойствах приемника звука, то есть обо всех процессах обработки звука, которые происходят в голове, ушных раковинах и др.

Для того чтобы описать эти свойства приемника (т.е. головы и ушных раковин), используются передаточные HRTF (АЧХ и ФЧХ) или импульсные функции слуховой системы - HRIR.

Для определения этих передаточных функций обычно используют библиотеки уже выполненных измерений АЧХ и ФЧХ внутри слухового канала на моделях "искусственной головы" в заглушенной камере при разном расположении источника вокруг головы (Рис.7). Вид передаточных функций существенно меняется (особенно в области частот 5…16 кГц) в зависимости от положения источника в вертикальной и горизонтальной плоскости и по глубине по отношению ко входу в левый и правый слуховые каналы головы. Иначе говоря, ушные раковины, голова и торс действуют как частотно-зависимые дифракционные фильтры. Физические причины этого были рассмотрены в статье о бинауральном слухе (№10/1999).


Рис.7. Схема записи передаточных функций слуховой системы при разных положениях источника

В результате для воссоздания пространственного звукового образа необходимо ввести в компьютер следующую информацию:

- выбор источника сигнала: музыка, речь, пение и т.п. Это может быть запись в полузаглушенном или заглушенном помещении или синтезированный сигнал;
- выбор помещения, в которое "помещается" этот источник звука. Могут быть заданы параметры известного помещения или помещения, которое еще предстоит построить;
- положение источника звука в помещении на сцене, на полу, в любой другой точке;
- положение слушателя в каком-либо месте помещения в партере, на балконе и т.д.
Для реализации "виртуального звукового образа" созданы пакеты компьютерных программ. Наиболее известны программы фирм Оdeon и САТТ, которые последовательно выполняют следующие операции (Рис.8):
- вводят свойства источника звука из библиотеки записанных или синтезированных звуков в моноварианте;
- производят расчет структуры звукового поля в заданном помещении и вычисляют импульсную характеристику в заданных точках расположения правого и левого ушей слушателя;
- используют из заранее составленной библиотеки значения передаточных функций головы, соответствующих данному положению источника и слушателя;
- производят "свертку", т.е. последовательную обработку фильтрацию сигнала источника с помощью импульсных характеристик помещения и импульсных (передаточных) характеристик головы.

Рис.8. Структура алгоритма

Полученные стереосигналы подают на головные телефоны это дает возможность слушателю почувствовать, что он находится на определенном месте внутри зала, и звук окружает его со всех сторон. При смене положения слушателя или источника производится пересчет передаточных функций.

Как уже было показано в статье, посвященной бинауральному слуху, для нашей слуховой системы существует несколько наиболее важных признаков, по которым она определяет пространственное положение источника. Для локализации в горизонтальной плоскости основное значение имеет разница по времени прибытия сигнала в правое и левое уши, и разница по интенсивности за счет дифракции на голове. Для определения глубины важна разница в уровне звукового давления и разница в спектральном составе, а для локализации в вертикальной плоскости разница в форме АЧХ и ФЧХ за счет дифракции на ушной раковине. Измеренные значения передаточных функций несут в себе всю необходимую для слуховой системы информацию о локализации источника. Разумеется эти значения передаточных функций сделаны для некоторых усредненных параметров головы и ушных раковин это вносит определенную погрешность, т.к. каждый человек имеет некоторые индивидуальные особенности. Но, во-первых, исследования показали, что погрешности не слишком велики, а, во-вторых, уже созданы компьютерные модели ушной раковины, в которых можно учесть индивидуальные параметры слушателя. Таким образом, компьютерная модель обработки звука, аналогичная работе бинауральных слуховых приемников, должна включать последовательный ряд следующих моделей:

Моноуральная запись => расчет структуры реверберационного процесса (в т.ч. ранние отражения) => модель локализации в вертикальной плоскости (эхо на ушной раковине) => модель локализации глубины (реверберация, громкость) => азимутальная модель локализации (временная и интенсивностная) => выход на левый и правый канал стереотелефонов.

Техника аурализации стремительно развивается - на последней 108-й конвенции AES в Париже было несколько докладов и демонстраций, посвященных программам аурализации с учетом движения головы (система BRS), которая позволяет при поворотах или подъеме головы пересчитать соответствующие параметры звукового поля и дает возможность услышать в наушниках, как соответственно перемещается источник звука в пространстве. Для этого нужен постоянный мониторинг (система обратной связи), которая отслеживает движение головы и пересчитывает соответствующие бинауральные импульсные характеристики. Существуют разные системы обратной связи, с помощью которых это можно делать: от простейших инфракрасных датчиков, с использованием которых уже давно выпускаются стереотелефоны, до сложных и дорогостоящих систем обратного контроля. Когда эта технология окончательно созреет, качество систем пространственного звуковоспроизведения перейдет на новый уровень.

На 108-й конвенции AES были представлены специальные демонстрационные системы фирмы Studer, когда слушатель мог через мониторы сначала прослушать пространственный звук, который при этом перемещался от одной акустической системы к другой (в комнате были установлены передние, задние, боковые и центральные системы). Затем с помощью компьютерной системы аурализации производилось прослушивание записей через головные телефоны с системой обратной связи.

При этом можно было услышать полную пространственную картину внешнего окружающего звукового поля, которое перемещалось при повороте головы это действительно впечатляет!

Конечно, хотелось бы использовать в системах аурализации не только головные телефоны, но и иметь возможность прослушивать обработанные записи через акустические системы. Однако для этого надо решить еще несколько дополнительных проблем: во-первых, вторичное помещение накладывает свое реверберационное поле, что в данном случае является помехой, ведь вся необходимая информация о помещении уже закодирована в сигнале. Во-вторых, сигналы от левого канала попадают не только на левое ухо, но и на правое, т.е. возникают перекрестные связи, которые разрушают звуковой образ.

В настоящее время активно развивается техника бинауральной стереофонии, в которой необходимо решение тех же проблем. За последние годы разработаны различные методы проектирования бифонических процессоров, которые реализуют подавление перекрестных связей в реверберирующих помещениях; и адаптивных процессоров, которые могут подавлять отражения во вторичном помещении. Правда, осталась проблема расширения зоны прослушивания, так как пока удается это сделать для фиксированной позиции слушателя. (О бинауральной стереофонии постараюсь рассказать в дальнейшем). Когда будет достигнут прогресс и этих направлениях, можно ожидать, что появится возможность прослушивания через акустические системы. Следует отметить, что достаточно будет двух акустических систем для левого и правого каналов для воссоздания пространственного звучания это-то и заманчиво!

Новую технологию компьютерного создания пространственных звуковых полей "аурализацию" несомненно, ожидает много применений:

- в архитектурной акустике-для оценки акустических свойств различных существующих залов и моделирования еще не построенных помещений, для оценки влияния различных элементов звукопоглощающих конструкции на качество звучания, в том числе и студий звукозаписи, для проектирования систем звукоусиления и др.;
- в технике звукозаписи открывается много новых возможностей для звукорежиссеров в создании пространственных эффектов, совершенствовании систем пространственной звукопередачи;
- в системах мультимедиа для создания "виртуальных реальностей" как видео-, так и звуковых и не только в компьютерных играх;
- для обучения музыкантов, певцов, артистов для получения возможности предварительного прослушивания различных видов исполнения в залах с разной акустикой;
- для тренировки слепых в распознавании и локализации источников звука;
- в постановке научных экспериментов, в частности, в психоакустике;
- в системах обнаружения и распознавания различных источников сигнала в пространстве (в авиации и др.)

 


Ирина Алдошина