Статьи:Модели слуховой системы и оценка акустики помещений

Как уже было рассказано в предыдущих статьях, в немецком Институте коммуникационной акустики под руководством проф. Йенса Блауерта (крупнейший специалист в области психоакустики, автор книги «Пространственный слух», была опубликована в русском переводе) на протяжении ряда последних лет проводятся работы по созданию компьютерных моделей слуховой системы, как периферической (модель CASA), так и высших отделов мозга (модель AVR). На последних конгрессах AES Блауерт сделал ряд докладов, посвященных применению этих моделей в задачах локализации, идентификации и разделения некогерентных источников звука, а также анализа распределения звуковой энергии в пространстве.

Достигнутый за последние два года прогресс в развитии этих моделей позволил перейти к принципиально новому методу в определении и оценке акустических свойств помещения (студии, концертного зала и др.), что, по-видимому, в ближайшие годы будет служить основой для значительного прогресса в решении проблем создания помещений с «хорошей» акустикой.

Доклад Йенса Блауерта на 118 конгрессе AES

Как уже было отмечено ранее, проектирование таких залов является в настоящее время скорее искусством на научной основе, чем наукой, причем число специалистов, владеющих этим искусством, в мире очень ограничено. Искусство создания залов с хорошей естественной акустикой в значительной степени утрачено, достаточно сравнить качество звучания музыки в залах ХVIII-XIX веков с современными концертными комплексами (в Санкт-Петербурге сохранилось более пятидесяти дворцов, в которых имеются залы с замечательными акустическими свойствами, - Шереметьевский, Юсуповский, Екатерининский и др., так что есть с чем сравнивать).

Начиная с конца XIX века предпринимаются значительные усилия по поиску объективных параметров, позволяющих адекватно оценивать акустические свойства залов. К их числу можно в первую очередь отнести: время реверберации Т60 (время, в течение которого уровень звуковой энергии уменьшается на 60 дБ), ясность С80 и четкость С50 (отношение энергии ранних отражений к энергии поздних отражений), время прихода ранних отражений (EDT) и др. За последние годы к ним добавились новые критерии, основанные на бинауральных свойствах слуха: коэффициент междуушной кросс-корреляции (он введен в стандарт ISO 3382,1997), коэффициент пространственности (LEV) и другие.

Однако, несмотря на значительный прогресс в исследованиях, однозначной связи между перечисленными выше параметрами и оценкой качества звучания музыки и речи в различных залах окончательно установить не удается.

Как было рассказано ранее (8/2003), Лео Беранеком были предприняты значительные усилия по поиску субъективных критериев оценки акустического качества залов и установлению их связи с объективными параметрами. К числу наиболее значимых он отнес десять параметров: гулкость, жизненность (liveness); полнота звука (fullness); различимость или ясность (definition или сlarity); интимность (intimaсy), теплота (warmth), пространственность (spaсiousness ), громкость (loudness); баланс (balanсe); ансамбль (ensemble); тембр (timbre), а также отрицательные факторы - эхо, порхающее эхо, мешающие шумы.

В его же работах были приведены результаты исследований по установлению связи этих субъективных оценок с такими объективными параметрами, как время реверберации, уровень энергии ранних и поздних отражений, уровень боковых отражений и др.

Однако, несмотря на несомненный прогресс, добиться однозначной оценки акустического качества помещения не удается (так что пока вопрос проектирования залов и студий остается искусством, правда, доля науки в этом процессе все время возрастает).

В результате научно-исследовательских работ, выполненных в Институте коммуникационной акустики (в содружестве с другими организациями), за последние годы было создано несколько специализированных компьютерных моделей слуховой системы в зависимости от выполняемых ими функций, в частности компьютерная модель бинауральной слуховой локализации пространственного образа.

Общая структура такой модели показана на рис.1. В ней происходит иерархическая процессорная обработка сигнала снизу вверх: обработка в модуле среднего уха, затем в модуле внутреннего уха (улитке), после этого происходит моноуральная обработка в левом и правом ухе, затем бинауральная обработка и, наконец, построение бинаурального трехмерного образа слуховой активности (binaural-activity display).

Рис. 1

Слуховые модели, предназначенные для решения других задач, имеют несколько иную структуру.

Модель слуховой системы использует в качестве входных сигналов две бинауральные импульсные характеристики для левого и правого уха, которые получаются после обработки внешнего сигнала в данной точке помещения на голове и ушных раковинах, выполняющих роль дифракционных фильтров (подробнее об этом см. статьи по бинауральному слуху 9-10/1999).

Точность работы модели в значительной степени зависит от точности измерения бинауральных импульсных характеристик. Поэтому методика измерения была очень тщательно отработана: в качестве измерительного устройства использовалась «искусственная голова» фирмы Neumann, модель KU-80, которая помещалась на манекене с тем, чтобы можно было учесть отражения от плеч, торса и пр. Измерения импульсных характеристик для различных направлений прихода звука производились для разных съемных ушных раковин, учитывающих индивидуальные особенности десяти экспертов с учетом асимметрии левого и правого уха. Измеренные импульсные характеристики сохранялись в компьютере в формате 24 бит,48 кГц.

Принцип работы модели, представленной на рис.1, заключается в следующем: два сигнала от левого и правого уха (уже отфильтрованные в ушной раковине и слуховом проходе) подвергаются полосовой фильтрации в среднем ухе и поступают во внутренне ухо (улитку), где происходит их спектральный анализ по «критическим полосам» и компрессия. После этого происходит их преобразование в поток электрических импульсов по слуховому нерву (своего рода АЦП) и передача в два моноуральных процессора, где выполняется предварительная обработка сигналов (подробнее все эти процессы были изложены в моих статьях по психоакустике, опубликованных в журнале).

Новым этапом в исследованиях бинаурального слуха явилось создание модели работы бинаурального процессора (модуля), выполняющего сравнительный анализ обоих сигналов левого и правого уха.

В этом бинауральном модуле выполняется определение разницы по времени прибытия обоих сигналов на левое и правое ухо в каждой критической полосе. Алгоритм, используемый для этого сравнения, заключается в вычислении функции кросскорреляции в каждой спектральной (критической) полосе в зависимости от величины междуушного времени задержки. К этому алгоритму добавляются специальная операция, называемая «междуушное подавление», которая позволяет подчеркнуть пики, особенно важные для локализации. Сведения, содержащиеся в позиции и форме пиков корреляционной функции, несут мозгу информацию о положении источников в пространстве. К этой информации добавляются сведения о разнице в интенсивности между источниками, а также предшествующий опыт (Gestalt-образы) слушателя, что в целом позволяет с достаточно большой точностью локализовать положение источника. В результате этих операций на выходе компьютерной слуховой модели может быть построен трехмерный спектр (binaural-activity display), в котором по одной оси отложена позиция источника влево-вправо, по другой - время и по третьей (вертикальной) - интенсивность (см. рис.1). Можно предположить, что мозг также «строит» такой трехмерный образец и из него извлекает необходимую информацию о расположении источника.

В основе построения алгоритма расчета функции автокорреляции была использована следующая модель (предположительно она выполняется на специальных бинауральных нейронах, расположенных в области верхней оливы мозга): модель состоит из двух линий задержки с отводами, одна идет из левого уха в правое, другая - наоборот. Обе линии связаны специальными совпадающими детекторами, передающими информацию дальше в мозг. Каждый детектор срабатывает, когда время задержки между двумя сигналами совпадает с той разницей во времени, на которую он настроен, только в этом случае в соответствующем нейроне возникает электрический разряд, который передает информацию в мозг. При этом число разрядов пропорционально амплитуде каждого сигнала.

Расчет функции корреляции происходит по следующей формуле:

ΨL,R(t,n)=∑τ=tt=ΔtC(τ,n)

где с(t,n) = l(t,n), r(t,n), то есть произведение значений звукового сигнала в левой и правой линии задержки после прохождения n-звена.

Данная система была дополнена еще двумя механизмами: учетом разницы по амплитуде между двумя ушами, что особенно важно для диапазона частот выше 1,5 кГц, и учетом механизма подавления. Последний необходим, как было отмечено выше, потому, что

функция кросскорреляции для ограниченного по полосе сигнала имеет несколько пиков, поэтому все дополнительные пики, кроме одного, соответствующего времени совпадения, подавляются. Следует отметить, что информацию о расположении источника несет не только расположение главного максимума функции корреляции на временной шкале, но и его ширина, так как из архитектурной акустики известно, что ощущение пространственности связано со степенью некоррелированности сигналов, то есть степенью их непохожести. Поэтому чем шире пик, тем скорее можно ожидать ощущения большей пространственности сигнала.

Для сигналов, поступающих на левое и правое ухо, вводится передаточная функция (HRTF), предварительно измеренная на искусственной голове. Затем происходит полосовая фильтрация, для чего используется 36 полосовых фильтров (ширина фильтров соответствует ширине критической полосы в слуховой системе), диапазон частот от 23 до 21164 Гц. После этого сигнал выпрямляется и передается на механизм расчета функции кросс-корреляции в каждой полосе частот (временное окно 10 мс), затем добавляются механизм анализа разности по амплитуде между двумя сигналами и механизм подавления. Затем полученные значения располагаются на трехмерном графике, который нормируется в угловых координатах расположения источника. Для этого используется каталог передаточных функций, измеренных на искусственной голове, через каждые 5 градусов в горизонтальной плоскости и 10 градусов в вертикальной.

Для установления связей между полученными результатами и субъективной оценкой качества звучания в различных помещениях прослушивания была поставлена серия экспериментов - в заглушенной камере были установлены мониторы по системе 5.1 (стандарт BS.775-1). С помощью манекена со сменными ушными раковинами производились измерения передаточных функций для определенного положения звукового образа, которое можно было менять с помощью специальных линий задержки, регулировки уровня и др. Система также имела возможность добавлять ранние отражения и реверберацию в измеряемый сигнал от всех пяти громкоговорителей. Измерения были выполнены для семи разных установок сигнала, в которых менялось время реверберации, время прибытия ранних отражений и т.д. На манекене записывались при этом бинауральные импульсные характеристики, по которым затем рассчитывались передаточные функции.

Эти же семь установок параметров были оценены опытными экспертами путем прослушивания бинауральных записей через стереотелефоны. Эксперты оценивали пространственность источника (широкий-верхний, узкий-центральный и др.) и общие ощущения от помещения (сухая маленькая комната, большой зал и др.).

Затем измеренные на манекене бинауральные сигналы вводились в компьютерную модель слуховой системы и строились бинауральные трехмерные карты (Binaural Activity Pattern), в которых по оси Z откладывалось время (до 400 мс), по оси X - интенсивность, по оси Y - смещение в горизонтальной плоскости в диапазоне ?90о.

Анализ этих трехмерных графиков позволяет сделать чрезвычайно интересные выводы:

  • когда к ушам искусственной головы поступал только прямой звук без ранних отражений и реверберации, на выходе компьютерной модели появлялся только один пик точно в середине, соответствующий регистрации прямого звука (дополнительный пик сбоку обусловлен несимметричностью ушных раковин, что учитывалось в данной модели). Эксперты, прослушивающие данный звук, отметили, что звук сухой и образ локализуется в центре головы.
  • для искусственно введенного одного раннего бокового отражения модель слуховой системы зарегистрировала еще один пик, локализованный под углом примерно 30 град. и смещенный по времени. При этом эксперты отметили, что звуковой образ вынесен из головы, но звук - сухой и слуховой образ очень узкий.
  • анализ бинауральной карты симфонической музыки, записанной в одном из лучших залов мира, венском Grosser Musikvereinssaal, отчетливо показывает прибытие большого количества ранних отражений, довольно плотно распределенных по времени и пики которых расположены в достаточно широкой зоне в горизонтальной плоскости. Эксперты отмечают, что именно в этом зале можно услышать широкий пространственный звуковой образ и прекрасное богатое звучание симфонического оркестра.

Таким образом, очевидно, что слуховая система производит детальный анализ структуры ранних отражений (время прибытия, локализацию и ширину пиков и т.д.), четко выделяя их из общего процесса реверберации, а также общий анализ структуры поздних отражений (реверберационную часть).

Построенные таким образом на моделях слуховой системы трехмерные бинауральные карты отчетливо показывают различие между разными типами помещений, и их можно считать бинауральными характеристиками помещения.

По сравнению с установившимися параметрами (время реверберации, ясность, четкость, коэффициент корреляции и др.) полученные результаты позволяют четко выявить распределение энергии в пространстве и во времени, включая ранние и поздние отражения. По-видимому, именно на основании этой информации мозг производит сравнение с имеющимися в памяти образцами и выносит суждение о качестве помещения.

Как показали анализы работы экспертов по оценке качества звучания залов и опыт расшифровки трехмерных графиков, полученных вышеуказанным методом, обычно процесс определения качества звучания происходит с помощью извлечения характерных признаков и сравнения их с некоторыми опорными данными в памяти, то есть качество звучания можно определить как «расстояние» между этими двумя сетками признаков.

Интересное применение эта модель слуховой системы может найти и в задачах разделения источников. Из сравнения бинауральных карт на выходе модели в случае восприятия речи двух разных людей (рис. 2) отчетливо видно различие в локализации прямого звука и первых отражений у двух разных ораторов. Используя эффект концентрации внимания, мозг, по-видимому, может подавить нежелательного оратора и усилить параметры того, который представляет для него интерес. Аналогичный алгоритм был опробован и в рассматриваемой модели. Механизм разделимости работает, только если количество источников не слишком велико (не более пяти), а уровень шумов и реверберационных помех - низкий, что вполне соответствует реальной ситуации.

Рис. 2. Трехмерная бинауральная карта восприятия двух ораторов слуховой системой

Разумеется, алгоритм распознавания по времени прихода бинауральных источников дополняется механизмом распознавания их по интенсивности, по спектральному составу, времени атаки и т.д. По каждому из этих признаков в слуховой системе строятся бинауральные трехмерные образцы, и извлеченная из них совокупность признаков, представленная в виде некоторых символов, передается на высшие уровни (так называемый уровень «черной доски»). Там для анализа привлекаются так называемые модули-эксперты, содержащие специальные знания в определенной области, которые оценивают и сравнивают представленные символы, выдвигая некоторую гипотезу об их значимости, эти гипотезы опять сравниваются и анализируются и окончательно отвергаются или принимаются. Такая модель распознавания звуковых образов показана на рис. 1 .

Предложенный метод оценки акустики помещения является принципиально новым шагом в этом направлении, своего рода революцией, поскольку позволяет оценивать параметры помещения по распределению энергии отраженных сигналов в пространстве и во времени способом, лучше коррелирующим с субъективными оценками экспертов. Это поможет в дальнейшем сделать процесс расчета и оценки параметров залов истинно научным процессом.

Кроме того, предложенный метод моделирования механизмов анализа бинауральных характеристик в слуховой системе может найти очень широкое применение при решении следующих задач:

  • создание трехмерных компьютерных моделей помещения с возможностью прослушивания в них бинауральных записей (техника «аурализации») (см. 8/2004);
  • воссоздание трехмерного звукового пространства при прослушивании через стереотелефоны многоканальных записей. Один из способов - это подача в слуховые каналы таких акустических сигналов, которые позволили бы слуховой системе выделить такие же признаки, которые она выделяет при прослушивании систем Surround Sound. С помощью построенных моделей можно определить характеристики требуемых исходных сигналов (то есть решить обратную задачу);
  • создание бинауральных процессоров, своего рода «электронной искусственной головы», что позволит при микшировании сигнала на пульте обработать его таким образом, чтобы вызвать при воспроизведении реакцию слуховой системы, аналогичную тем, что появляются на построенной слуховой модели;
  • разработка новых коммуникационных систем, например конференц-систем или систем служебной связи; можно использовать свойство слуховой системы выделять нужного оратора из общей слуховой информации по локализационным признакам, для чего организовать пространственное расположение коммуникационных каналов вокруг слушателей;
  • создание трехмерных звуковых дисплеев, позволяющих расположить звуки в трехмерном пространстве, что значительно увеличивает точность принятия решений в различных ситуациях.

Наконец, такие модели являются необходимым элементом в создании трехмерной виртуальной реальности, то есть компьютерном воссоздании реального мира, учитывающего все доступные виды информации (слуховая, зрительная, тактильная и пр.)

Как уже было отмечено в предыдущих статьях, Блауертом была предложена общая идея - выделить из всех направлений акустики особое направление, которое будет заниматься проблемами приема, переработки и передачи акустической информации с использованием цифровой процессорной обработки звука. Это направление получило название «коммуникационной акустики», для его развития и был создан специальный институт в Бохуме, Германия. Именно в рамках этого направления развиваются методы построения компьютерных моделей слуховой системы, решаются задачи создания виртуальных трехмерных пространств (с учетом передачи визуальной, тактильной, обонятельной и пр. информации).

Огромный прогресс во всех видах коммуникационных технологий (цифровое телевидение, радиовещание, звукозапись и др.), а также успехи психоакустики, изучающей процессы восприятия звука, позволили построить компьютерные модели периферической слуховой системы, решающие различные задачи: локализация, выделение сигнала на фоне шумов, оценка нелинейных искажений, определение высоты, громкости и др.

Практически программы, моделирующие способности слуховой системы к анализу окружающих слуховых событий и выделению из них определенной группы параметров, значимых для высших отделов коры головного мозга, уже построены. Это позволяет надеяться на решение таких проблем, как определение спектральных и временных характеристик сигнала, классификация их по видам (музыка, речь, шум), полная оценка качества звучания излучателей и микрофонов, акустики помещения и др.

В настоящее время коммуникационная акустика вплотную подошла к моделированию деятельности высших отделов коры головного мозга, а именно - к пониманию процессов распознавания «смысла», содержащегося в акустических сигналах, поскольку человек извлекает из них именно эту информацию и руководствуется ею при ответных действиях. Следовательно, модель анализа представленная на рис.1, уже дополнена моделью слухового синтеза.

Разработка именно таких моделей позволяет перейти к созданию трехмерных виртуальных миров, моделирующих все органы чувств человека: слух, зрение, осязание, обоняние и др.

Наконец, весь этот комплекс работ является составной частью исследований по созданию «искусственного интеллекта». Как известно, Европейский Союз выделил большие средства для проведения этих исследований в странах Европы (Англия, Германия, Голландия и др.). Эти работы также активно ведутся в США и Японии. Так что, возможно, Р. Курцвайл, предсказавший в своей книге, что через несколько лет искусственный компьютерный интеллект сравняется с интеллектом человека, был не так и далек от истины.

Ирина Алдошина