Frequently Asked Questions (Часто Задаваемые Вопросы)
по электронному созданию и обработке звука
Создан: 15.06.96
Последняя модификация: 12.07.97
Автор: Евгений Музыченко (Eugene Muzychenko)
2:5000/14@FidoNet, music@spider.nstu.nsk.su
Copyright (C) 1996-97, Eugene V. Muzychenko
Все права в отношении данного текста принадлежат автору. При
воспроизведении текста или его части сохранение Copyright обяза-
тельно. Коммерческое использование допускается только с письмен-
ного разрешения автора.
При наличии изменений с момента последней публикации они отмеча-
ются знаком ">-".
----------------------------------------------------------------
- Для чего применяется создание и обработка звука?
Создание (синтез) звука в основном преследует две цели: имитация
различных естественных звуков (шум ветра и дождя, звук шагов,
пение птиц и т.п.), а также акустических музыкальных инструмен-
тов (имитационный синтез), и получение принципиально новых зву-
ков, не встречающихся в природе (чистый синтез). Обработка звука
обычно направлена на получение новых звуков из уже существующих
(например, "голос робота"), либо придание им дополнительных ка-
честв или устранение существующих (например, добавление эффекта
хора, удаление шума или щелчков). Каждый из методов синтеза и
обработки имеет свою математическую и алгоритмическую модель,
что позволяет любой из них реализовать на компьютере; однако,
многие методы, будучи реализованы точно, требуют слишком большо-
го объема вычислений, отчего их обычно реализуют с какой-либо
степенью допущения.
----------------------------------------------------------------
- Каковы основные свойства звука?
Чаще всего в звуке рассматривается амплитуда и спектральный сос-
тав звукового колебания, а также их изменение во времени.
Амплитуда (amplitude) определяет максимальную интенсивность ко-
лебаний - громкость (volume) или силу звука. На осциллограмме
амплитуда представляется размахом сигнала - наибольшим и на-
именьшим относительно среднего значения уровнями.
Спектральный состав определяет окраску или тембр звука (timbre).
Любое периодическое колебание может быть представлено рядом
Фурье - суммой конечного числа синусоидальных колебаний (чистых
тонов). Спектр звука представляет собой график интенсивностей
(амплитуд) этих частотных составляющих, обозначаемых обычно в
виде вертикальных линий соответствующей высоты. Спектр чистого
тона имеет только одну линию, соответстующую его частоте; спектр
любого другого колебания имеет более одной линии. Если на спек-
тре звука имеется достаточно острый пик, то такой звук восприни-
мается на слух как тон соответствующей высоты, а остальные сос-
тавляющие определяют его окраску; в противном случае звук вос-
принимается как одновременное звучание нескольких тонов или шум.
Частотные составляющие, кратные основной частоте тона, называют-
ся гармониками (harmonics) или обертонами.
Изменение амплитуды во времени называется амплитудной огибающей
(envelope) звука - на амплитудном графике она как бы огибает
график колебания, а график получается как бы вписанным в огиба-
ющую. Любой природный звук имеет огибающую примерно такого вида:
/~~~\
/ \__________
/ \
/ \
-------!--!--!----------!----
1 2 3 4 5
Цифрами обозначены фазы развития звука, принятые в акустике:
1 - атака (attack) - начальная фаза, подъем
2 - остановка (hold) - короткая стабилизация после подъема
3 - спад (decay) - фаза перехода звука в установившееся состояние
4 - удержание (sustain) - фаза "поддержки"
5 - затухание (release) - послезвучание
Фаза поддержки имеет место лишь в том случае, когда вызвавшее
появление звука воздействие остается постоянным в течение како-
го-то времени (например, движение пилы по металлу или поток воз-
духа в духовом инструменте).
Аналогично, имеется понятие спектральной огибающей - трехмерный
график изменения спектра (и соответственно - тембра) во времени.
Кроме периодических колебаний - тонов - рассматриваются также
непериодические колебания - шумы. Для шума характерно более или
менее равномерное распределение интенсивности по спектру, без
явно выраженных пиков или спадов. В основном разичается два вида
шума: белый и розовый. Белый шум имеет равномерную спектральную
плотность и в чистом виде в природе не встречается; плотность
розового шума спадает с ростом частоты (1/f) - это характеристи-
ка шума дождя, прибоя, ветра и прочих неярко выраженных природ-
ных шумов. Иногда рассматривается также коричневый шум с плот-
ностью 1/f^2, быстро спадающей с ростом частоты - характеристи-
ка, близкая к звукам ударного происхождения (гром, обвал).
----------------------------------------------------------------
- Какие частотные характеристики имеет музыкальный звукоряд?
Одинаковые звуки соседних октав отличаются по частоте вдвое; из
этого следует, что соседние полутона отличаются в корень 12 сте-
пени из двойки - примерно в 1.059 раза. За эталон частоты прини-
мается нота Ля первой октавы - 440 Гц.
----------------------------------------------------------------
- Что такое децибел?
Это относительная логарифмическая единица измерения величин,
связанных с интенсивностью звука (мощности, амплитуды, напряже-
ния или тока сигнала, усиления/ ослабления и т.п.). Чувствитель-
ность слуха носит логарифмический характер - нарастание интен-
сивности в виде степенной функции воспринимается на слух как ли-
нейное увеличение громкости, поэтому в ряде случаев удобее поль-
зоваться логарифмическими, а не линейными единицами. Десятичный
логарифм отношения некоторой величины к ее эталонному значению -
lg (X/Xэ) - называется белом (Б), а его десятая часть - lg
(X/Xэ) / 10 - децибелом (дБ).
При измерениях абсолютной интенсивности звука (Вт/кв.м.) за эта-
лонное значение принимается уровень порога слышимости для сину-
соидального сигнала с частотой 1 кГц - 10 в степени -12 (10E-12)
Вт/кв.м. При этом порог слышимости определяется интенсивностью 0
дБ, а интенсивность, при которой начинаются болевые ощущения
(болевой порог) - около 140 дБ. Интенсивность тихого шепота -
около 35 дБ, громкого голоса - около 95 дБ, forte fortissimo
(fff) оркестра - около 100 дБ, оркестрового тутти (звучания всех
инструментов) - около 120 дБ.
При измерениях величин, с которыми интенсивность связана квадра-
тичной зависимостью - напряжения, тока, звукового давления и
электрической мощности - в выражении для децибела множитель 10
меняется на 20 (двойка выносится из логарифма отношения квадра-
тов).
При измерениях относительных величин за эталонный уровень прини-
мается какое-либо значение величины. Например, при оценке усиле-
ния за него принимается единичное усиление (пропускание сигнала
без изменения), равно 0 дБ. При этом 60 дБ соответствует усиле-
нию в 1000 раз (60 = 20 lg 1000), а -20 дБ - ослаблению в 10
раз. Для описания характеристик усилителей и фильтров применяет-
ся также единица "децибел на октаву" (дБ/окт), показывающая из-
менение усиления при изменении частоты в два раза.
----------------------------------------------------------------
- Как звук представляется в цифровом виде?
Путем временнОй и амплитудной дискретизации - измерения мгновен-
ных значений амплитуды звукового сигнала с определенной частотой
и их представление в виде числовых величин с определенной точ-
ностью. Точность измерения (разрядность получаемого дискретного
значения) определяет соотношение сигнал/шум, а частота дискрети-
зации - частотный диапазон оцифрованного сигнала. Для того, что-
бы без потерь оцифровать сигнал, частота дискретизации должна
быть как минимум вдвое выше максимальной частоты сигнала (вклю-
чая гармоники). Таким образом, для качественной оцифровки часто-
та дискретизации должна выбираться, исходя из полосы пропускания
канала (для звуковой аппаратуры Hi-Fi - 20-25 кГц): стандартное
значение в системе "компакт-диск" - 44.1 кГц. Там же использует-
ся 16-разрядная оцифровка, что дает соотношение сигнал/шум около
98 дБ. В студийной аппаратуре используются более высокие разре-
шения - 18, 20 и 24 разряда при частоте дискретизации 48, 56 или
96 кГц.
Для оцифровки более узкополосных и менее качественных сигналов
частота и разрядность дискретизации могут снижаться; например, в
телефонных линиях применяется 7- или 8-разрядная оцифровка с
частотами 8..12 кГц.
Представление аналогового сигнала в цифровом виде называется
также импульсно-кодовой модуляцией (ИКМ), так как сигнал пред-
ставляется в виде серии импульсов постоянной частоты (временнАя
дискретизация), амплитуда которых передается цифровым кодом (ам-
плитудная дискретизация).
----------------------------------------------------------------
- Что такое PCM и ADPCM?
PCM (Pulse Code Modulation - импульсно-кодовая модуляция) -
стандартный способ цифрового кодирования сигнала при помощи пос-
ледовательности абсолютных значений амплитуды. Различаются зна-
ковое (signed) и беззнаковое (unsigned) представления: в первом
случае представлен двуполярный сигнал и отсчеты могут меняться
от -N до +N, где N - максимально возможная амплитуда; во втором
случае - однополярный, когда отсчеты меняются от нуля до N. При
записи/воспроизведении с помощью звуковой карты эти форматы фун-
кционально равнозначны - первый приводится ко второму сдвигом на
половину максимальной амплитуды, и наоборот.
ADPCM (Adaptive Delta PCM - адаптивная относительная ИКМ) - раз-
новидность ИКМ, когда отсчеты представляются не в абсолютной
форме, а в виде относительных изменений (delta) амплитуды. Это
позволяет сократить разрядность отсчета до 2-4 бит, уменьшив при
этом общий размер оцифровки, однако не позволяет точно предста-
вить сигналы с быстро меняющейся амплитудой.
----------------------------------------------------------------
- Что такое АЦП и ЦАП?
Аналогово-цифровой и цифро-аналоговый преобразователи. Первый
преобразует аналоговый сигнал в последовательность цифровых зна-
чений амплитуды, второй выполняет обратное преобразование. В ан-
глоязычной литературе применяются термины ADC и DAC, а совмещен-
ный преобразователь называют codec (coder-decoder).
В основном применяется три типа АЦП:
- параллельные - входной сигнал одновременно сравнивается с эта-
лонными уровнями набором схем сравнения (компараторов), которые
формируют на выходе двоичное значение. В таком АЦП количество
компараторов равно (2 в степени N) - 1, где N - разрядность циф-
рового кода (для восьмиразрядного - 255), что не позволяет нара-
щивать разрядность свыше 10-12.
- последовательного счета - на компаратор подается входной сиг-
нал вместе с линейно нарастающим эталонным сигналом, скорость
нарастания которого известна, и измеряется время, за которое
эталонный сигнал достигнет уровня входного. Обычно такие АЦП ис-
пользуют в качестве датчиков эталонного сигнала и времени цифро-
вой счетчик и подключенный к нему ЦАП. Схема достаточно проста,
однако время преобразования зависит от величины входного сигна-
ла, что затрудняет работу на высоких частотах.
- последовательного приближения - метод аналогичен предыдущему,
но число, подаваемое на эталонный ЦАП, изменяется не линейно, а
по принципу половинного деления (дихотомии), который использует-
ся во многих методах сходящегося поиска прикладной математики.
Это позволяет завершить преобразование за количество тактов,
равное разрядности слова, независимо от величины входного сигна-
ла.
ЦАП строятся по принципу суммирования взвешенных токов или нап-
ряжений, когда каждый разряд входного слова вносит соответству-
ющий своему двоичному весу вклад в общую величину получаемого
аналогового сигнала. В этом смысле ЦАП являются "прямыми" ус-
тройствами, в которых преобразование выполняется проще и быс-
трее, чем в АЦП, которые в большинстве своем - последовательные
и более медленные устройства.
Для правильной работы АЦП и ЦАП спектр аналогового сигнала дол-
жен быть ограничен (убраны все частоты выше половины частоты
дискретизации). Для этого на входе АЦП и на выходе ЦАП ставятся
фильтры, подавляющие высокие частоты, однако реализация точных
фильтров с хорошими частотными и фазовыми характеристиками на
аналоговых элементах достаточно сложна. Для упрощения аналоговых
фильтров применяется так называемая передискретизация
(oversampling) - промежуточное повышение частоты и, возможно,
разрядности оцифровки. Это позволяет делать аналоговые фильтры с
более пологим фронтом среза в области высоких частот - главное,
чтобы обеспечивалась достаточная линейность в звуковом диапазоне
частот. Более точная фильтрация выполняется в цифровом формате,
после чего разрешение оцифровки приводится к нужной частоте и
разрядности.
----------------------------------------------------------------
- Какие методы используются для синтеза звука?
1. Аддитивный (additive). Основан на утверждении Фурье о том,
что любое периодическое колебание можно представить в виде суммы
чистых тонов (синусоидальных колебаний с различными частотами и
амплитудами). Для этого нужен набор из нескольких синусоидальных
генераторов с независимым управлением, выходные сигналы которых
суммируются для получения результирующего сигнала. На этом мето-
де основан принцип создания звука в духовом органе.
Достоинства метода: позволяет получить любой периодический звук,
и процесс синтеза хорошо предсказуем (изменение настройки одного
из генераторов не влияет на остальную часть спектра звука). Ос-
новной недостаток - для звуков сложной структуры могут потребо-
ваться сотни генераторов, что достаточно сложно и дорого реали-
зовать.
2. Разностный (subtractive). Идеологически противоположен перво-
му. В основу положена генерация звукового сигнала с богатым
спектром (множеством частотных составляющих) с последующей филь-
трацией (выделением одних составляющих и ослаблением других) -
по этому принципу работает речевой аппарат человека. В качестве
исходных сигналов обычно используются меандр (прямоугольный,
square), с переменной скважностью (отношением всего периода к
положительному полупериоду), пилообразный (saw) - прямой и об-
ратный, и треугольный (triangle), а также различные виды шумов
(случайных непериодических колебаний). Основным органом синтеза
в этом методе служат управляемые фильтры: резонансный (полосо-
вой) - с изменяемым положением и шириной полосы пропускания
(band) и фильтр нижних частот (ФНЧ) с изменямой частотой среза
(cutoff). Для каждого фильтра также регулируется добротность (Q)
- крутизна подъема или спада на резонансной частоте.
Достоинства метода - относительно простая реализация и довольно
широкий диапазон синтезируемых звуков. На этом методе построено
множество студийных и концертных синтезаторов (типичный предста-
витель - Moog). Недостаток - для синтеза звуков со сложным спек-
тром требуется большое количество управляемых фильтров, которые
достаточно сложны и дороги.
3. Частотно-модуляционный (frequency modulation - FM). В основу
положена взаимная модуляция по частоте между несколькими синусо-
идальными генераторами. Каждый из таких генераторов, снабженный
собственными формирователем амплитудной огибающей, амплитудным и
частотным вибрато, именуетчся оператором. Различные способы со-
единения нескольких операторов, когда сигналы с выходов одних
управляют работой других, называются алгоритмами синтеза. Алго-
ритм может включать один или больше операторов, соединенных пос-
ледовательно, параллельно, последовательно-параллельно, с обрат-
ными связями и в прочих сочетаниях - все это дает практически
бесконечное множество возможных звуков.
Благодаря простоте цифровой реализации, метод получил широкое
распространение в студийной и концертной практике (типичный
представитель класса синтезаторов - Yamaha DX). Однако практи-
ческое использование этого метода достаточно сложно из-за того,
что бОльшая часть звуков, получаемых с его помощью, представляет
собой шумоподобные колебания, и достаточно лишь слегка изменить
настройку одного из генераторов, чтобы чистый тембр превратился
в шум. Однако метод дает широкие возможности по синтезу разного
рода ударных звуков, а также - различных звуковых эффектов,
недостижимых в других методах разумной сложности.
4. Самплерный (sample - выборка). В этом методе записывается ре-
альное звучание (сампл), которое затем в нужный момент воспроиз-
водится. Для получения звуков разной высоты воспроизведение ус-
коряется или замедляется; чтобы тембр звука не менялся слишком
сильно, используется несколько записей звучания через определен-
ные интервалы (обычно - через одну-две октавы). В ранних сам-
плерных синтезаторах звуки в буквальном смысле записывались на
магнитофон, в современных применяется цифровая запись звука.
Метод позволяет получить сколь угодно точное подобие звучания
реального инструмента, однако для этого требуются достаточно
большие объемы памяти. С другой стороны, запись звучит естес-
твенно только при тех же параметрах, при которых она была сдела-
на - при попытке, например, придать ей другую амплитудную огиба-
ющую естественность резко падает.
Для уменьшения требуемого объема памяти применяется зацикливание
сампла (looping). В этом случае записывается только короткое
время звучания инструмента, затем в нем выделяется средняя фаза
с установившимся (sustained) звуком, которая при воспроизведении
повторяется до тех пор, пока включена нота (нажата клавиша), а
после отпускания воспроизводится концевая фаза.
На самом деле этот метод нельзя с полным правом называть синте-
зом - это скорее метод записи-воспроизведения. Однако в совре-
менных синтезаторах на его основе воспроизводимый звук можно
подвергать различной обработке - модуляции, фильтрованию, добав-
лению новых гармоник, звуковых эффектов, в результате чего звук
может приобретать совершенно новый тембр, иногда совсем непохо-
жий на первоначальный. По сути, получается комбинация трех ос-
новных методов синтеза, где в качестве основного сигнала исполь-
зуется исходное звучание.
Типичный представитель этого класса синтезаторов - E-mu Proteus.
5. Таблично-волновой (wave table). Разновидность самплерного ме-
тода, когда записывается не все звучание целиком, а его отдель-
ные фазы - атака, начальное затухание, средняя фаза и концевое
затухание, что позволяет резко снизить объем памяти, требуемый
для хранения самплов. Эти фазы записываются на различных часто-
тах и при различных условиях (мягкий или резкий удар по клавише
рояля, различное положение губ и языка при игре на саксофоне и
т.п.), в результате чего получается семейство звучаний одного
инструмента. При воспроизведении эти фазы нужным образом состав-
ляются, что дает возможность при относительно небольшом объеме
самплов получить достаточно широкий спектр различных звучаний
инструмента, а главное - заметно усилить выразительность звуча-
ния, выбирая, например, в зависимости от силы удара по клавише
синтезатора не только нужную амплитудную огибающую, как делает
любой синтезатор, но и нужную фазу атаки.
Основная проблема этого метода - в сложности сопряжения различ-
ных фаз друг с другом, чтобы переходы не воспринимались на слух
и звучание было цельным и непрерывным. Поэтому синтезаторы этого
класса достаточно редки и дороги.
Этот метод также используется в в синтезаторах звуковых карт
персональных компьютеров, однако его возможности там сильно уре-
заны. В частности, почти нигде не применяют составление звука из
нескольких фаз, сводя метод к простому самплерному, хотя почти
везде есть возможность параллельного воспроизведения более одно-
го сампла внутри одной ноты.
6. Метод физического моделирования (physical modelling). Состоит
в моделировании физических процессов, определяющих звучание ре-
ального инструмента на основе его заданных параметров (например,
для скрипки - порода дерева, состав лака, геометрические разме-
ры, материал струн и смычка и т.п.). В связи с крайней слож-
ностью точного моделирования даже простых инструментов и огром-
ным объемом вычислений метод пока развивается медленно, на уров-
не студийных и экспериментальных образцов синтезаторов. Ожидает-
ся, что с момента своего достаточного развития он заменит извес-
тные методы синтеза звучаний акустических инструментов, оставив
им только задачу синтеза не встречающихся в природе тембров.
7. (Alexander Grigoriev)
WaveGuide технология, активно pазpабатываемая в Стэнфоpдcком
Унивеpcитете и пpименяемая yже в неcкольких пpомышленных моделях
электpонных pоялей, напpимеp, фиpмы Baldwin. Пpедcтавляет cобой
pазновидноcть физичеcтого моделиpования, пpи котоpой моде-
лиpyетcя pаcпpоcтpанение колебаний, пpедcтавленных диcкpетными
отcчетами, по cтpyне (одномеpное моделиpование) и по pезонанcным
повеpхноcтям (двyмеpное моделиpование) или в объемном pезонатоpе
(тpехмеpное). Пpи этом появляетcя возможноcть моделиpовать также
нелинейные эффекты, напpимеp yдаp молоточка и каcание cтpyны
демпфеpом, а также взаимнyю cвязь cтpyн и cвязь гоpизонтальной и
веpтикальной мод.
----------------------------------------------------------------
- Какие методы используются для обработки звука?
1. Монтаж. Состоит в вырезании из записи одних участков, вставке
других, их замене, размножении и т.п. Называется также редакти-
рованием. Все современные звуко- и видеозаписи в той или иной
мере подвергаются монтажу.
2. Амплитудные преобразования. Выполняются при помощи различных
действий над амплитудой сигнала, которые в конечном счете сво-
дятся к умножению значений самплов на постоянный коэффициент
(усиление/ослабление) или изменяющуюся во времени функцию-моду-
лятор (амплитудная модуляция). Частным случаем амплитудной моду-
ляции является формирование огибающей для придания стационарному
звучанию развития во времени.
Амплитудные преобразования выполняются последовательно с отдель-
ными самплами, поэтому они просты в реализации и не требуют
большого объема вычислений.
3. Частотные (спектральные) преобразования. Выполняются над час-
тотными составляющими звука. Если использовать спектральное раз-
ложение - форму представления звука, в которой по горизонтали
отсчитываются частоты, а по вертикали - интенсивности составля-
ющих этих частот, то многие частотные преобразования становятся
похожими на амплитудные преобразованиям над спектром. Например,
фильтрация - усиление или ослабление определенных полос частот -
сводится к наложению на спектр соответствующей амплитудной оги-
бающей. Однако частотную модуляцию таким образом представить
нельзя - она выглядит, как смещение всего спектра или его от-
дельных участков во времени по определенному закону.
Для реализации частотных преобразований обычно применяется спек-
тральное разложение по методу Фурье, которое требует значитель-
ных ресурсов. Однако имеется алгоритм быстрого преобразования
Фурье (БПФ, FFT), который делается в целочисленной арифметике и
позволяет уже на младших моделях 486 разворачивать в реальном
времени спектр сигнала среднего качества. При частотных преобра-
зованиях, кроме этого, требуется обработка и последующая свер-
тка, поэтому фильтрация в реальном времени пока не реализуется
на процессорах общего назначения. Вместо этого существует боль-
шое количество цифровых сигнальных процессоров (Digital Signal
Processor - DSP), которые выполняют эти операции в реальном вре-
мени и по нескольким каналам.
4. Фазовые преобразования. Сводятся в основном к постоянному
сдвигу фазы сигнала или ее модуляции некоторой функцией или дру-
гим сигналом. Благодаря тому, что слуховой аппарат человека ис-
пользует фазу для определения направления на источник звука, фа-
зовые преобразования стереозвука позволяют получить эффект вра-
щающегося звука, хора и ему подобные. При помощи сдвига фазы на
90-180 градусов (последнее получается простым инвертированием
отсчетов) реализуется эффект "объемности" звука (Surround).
5. ВременнЫе преобразования. Заключаются в добавлении к основно-
му сигналу его копий, сдвинутых во времени на различные величи-
ны. При небольших сдвигах (порядка менее 20 мс) это дает эффект
размножения источника звука (эффект хора), при бОльших - эффект
эха.
6. Формантные преобразования. Являются частным случаем частотных
и оперируют с формантами - характерными полосами частот, встре-
чающимися в звуках, произносимых человеком. Каждому звуку соот-
ветствует свое соотношение амплитуд и частот нескольких формант,
которое определяет тембр и разборчивость голоса. Изменяя пара-
метры формант, можно подчеркивать или затушевывать отдельные
звуки, менять одну гласную на другую, сдвигать регистр голоса и
т.п.
----------------------------------------------------------------
- Как делаются звуковые эффекты?
При помощи различных комбинаций описанных выше преобразований.
Вот наиболее распространенные звуковые эффекты:
- вибрато - амплитудная или частотная модуляция сигнала с не-
большой частотой (до 10 Гц). Амплитудное вибрато также носит
название тремоло; на слух оно воспринимается, как замирание или
дрожание звука, а частотное - как "завывание" или "плавание"
звука (типичная неисправность механизма магнитофона).
- динамическая фильтрация (wah-wah - "вау-вау") - реализуется
изменением частоты среза или полосы пропускания фильтра с не-
большой частотой. На слух воспринимается, как вращение или зас-
лонение/открывание источника звука - увеличение высокочастотных
составляющих ассоциируется с источником, обращенным на слушате-
ля, а их уменьшение - с отклонением от этого направления.
- фленжер (flange - кайма, гребень). Название происходит от спо-
соба реализации этого эффекта в аналоговых устройствах - при по-
мощи так называемых гребенчатых фильтров. Заключается в добавле-
нии к исходному сигналу его копий, сдвинутых во времени на не-
большие величины (до 20 мс) с возможной частотной модуляцией ко-
пий или величин их временных сдвигов и обратной связью (суммар-
ный сигнал снова копируется, сдвигается и т.п.). На слух это
ощущается как "дробление", "размазывание" звука, возникновение
биений - разностных частот, характерных для игры в унисон или
хорового пения, отчего фленжеры с определенными параметрами при-
меняются для получения хорового эффекта (chorus). Меняя парамет-
ры фленжера, можно в значительной степени изменять первоначаль-
ный тембр звука.
- реверберация (reverberation - повторение, отражение). Получа-
ется путем добавления к исходному сигналу затухающей серии его
сдвинутых во времени копий. Это имитирует затухание звука в по-
мещении, когда за счет многократных отражений от стен, потолка и
прочих поверхностей звук приобретает полноту и гулкость, а после
прекращения звучания источника затухает не сразу, а постепенно.
При этом время между последовательными отзвуками (примерно до 50
мс) ассоциируется с величиной помещения, а их интенсивность - с
его гулкостью. По сути, ревербератор представляет собой частный
случай фленжера с увеличенной задержкой между отзвуками основно-
го сигнала, однако особенности слухового восприятия качественно
различают эти два вида обработки.
- эхо (echo). Реверберация с еще более увеличенным временем за-
держки - выше 50 мс. При этом слух перестает субъективно воспри-
нимать отражения, как призвуки основного сигнала, и начинает
воспринимать их как повторения. Эхо обычно реализуется так же,
как и естественное - с затуханием повторяющихся копий.
- дистошн (distortion - искажение) - намеренное искажение формы
звука, что придает ему резкий, скрежещущий оттенок. Наибольшее
применение получил в качестве гитарного эффекта (классическая
гитара heavy metal). Получается переусилением исходного сигнала
до появления ограничений в усилителе (среза верхушек импульсов)
и даже его самовозбуждения. Благодаря этому исходный сигнал ста-
новится похож на прямоугольный, отчего в нем появляется большое
количество новых частотных составляющих, резко расширяющих
спектр. Этот эффект применяется в различных вариациях (fuzz,
overdrive и т.п.), различающихся способом ограничения сигнала
(обычное или сглаженное, весь спектр или полоса частот, весь ам-
плитудный диапазон или его часть и т.п.), соотношением исходного
и искаженного сигналов в выходном, частотными характеристиками
усилителей (наличие/отсутствие фильтров на выходе).
- компрессия - сжатие динамического диапазона сигнала, когда
слабые звуки усиливаются сильнее, а сильные - слабее. На слух
воспринимается как уменьшение разницы между тихим и громким зву-
чанием исходного сигнала. Используется для последующей обработки
методами, чувствительными к изменению амплитуды сигнала. В зву-
козаписи используется для снижения относительного уровня шума и
предотвращения перегрузок. В качестве гитарной приставки позво-
ляет значительно (на десятки секунд) продлить звучание струны
без затухания громкости.
- фейзер (phase - фаза) - смешивание исходного сигнала с его ко-
пиями, сдвинутыми по фазе. По сути дела, это частный случай
фленжера, но с намного более простой аналоговой реализацией
(цифровая реализация одинакова). Изменение фазовых сдвигов сум-
мируемых сигналов приводит к подавлению отдельных гармоник или
частотных областей, как в многополосном фильтре. На слух такой
эффект напоминает качание головки в стереомагнитофоне - физичес-
кие процессы в обоих случаях примерно одинаковы.
- вокодер (voice coder - кодировщик голоса) - синтез речи на ос-
нове произвольного входного сигнала с богатым спектром. Речевой
синтез реализуется при помощи формантных преобразований: выделе-
ние из сигнала с достаточным спектром нужного набора формант с
нужными соотношениями придает сигналу свойства соответствующего
гласного звука. Изначально вокодеры использовались для передачи
кодированной речи: путем анализа исходного речевого сигнала из
него выделялась информация об изменении положений формант (пере-
ход от звука к звуку), которая кодировалась и передавалась по
линии связи, а на приемном конце блок управляемых фильтров и
усилителей синтезировал речь заново. Подавая на блок речевого
синтеза звучание, например, электрогитары и произнося слова в
микрофон блока анализа, можно получить эффект "разговаривающей
гитары"; при подаче звучания с синтезатора получается известный
"голос робота", а подача сигнала, близкого по спектру к колеба-
ниям голосовых связок, но отличающегося по частоте, меняет ре-
гистр голоса - мужской на женский или детский, и наоборот.
----------------------------------------------------------------
- Что такое Karaoke и как это делается?
Это удаление из песни голоса исполнителя - с тем, чтобы получить
так называемую "минусовку" (-1), которую можно использовать в
качестве сопровождения при собственном пении. Если в песне зву-
чит голос только одного исполнителя - он обычно находится при-
мерно посередине стереопанорамы, и удалить его можно путем вычи-
тания одного канала из другого. Если голос находится не точно
посередине - перед вычитанием нужно уравнять амплитуды голоса в
обоих каналах. Если поют несколько голосов, они могут быть уда-
лены путем фильтрации соответствующих частот. Естественно, все
эти преобразования приводят к заметной потере качества фонограм-
мы.
Karaoke также называют специально сделанные фонограммы песен без
голоса исполнителя.
----------------------------------------------------------------
- Как устроен электронный музыкальный синтезатор?
Большинство популярных аналоговых синтезаторов, работающих на
разностном принципе, построены по модульной технологии, сложив-
шейся к концу 70-х годов, и содержат блоки Key, Env, VCO, VCA,
VCF, LFO, NG, Mix и другие.
Key (Keyboard - клавиатура) - блок музыкальной клавиатуры. В от-
вет на нажатия клавиш формирует сигнал нажатия, запускающий ос-
тальные блоки синтезатора, а также сигнал высоты, напряжение ко-
торого пропорционально номеру нажатой клавиши.
VCO (Voltage Controlled Oscillator - генератор, управляемый нап-
ряжением, ГУН) - генератор исходного сигнала синтезатора. Выра-
батывает прямоугольные колебания с различной скважностью (разным
спектром сигнала), а также синусоидальные, треугольные и пилооб-
разные, частота которых пропорциональна управляющему напряжению.
NG (Noise Generator - генератор шума) вырабатывает шум - в ос-
новном белый или розовый.
Mix (Mixer - микшер) объединяет вырабатываемые генераторами сиг-
налы, суммируя их в различных пропорциях, задаваемых регулятора-
ми. Изменение пропорций смешиваемых сигналов дает изменение
спектральной плотности выходного сигнала, который подается в
другие блоки для дальшейшей обработки.
VCF (Voltage Controlled Filter - управляемый напряжением фильтр)
- блок перестраиваемых фильтров. Обычно под воздействием управ-
ляющего напряжения изменяется полоса пропускания фильтра (Band,
Contour), частота среза (Cutoff) и добротность фильтра - подъем
или спад усиления внутри полосы (Resonance - резонанс). Все или
часть этих параметров выведены на регуляторы, задающие их исход-
ные значения.
Env (Envelope - огибающая) вырабатывает напряжение, изменяющееся
по фазам ADSR (Attack - Decay - Sustain - Release). При поступ-
лении сигнала запуска начинается выработка фазы Attack, которая
переходит в Decay и далее - в Sustain, где остается до момента
снятия сигнала запуска, после чего формируется фаза Release и
цикл выработки огибающей завершается. Длительности фаз ADR и
уровень S задаются регуляторами. На простых одноголосых синтеза-
торах имеется только один блок Env, который позволяет сформиро-
вать огибающую для одного звука; в многоголосных синтезаторах их
несколько. В простых инструментах блок Env формирует только ам-
плитудную огибающую звука, в более сложных имеется отдельный
блок для выработки спектральной огибающей для фильтра или допол-
нительного управления синтезом.
VCA (Voltage Controlled Amplifier - управляемый напряжением уси-
литель) формирует выходной сигнал синтезатора. Обычно его управ-
ляющее напряжение берется с блока Env, что дает амплитудную оги-
бающую звука.
LFO (Low Frequency Oscillator - генератор низкой частоты) выра-
батывает колебания различной формы частотой примерно от 0.1 до
20 Гц, которые могут быть смешаны с любым из других управляющих
напряжений. Подача их на VCO дает частотную модуляцию, на VCF -
эффект "вау-вау", "вращающегося" или "открывающегося" источника
звука, на VCA - амплитудное вибрато (тремоло). Некоторые LFO мо-
гут вырабатывать случайно меняющийся ступенчатый сигнал, дающий
интересные на слух виды модуляции.
Каждый из блоков синтезатора полностью независим от других - все
они могут соединяться любым способом для получения различных ре-
жимов синтеза. В простых синтезаторах большинство блоков соеди-
нены жестко (Key - на VCO и Env, Env - на VCA, LFO - на VCO и
VCA и т.п.), в более сложных входы и выходы каждого блока выве-
дены на переднюю панель, и соединение делается внешними шнурами.
В начале 80-х начали внедряться цифровые методы обработки, кото-
рые поначалу комбинировались с аналоговыми, выполняя каждый
свойственные ему функции. Например, блоки Key, VCO, LFO, NG и
Env проще реализуются цифровым способом, а Mix и VCF - аналого-
вым. При этом цифровые блоки через ЦАП подавали управляющие нап-
ряжения на аналоговые. Преимущество цифровых формирователей -
более высокая стабильность, точность, а главное - повторяемость
сигналов, поскольку аналоговая (бесконечная) форма заменена дис-
кретной (конечной). При достаточно большом числе дискрет ступен-
чатость перестает ощущаться на слух, но повторяемость остается.
Тогда же появились полностью цифровые FM-синтезаторы, которые не
содержали наиболее сложных в цифровой реализации управляемых
фильтров.
В середине 80-х был освоен выпуск быстродействующих DSP, и по-
явились полностью цифровые разностные и самплерные синтезаторы.
По сути, цифровой синтезатор представляет собой обыкновенный
компьютер с устройствами ввода (клавиатура, кнопки, рычажки,
датчики, MIDI), вывода (звук, индикаторы, MIDI), обработки (ге-
нераторы, преобразователи, память и т.п.) и центральным процес-
сором, координирующим их работу. Например, клавишный синтезатор
Roland JV-30 выпускается как в виде отдельного модуля (тонгене-
ратора) SC-55, так и в виде звуковой карты для PC - SCC-1.
----------------------------------------------------------------
- Какие методы синтеза используются в популярных синтезаторах?
В большинстве моделей выпуска 70-х годов использовался в основ-
ном разностный метод синтеза. В моделях выпуска начала-середины
80-х - частотно-модуляционный. В конце 80-х стали преобладать
самплерные методы, а в начале 90-х - таблично-волновые, с обра-
боткой на мощных DSP. Популярные модели разностных синтезаторов
- PolyMoog, Crumar, ARP; частотно-модуляционных - Yamaha DX,
ритмический Roland TR; самплерных - E-mu Proteus XR, Korg M1;
таблично-волновых - Yamaha PSS/PSR, Roland JV и E, Ensoniq TS и
ASR; таблично-волновых с развитой обработкой звука - Yamaha SY,
Kurzweil 2000.
----------------------------------------------------------------
- Какими способами можно получить звук на IBM PC?
1. Через встроенный громкоговоритель (PC Speaker):
- используя в стандартном режиме подключенный к нему канал 2
системного таймера, который может генерировать прямоугольные ко-
лебания различной частоты. Таким образом можно получать простые
тональные звуки заданной частоты и длительности, однако управле-
ние тембром звука в этом способе невозможно.
- используя прямое управление громкоговорителем через системный
порт 61, подавая на него серию импульсов меняющейся частоты и
скважности (соотношения длительности 1/0), Так можно получать
различные звуковые эффекты: шум, модуляцию, изменение окраски
тона. Далее, можно принять во внимание, что диффузор громкогово-
рителя обладает инерцией (способностью к интегрированию прямо-
угольного сигнала): например, при подаче уровня 1 диффузор начи-
нает движение, при подаче уровня 0 - тормозится и через какое-то
время начинает движение в обратную сторону; своевременно меняя
уровни 0/1, можно заставить диффузор двигаться по любой траекто-
рии, иначе говоря - излучать звук любой частоты и окраски. Ин-
тегрирующим свойством обладает и схема усилителя громкоговорите-
ля, которая обычно содержит фильтрующий конденсатор. Метод тако-
го управления громкоговорителем называется широтноимпульсной мо-
дуляцией (ШИМ): частота колебаний диффузора определяется часто-
той следования импульсов, а амплитуда - их скважностью (шириной
положительной части импульса).
Недостаток этого способа - существенное различие массы и упру-
гости у диффузоров разных громкоговорителей - звук, довольно
чистый на одном, может превратиться в подобие шума на другом;
кроме этого, за счет более тонкого управления требуется гораздо
большая скорость процессора, а звук получается намного тише, чем
при использовании таймера.
- используя нестандарные методы программирования канала 2 тайме-
ра: на генерацию импульсов различной длительности и скважности
или серий импульсов сверхзвуковой частоты (метод частотной моду-
ляции - ЧМ). В первом случае снова получается метод ШИМ, но со
значительно сниженными затратами на переключение уровней и от-
слеживание времени, которые теперь возлагаются на сам таймер. Во
втором случае звуковой сигнал получается путем усреднения высо-
кочастотных колебаний в интегрирующей схеме громкоговорителя.
2. Через простой ЦАП:
- подключаемый к параллельному (LPT) порту (Covox). На восьми
выходных линиях данных (D0..D7) параллельного порта собирается
взвешивающий сумматор - схема, суммирующая логические уровни 0/1
с весами 1, 2, 4, ..., 128, что дает для каждой из комбинаций
восьми цифровых сигналов 0..255 линейно изменяющийся аналоговый
сигнал с уровнем 0..X (максимальный уровень X зависит от пара-
метров сумматора). Простейший сумматор делается на резисторах,
более сложный - на микросхемах ЦАП (например 572ПА). При записи
в регистр данных параллельного порта на выходе ЦАП устанавлива-
ется уровень, пропорциональный записанному значению, и сохраня-
ется до записи следующего значения. Таким образом получается
8-разрядный преобразователь с частотой дискретизации до несколь-
ких десятков килогерц. Добавив два регистра хранения и логику
выбора, можно сделать стереоЦАП, коммутируя каналы с помощью
служебных сигналов порта.
- собираемый на вставляемой в разъем расширения плате. В этом
случае достаточно просто получается 12- и 16-разрядный ЦАП (моно
или стерео). Попутно он может содержать таймер, генерирующий
запросы прерывания, и/или логику поддержки прямого доступа к па-
мяти (DMA), которая позволяет равномерно и без участия процессо-
ра передавать данные из памяти на преобразователь.
3. Через специальную звуковую карту:
- используя ЦАП, который есть почти на всех картах. В этом слу-
чае карта программируется на вывод оцифрованного звука напрямую
или через DMA, а подготовка оцифровки в памяти делается так же,
как и при выводе на простой ЦАП.
- используя синтезатор, который тоже есть почти на всех картах.
Большинство карт оснащено простейшими 2- или 4-операторными
FM-синтезаторами; почти на всех современных картах установлены
также WT-синтезаторы. При наличии обоих синтезаторов ими можно
управлять одновременно, увеличивая набор тембров и число голо-
сов; параллельно можно задействовать и ЦАП карты, через который
удобно выводить различные звуковые эффекты.
4. При помощи внешнего синтезатора, управляемого от компьютера:
- используя MIDI-порт, который имеется практически на всех зву-
ковых картах. Выход MIDI Out (обычно при помощи MIDI-адаптера)
соединяется со входом MIDI In синтезатора, и через порт подаются
MIDI-команды синтезатору. Одновременно можно принимать MIDI-со-
общения от синтезатора, подключив его MIDI Out к MIDI In звуко-
вой карты.
- используя стандартный последовательный порт, если в BIOS Setup
есть возможность переключить его в режим MIDI-совместимости
(тактовая частота, при которой возможно получение скорости 31.25
кбит/с). В этом случае понадобится самодельный адаптер для токо-
вой петли.
- используя специальные карты-адаптеры - например, Roland
MPU-401.
----------------------------------------------------------------
- Что такое tracker?
Любительская программа для записи и воспроизведения музыки на
нескольких дорожках (треках); трекеры впервые появились на
компьютере Amiga. Поскольку трекеры ориентированы на текстовое
представление, в них, в отличие от принятой в музыке горизон-
тальной нотной записи, применяется вертикальная запись нот при
помощи буквенно-цифровых обозначений (например, D-5 - нота Ре
пятой октавы, A#4 - нотя Ля диез четвертой октавы, и так далее);
при этом каждая дорожка представляется собственной колонкой, а
совокупность дорожек образует партитуру. Кроме нот, в дорожках
могут встречаться различные команды управления: фиксация ноты
(педаль), вибрато, тремоло, портаменто, переход к другому учас-
тку партитуры и т.п.
Кроме вертикальной записи, в трекерах применяется характерная
для них структура музыки: вся партитура делится на кадры
(pattern) обычно одинакового размера, а композиция представляет
собой последовательность кадров, что очень удобно для организа-
ции повторяемых фрагментов. Каждый кадр состоит обычно из 64
строк, что удобно для принятого в трекерах шестнадцатиричного
представления номеров и подходит для распространенных музыкаль-
ных размеров.
В трекерах применяется два метода синтеза звука: FM - при ис-
пользовании SB- или AdLib-совместимой звуковой карты, и самплер-
ный - при использовании PC Speaker, Covox, ЦАП или WT-синтезато-
ра звуковой карты (последнее - обычно при работе с картой GUS,
поскольку она была первой относительно недорогой и распростра-
ненной WT-картой с загружаемыми самплами). FM-трекеры используют
параметры инструментов для FM-синтезатора, а самплерные трекеры
- записи звучаний инструментов (самплы) в собственном формате. В
зависимости от сложности трекера могут использоваться 8- или
16-разрядные самплы с различными частотами дискретизации, по од-
ному или по несколько самплов на инструмент, неизменные или с
возможностью задания огибающих, эффектов и т.п. Современные тре-
керы (Scream Tracker 3, Fast Tracker II) по возможностям не ус-
тупают многим концертным синтезаторам, исключая, конечно, качес-
тво самого звука.
Каждый трекер хранит произведения в своем собственном формате,
однако многие способны загружать файлы других трекеров. Ранние
простые трекеры использовали формат MOD, пришедший с Amiga, бо-
лее поздние ввели новые форматы (STM, S3M, ULT, XM). В файл за-
писывается вся необходимая для его воспроизведения информация -
собственно партитура, описания инструментов, сами самплы и т.п.,
поэтому произведение будет звучать точно так же при использова-
нии другой аппаратуры вывода цифрового звука с тем же качеством,
или в совместимом трекере.
Имеется также большое количество проигрывателей (player) - прог-
рамм для воспроизведения файлов, подготовленных в трекерах. На-
иболее универсальный из них - Cubic Player. При наличии звуковой
карты GUS или SB AWE32/SB 32 с установленным ОЗУ он использует
для проигрывания инструментов аппаратный WT-синтезатор карты,
загружая самплы в ОЗУ синтезатора. На AWE32/SB 32 при этом также
поддерживается регулировка глубины эффектов Reverb/Chorus.
----------------------------------------------------------------
- Что такое MIDI?
MIDI - Musical Instrument Digital Interface (цифровой интерфейс
музыкальных инструментов) - стандарт на соединение инструментов
и передачи информации между ними. Каждый инструмент имеет три
разъема: In (вход), Out (выход) и Thru (повторитель входного
сигнала), что позволяет объединить в сеть практически любое ко-
личество инструментов.
Способ передачи - токовая петля (5 мА). Информация передается
байтами, в последовательном стартстопном коде (8 битов данных,
один стоповый, без четности - формат 8-N-1), со скоростью 31250
бит/с. В этом MIDI-интерфейс очень похож на последовательный ин-
терфейс IBM PC - отличие только в скорости и способе передачи: в
PC используется интерфейс V24 с передачей сигналов путем измене-
ния напряжения. Частоту 31250 бит/с на стандартном интерфейсе
IBM PC получить нельзя.
Поток данных, передаваемый по MIDI, состоит из сообщений (собы-
тий): нажатие/отпускание клавиш, изменение положений регуляторов
(MIDI-контроллеров), смена режимов работы, синхронизация и т.п.
Можно сказать, что по MIDI передается партитура музыкального
произведения, однако есть и специальные виды сообщений - System
Exclusive (SysEx) - в которых может содержаться любая информация
для инструмента - например, оцифрованный звук для загрузки в
ОЗУ, партитура ритм-блока и т.п. Обычно SysEx уникальны для каж-
дого инструмента и не совместимы с другими инструментами.
Большинство сообщений содержит в себе номер канала (1..16) - это
чаще всего условный номер инструмента в сети, для которого они
предназначены. Однако один инструмент может "отзываться" и по
нескольким каналам - именно так и работают звуковые карты и мно-
гие тонгенераторы (внешние модули синтеза). Прочие сообщения яв-
ляются общими и воспринимаются всеми инструментами в сети.
В сообщениях о нажатиях/отпусканиях клавиш передается номер ноты
- число в диапазоне 0..127, определяющее условный номер полуто-
на: ноте До первой октавы соответствует номер 60. Отсюда проис-
ходит "компьютерная" нумерация октав, начинающаяся с нуля, в ко-
торой первой октаве соответствует номер 5, а нота До нулевой ок-
тавы имеет нулевой MIDI-номер.
При записи MIDI-потока в файл (MID, RMI) он оформляется в один
из трех стандартных форматов:
0 - обычный MIDI-поток
1 - несколько параллельних потоков (дорожек)
2 - несколько независимых последовательных потоков
Разбиение на дорожки удобно для выделения партий отдельных ин-
струментов - популярные MIDI-секвенсоры формируют файлы именно
формата 1.
----------------------------------------------------------------
- Какие форматы используются для представления звука и музыки?
В настоящее время стандартом де-факто стали два формата:
Microsoft RIFF (Resource Interchange File Format - формат файлов
передачи ресурсов) Wave (.WAV) и SMF (Standard MIDI File - стан-
дартный MIDI-файл) (.MID). Первый содержит оцифрованный звук
(моно/стерео, 8/16 разрядов, с разной частотой оцифровки), вто-
рой - "партитуру" для MIDI-инструментов (ноты, команды смены ин-
струментов, управления и т.п.). Поэтому WAV-файл на всех картах,
поддерживающих нужный формат, разрядность и частоту оцифровки
звучит совершенно одинаково (с точностью до качества преобразо-
вания и усилителя), а MID-файл в общем случае - по-разному.
RAW - одноканальный формат "чистой оцифровки", не содержащий за-
головка. Обычно оцифровка хранится в 16-разрядном знаковом
(signed) формате, хотя могут быть и исключения.
VOC и CMF - форматы представления оцифрованного звука и партитур
от фирмы Creative Labs, AIFF (Audio-...) - формат звуковых фай-
лов на Macintosh и SGI, AU - формат SUN/NeXT.
MOD - широко распространенный трекерный формат. Содержит оциф-
ровки инструментов и партитуру для них, отчего звучит везде при-
мерно одинаково (опять же - с точностью до качества воспроизве-
дения). В оригинале поддерживаются четыре канала, в расширениях
- до восьми и более.
STM - формат Scream Tracker, примерно того же уровня, что и MOD.
S3M - формат Scream Tracker 3. Развитие STM в сторону увеличения
разрядности инструментов и количества музыкальных эффектов. Сам
ST3 поддерживает до 32 каналов, но не поддерживает предусмотрен-
ных в формате 16-разрядных самплов.
XM - формат Fast Tracker. Один из наиболее высокоуровневых среди
трекерных форматов. Поддерживаются 16-разрядные самплы, один ин-
струмент может содержать различные самплы на разные диапазоны
нот, возможно задание амплитудных и панорамных огибающих.
----------------------------------------------------------------
- Как преобразовать цифровой звук из одного формата в другой?
Существует большое количество программ преобразования форматов.
Наиболее известная из них - Convert (автор - Jesus Villena). Она
преобразует файлы нескольких десятков различных форматов - обыч-
ного цифрового звука (RAW, WAV, VOC), банков инструментов звуко-
вых карт и синтезаторов (PAT, SBK, KRZ, SYW), партитур и инстру-
ментов трекеров (MOD, S3M, XM). Любые хотя бы частично совмести-
мые форматы могут быть преобразованы один в другой в пределах
общей совместимости. Недостаток программы Convert - невозмож-
ность ручного задания параметров оцифровки, что не позволяет
преобразовать форматы без заголовка (RAW, SND и другие).
Другая мощная программа преобразования - SOX (SOund eXchange).
Существует под UNIX, OS/2 и DOS. Позволяет задать параметры
оцифровки, а также сделать преобразования - усиление/ослабление
и добавление эффекта эхо.
Программа AWAVE также поддерживает множество форматов, но рабо-
тает только под Windows с 32-разрядным интерфейсом (NT, 95 или
Win32s).
----------------------------------------------------------------
- Какие программы используются для обработки цифрового звука?
Сейчас популярны программы Cool Editor, Sound Forge, Samplitude,
Software Audio Workshop (SAW). Они дают возможность просматри-
вать осциллограммы обоих стереоканалов, прослушивать выбранные
участки, делать вырезки и вставки, амплитудные и частотные пре-
образования, звуковые эффекты (эхо, реверберацию, фленжер, дис-
тошн), наложение других оцифровок, изменение частоты оцифровки,
генерировать различные виды шумов, синтезировать звук по адди-
тивному и FM методам и т.п. Cool Editor содержит спектральный
анализатор, отображающий спектр выбранного участка оцифровки.
Многие программы обработки звука позволяют загружать и сохранять
оцифровки в различных форматах, что дает возможность преобразо-
вывать файлы из одного формата в другой и разделять стереокана-
лы.
----------------------------------------------------------------
- Какие программы работают с MIDI-форматом?
Это так называемые программы-секвенсоры (sequencer), аналогичные
аппаратным MIDI-секвенсорам. В их функции входит запись и вос-
произведение MIDI-партитур, отображение их в различных форматах,
различное редактирование как нот (транспонирование
(transposition), квантование (quantization), сдвиг фрагмента
(sliding) и т.п.), так и управляющих событий - смены инструмен-
тов, генерации серий значений контроллеров, имитирующих движение
регуляторов, вставки SysEx и т.п. Обычно профессиональные сек-
венсоры поддерживают три основных формата отображения:
- нотный (staff). Изображается классический нотный стан, приня-
тый в музыкальной практике. Однако в связи с тем, что MIDI-фор-
мат описывает события, а не нотную запись, многие принятые в му-
зыке обозначения не допускаются (прежде всего это относится к
лигам - некоторые секвенсоры расставляют их автоматически).
- временно-высотный (piano roll). Изображается временной график
включения/выключения нот (нажатий/отпусканий), на котором актив-
ная нота выглядит горизонтальной линией соответствующей длины и
в соответствующем временном положении. Слева для удобства опре-
деления высоты нот изображается фортепианная клавиатура.
- событийный (events). Изображается список всех MIDI-событий с
указанием времени появления каждого из них.
Профессиональные секвенсоры позволяют также присоединять к пар-
титуре WAV-файлы, которые будут воспроизводиться вместе с нею в
нужные моменты времени.
Наиболее известны секвенсоры Voyetra Plus Gold - под DOS и
MIDISoft Recording Session, Cakewalk и Cubase - под Windows.
Первый и два последних относятся к профессиональным, хотя
Cakewalk по своим возможностям уступает Voyetra и Cubase.
Cakewalk и Cubase выпускаются в нескольких версиях: Cakewalk -
Apprentice, Pro и Pro Auduo, Cubase - Lite, Score и Studio.
----------------------------------------------------------------
- Почему могут неправильно переключаться банки в Cakewalk?
Не все синтезаторы используют стандартный метод переключения
банков - передачу старшего байта номера банка контроллером 0 и
младшего - контроллером 32. Для этого в пунктах Settings -
Instruments - Configure - Define Instruments есть пункт Bank
Select Method - попробуйте переключение только контроллером 0
или контроллером 32.
----------------------------------------------------------------
- Почему при игре по MIDI "залипают" ноты, контроллеры и т.п.?
Чаще всего - из-за превышения пропускной способности самого
MIDI-канала или конкретного инструмента. Например, при "рисова-
нии" графика движения движения контроллера в секвенсоре генери-
руется достаточно большое количество MIDI-сообщений, которое при
передаче по каналу может приводить к переполнению входного
MIDI-буфера инструмента и потере идущих следом MIDI-сообщений.
На некоторых инструментах это видно по миганию индикатора "MIDI
Error". Чтобы этого не случалось, серии посылок контроллеров не-
обходимо "прореживать", оставляя только ощутимые на слух измене-
ния. В Cakewalk для этого есть специальные CAL-программы
thinaft, thinctrl и thinwhl.
Подобные ошибки могут также возникать из-за ошибок в реализации
MIDI-интерфейса или его драйверов. Например, MIDI-интерфейс зву-
ковых карт SB 32 PnP моделей CT-3600 и CT-3620 спонтанно генери-
рует на выходе последний выведенный через интерфейс байт, нару-
шая правильность MIDI-сообщений, а драйверы SB 16, SB 32 и AWE32
версий 1996-1997 годов имеют обыкновение терять байты даже на
быстрых машинах. Ошибку интерфейса можно частично замаскировать,
включив в секвенсоре вывод синхронизирующих сообщений (MIDI
Clock).
----------------------------------------------------------------
- Можно ли программно сделать WT MIDI-синтезатор на карте без WT?
Это можно сделать на любой звуковой карте, способной воспроизво-
дить цифровой звук. Наиболее известны три программных продукта,
реализующих программный WT-синтез с управлением по MIDI: Cubic
Player, Yamaha Soft Synthesizer S-YG20, S-YG50, Roland Virtual
SC-55.
Cubic Player - проигрыватель модулей большинства трекерных фор-
матов и MIDI-файлов для DOS. Для проигрывания трекерных модулей
используются их собственные инструменты и самплы, для проигрыва-
ния MIDI-файлов необходим комплект инструментов (patches) от
карты GUS, состоящий из ~190 файлов *.PAT, содержащих самплы и
параметры инструментов - по одному на инструмент, и файла конфи-
гурации default.cfg, задающего соответствие номеров инструментов
в MIDI и PAT-файлов. Набор можно скопировать с компьютера, на
котором был установлен GUS, либо установить с дискет при помощи
пункта Restore Files в инсталляторе для GUS.
В файл конфигурации Cubic Player - cp.cfg (если его нет - соз-
дать) - нужно внести строчку
-mp<полное имя каталога с набором инструментов>.
Синтезаторы S-YG20, S-YG50 и VSC-55 представляют собой драйверы
для Windows 3.1/95, создающие виртуальные MIDI-устройства.
S-YG20 реализует подмножество стандарта XG, S-YG50 - полный
стандарт XG (требует процессора P5-166 или MMX), VSC-55 - под-
множество стандарта GS. Для вывода звука используется стандар-
тное устройство цифрового воспроизведения Windows. Из-за прог-
раммной обработки самплов звук несколько отстает от MIDI-команд,
из-за чего эти драйверы неудобно использовать для работы в ре-
альном времени, однако при проигрывании MIDI-файлов отставание
незаметно.
----------------------------------------------------------------
- Что такое Drum Loop?
Дословно - "барабанная петля". Представляет собой файл-оцифров-
ку, в котором записаны отдельные партии ударных или весь ритм
целиком, сыгранные "живьем" на ударной установке. Готовые оциф-
ровки вставляются в звуковые дорожки секвенсора и нужным образом
зацикливаются, чтобы получилась цельная партия ударных. Drum
Loop применяются в тех случаях, когда средствами MIDI трудно или
невозможно воспроизвести нужные ударные тембры или манеру игры.
----------------------------------------------------------------
- Что такое Audio MPEG?
Это метод сжатия звука, а также формат сжатых звуковых файлов,
предложенный MPEG (Moving Pictures Experts Group - экспертной
группой по обработке движущихся изображений). По аналогии с ме-
тодом сжатия изображений, основанном на преобразованиях цветово-
го спектра, Audio MPEG использует преобразования спектра звука.
Это позволяет достичь коэффициента сжатия вплоть до 12 без ощу-
тимых потерь качества звука. Существует три уровня (layers)
Audio MPEG для сжатия стереофонических сигналов:
MPEG-1 - коэффициент сжатия 1:4 при потоке данных 384 кбит/с;
MPEG-2 - 1:6..1:8 при 256..192 кбит/с;
MPEG-3 - 1:10..1:12 при 128..112 кбит/с.
Для общего обозначения методов обработки звука при помощи Audio
MPEG используется термин RealAudio.
Изначально методы сжатия и восстановления по методам MPEG были
разработаны для аппаратной реализации при помощи DSP, однако
мощность современных процессоров достаточна для воспроизведения
сжатого звука в реальном времени. Например, для воспроизведения
наиболее популярного сейчас формата MPEG-3, файлы которого имеют
расширение .MP3, достаточно процессора P5-75. Существует нес-
колько программ-проигрывателей: WinPlay, Real Audio Player и
другие. Для сжатия звука в реальном времени мощности современных
процессоров недостаточно, однако существуют программные преобра-
зователи, сжимающие готовые звуковые файлы - например, RealAudio
Pro3 Encoder.
----------------------------------------------------------------
- От чего зависит естественность звучания акустических тембров?
Естественность звучания акустических тембров в синтезаторах за-
висит в основном от двух факторов: подобия тембров (спектральные
характеристики звука) и подобия динамических характеристик (так
называемые исполнительские воздействия - щипок струны гитары или
арфы, касание смычком струн виолончели, перегиб грифа и т.п.),
причем последние психоакустические исследования показывают, что
даже великолепно оцифрованный инструмент без свойственных ему
исполнительских воздействий звучит неестественно, а плохая оциф-
ровка или даже имитация тембра, имеющая характерные признаки иг-
ры на данном инструменте воспринимается слухом, как гораздо бо-
лее похожая. В большинстве случаев наиболее полную информацию о
характере звучания несет фаза атаки звука, на которой сильнее
всего отражается применяемый при игре способ звукоизвлечения.
Когда оцифровка инструментов выполняется полностью (от начала
атаки) - полученное звучание уже несет в себе примененный при
записи метод звукоизвлечения. При этом отдельные MIDI-ноты зву-
чат достаточно естественно, однако звучание всегда имеет харак-
тер однажды записанного инструмента и с трудом поддается измене-
нию, отчего приходится иметь множество оцифровок с разным харак-
тером звукоизвлечения.
Когда оцифровка сделана в так называемой стационарной фазе зву-
чания - после прохождения атаки - звучание отдельной MIDI-ноты
уже не будет таким похожим на исходный инструмент, как бы качес-
твенно не была выполнена сама запись. Этот метод рассчитан на
имитацию исполнительского воздействия средствами MIDI - парамет-
рами инструмента и контроллерами управления громкостью, высотой
(pitch bend), модуляцией, фильтрами. Такой подход более трудо-
емок, однако дает возможность создавать на основе имеющегося
стационарного тембра множество тембров со свойствами различных
инструментов. Например, для имитации игры на щипковых струнных
инструментах синхронно с началом атаки вставляется небольшое
быстро спадающее повышение тона, имитирующее более высокое зву-
чание струны в момент щипка; для имитации духовых - постепенно
снижающаяся по мере расходования запаса воздуха в легких гром-
кость звучания и т.п.
Нужные исполнительские воздействия для имитации естественного
звучания акустических инструментов могут вноситься как вручную
при помощи MIDI-редакторов, так и автоматически - для этого слу-
жит программа Style Enhancer (NTONYX Computer Laboratory). Она
позволяет не только накладывать на MIDI-партитуру воздействия,
свойственные тому или иному инструменту при заданной манере иг-
ры, но и автоматически распознавать отдельные музыкальные фразы
и обороты, преобразуя их в соответствии с заданным стилем испол-
нения. Также могут быть автоматически рассчитаны такие парамет-
ры, как амплитуда замаха перед ударом по струнам, объем воздуха
в легких, скорость движения смычка в момент касания струн, и
т.п. Многие MIDI-партитуры с правильно сделанной имитацией ис-
полнительских воздействий звучат даже на синтезаторах среднего
класса субъективно более естественно, чем "чистые" партитуры -
на сложных профессиональных аппаратах.
----------------------------------------------------------------
- Что представляют собой интерфейсы S/PDIF и AES/EBU?
S/PDIF (Sony/Philiрs Digital Interface Format - формат цифрового
интерфейса фирм Sony и Philiрs) - цифровой интерфейс для бытовой
радиоаппаратуры.
AES/EBU (Audio Engineers Society / European Broadcast Union -
общество звукоинженеров / европейское вещательное объединение) -
цифровой интерфейс для студийной радиоаппаратуры.
Цифровой интерфейс позволяет передавать звуковые сигналы аппара-
турой без потери качества, которое неизбежно теряется при пере-
даче сигналов в аналоговой форме.
Оба интерфейса являются последовательными и используют одинако-
вый формат сигнала и систему кодирования - самосинхронизирующий-
ся код BMC (Biphase-Mark Code - код с представлением единицы
двойным изменением фазы), и могут передавать сигналы разряд-
ностью до 24 бит на частотах дискретизации до 48 кГц.
Каждый отсчет сигнала передается 32-разрядным словом, в котором
20 разрядов используются для передачи отсчета, а 12 - для форми-
рования синхронизирующей преамбулы, передачи дополнительной ин-
формации и бита четности. 4 разряда из служебной группы могут
использоваться для расширения формата отсчетов до 24 разрядов.
Для интерфейса S/PDIF стандартизирована обработка только младших
16 разрядов отсчета.
Стандартно формат кодирования предназначен для передачи одно- и
двухканального сигнала, однако при использовании служебных раз-
рядов для кодирования номера канала возможна передача многока-
нального сигнала.
С электрической стороны S/PDIF предусматривает соединение коак-
сиальным кабелем с волновым сопротивлением 75 Ом, амплитуда сиг-
нала - 0.5 В. AES/EBU предусматривает соединение симметричным
кабелем с трансформаторной развязкой по интерфейсу RS-422 с ам-
плитудой сигнала 3-10 В.
Интерфейсы S/PDIF и AES/EBU используются для передачи звуковых
сигналов между устройствами записи/воспроизведения и обработки в
студиях, а сама система кодирования - при передаче сигналов меж-
ду внутренними блоками цифровой аппаратуры.
----------------------------------------------------------------
- Может ли один и тот же цифровой сигнал звучать по-разному?
Может. Это возможно благодаря тому, что в любом цифровом сигнале
есть два уровня информации: основная, представленная отсчетами
звукового сигнала, и побочная, представленная различного рода
помехами - нестабильностью уровней нуля и единицы, тактовой час-
тоты, искажениями формы импульсов и т.п. Если передача и преоб-
разование цифровых сигналов выполняются корректно - в результи-
рующем звуковом сигнале остается только исходная информация, ис-
кажения же подавляются до уровня, обусловленного наводками, па-
разитными связями по питанию и т.п. При некачественной передаче
или преобразовании помехи попадают в звуковой сигнал и вызывают
его искажения, нередко заметные на слух.
Например, если ЦАП получает цифровой сигнал по самосинхронизиру-
ющемуся последовательному каналу (интерфейс S/PDIF и ему подоб-
ные) и использует для извлечения тактовых импульсов систему фа-
зовой автоподстройки частоты (ФАПЧ, или PLL - Phase Locked
Loop), то вместе со звуковым сигналом с выхода ЦАП будет также
снята информация о нестабильности частоты как источника импуль-
сов, так и внутреннего генератора ФАПЧ. Для стабилизации потока
данных обычно используется промежуточное запоминающее устрой-
ство, выборка из которого ведется по тактовым импульсам незави-
симого высокостабильного генератора, иногда даже питаемого от
отдельного источника.
----------------------------------------------------------------
- Как устроена система записи на компакт-дисках?
Информационный рельеф диска состоит из цепочки углублений - пи-
тов - с промежутками между ними, расположенных по спирали, начи-
нающейся у внутреннего радиуса записываемой зоны. Исходные зву-
ковые данные представляются 16-разрядными отсчетами с частотой
44.1 кГц. Каждый шесть отсчетов левого и правого каналов офор-
мляются в подкадры размером 24 байта, которые подвергаются коди-
рованию при помощи CIRC (Cross Interleaved Redundant Code - из-
быточный код с перекрестным перемежением), известного под назва-
нием кода Рида-Соломона. После перемежения получается блок дли-
ной 256 бит, данные в котором снабжены разрядами обнаружения и
коррекции ошибок, и к тому же "размазаны" до блоку, что снижает
влияние одиночных ошибок на отдельные отсчеты. После кодирования
кадры вновь подвергаются перемежению так, что смежные биты дан-
ных оказываются записанными в несмежных областях диска.
Код Рида-Соломона позволяет обнаруживать до четырех ошибочных
байтов и корректировать до четырех потерянных или двух ошибочных
байтов.
После перемежения к полученным блокам добавляются так называемые
разряды субкодов - P, Q, R, S, T, U, V, W. В итоге каждые 98
блоков с субкодами оформляются в один кадр длительностью 1/75
сек (объем чистых данных - 2352 байта), называемый также секто-
ром, в котором субкоды первых двух блоков служат признаком син-
хронизации, а оставшиеся 96 разрядов каждого субкода образуют
P-слово, Q-слово и т.д. На протяжении всей дорожки последова-
тельность субкодных слов называют также субкодными каналами.
Слова или каналы субкодов используются для управления форматом
записи, индикации фрагментов фонограммы и т.п. - например, канал
P служит для пометки звуковых дорожек и пауз между ними (0 - па-
уза, 1 - звук), а канал Q - для пометки формата дорожек и секто-
ров, записи оглавления TOC (Table Of Contents - таблица содержи-
мого) и временнЫх меток, по которым отслеживается время воспро-
изведения. Канал Q может использоваться также для записи инфор-
мации в ISRC (International Standard Recording Code - междуна-
родный стандартный код записи), предназначенном для представле-
ния сведений о производителе, времени выпуска и т.п., а также -
для разделения дорожки на отдельные фрагменты (всего на звуковом
диске может быть до 99 звуковых дорожек, каждая из которых может
включать до 99 фрагментов),
В конце концов оформленные таким образом кадры подвергаются ка-
нальному кодированию в терминах "пит - промежуток" и записывают-
ся на диск со скоростью 4.3218 Мбит/с.
В начале диска записывается так называемая вводная зона, содер-
жащая информацию о формате диска, структуре звуковых программ,
адресах фрагментов, названиях произведений и т.п.
Общая длительность записи на компакт-диске - 74 минуты, однако
при уменьшении стандартного шага дорожки и расстояния между пи-
тами можно достичь увеличения времени записи - за счет снижения
надежности считывания в стандартном дисковом приводе.
Описанная система носит название CD-DA (Compact Disk - Digital
Audio). Стандартом на звуковые компакт-диски является так назы-
ваемая Red Book ("красная книга"), выпущенная фирмами Philips и
Sony.
----------------------------------------------------------------
- Где можно найти информацию, звуковые программы и файлы?
FIDO:
2:5010/67 (Roma Hmelevsky) - 17.00-05.00 Msk
2:5010/56 - // - - 17.00-05.00 Msk
2:5010/56.2 - // - - 17.00-05.00 Msk
2:5010/58 - // - - 17.00-05.00 Msk
Internet:
aimnet.com
archive.orst.edu
bmsu.simbirsk.su
castrop-rauxel.netsurf.de/homepages/michael.banz/
cs.ruu.nl/pub/MIDI
luth.se
lycos.com
lysator.liu.se
midifarm.com
midilink.nl/flist/206.htm
people.interconnect.com.au/~davidd/download.htm
realaudio.com
rolandcorp.com
www.ru.com/ntonyx/
sfoundry.com
spider.nstu.nsk.su
steinberg-us.com
steinberg.de
teco.quarta.msk.ru
teeri.oulu.fi
th-zwickau.de/~maz/
unina.it/~aminet/dirs/mus.html
uwp.edu
winsite.com/pub/pc
winsite.com/pub/pc
wuarchive.wustl.edu
wustl.edu/~aminet/dirs/mus_midi.html
yamaha.com, www.yamaha.co.jp, www.yamaha.co.uk
----------------------------------------------------------------
Большое спасибо всем приславшим ответы, рекомендации, замечания
и советы для этого FAQ.
Текст FAQ в альтернативной кодировке доступен для FReq на
2:5000/14@FidoNet по имени SOUNDFAQ, текст описания MIDI-интер-
фейса на русском языке в этой же кодировке - по имени MIDIDESC.
Полный пакет FAQ и описаний доступен на
ftp://spider.nstu.nsk.su/pub/text/tech/emhwfaqs.zip и через
страницу FAQ на http://spider.nstu.nsk.su. Пакет распространяет-
ся также по FIDO fileecho XHRDDOCS.
================================================================