Глава 23. Способы представления и записи аудиоданных

А. Прокудин, Р. Смирнов

Содержание

Форматы сжатого аудио
Некомпрессированные данные
CDDA
MIDI
Трэкерная музыка
Музыкальная нотация

Форматы сжатого аудио

А. Прокудин

Общее понятие о форматах компрессированного аудио

Цифровой век диктует свои законы, согласно которым, в частности, аудио- и видеоинформацию удобнее хранить и передавать в сжатом виде. Коротко остановимся на принципе сжатия звука.

Как известно, музыка, которую мы слушаем, состоит из набора сигналов, каждый из которых имеет свои характеристики, в том числе громкость. Слуховой аппарат человека устроен так, что мы не различаем или плохо различаем слабый (негромкий) сигнал на фоне сильного (громкого) сигнала. Этот принцип и ложится в основу современных средств сжатия (компрессии) звуковых данных.

Если представить, что сигнал заданной длины разбивается на много частей, и каждая часть обрабатывается таким образом, чтобы более слабый сигнал, трудно различимый на фоне сильного, попадает “под нож”, а более сильный сигнал остаётся, то это и будет приблизительной моделью компрессии аудиосигнала. Соответственно, уровень сжатия данных будет зависеть от того, на сколько именно частей (сэмплов) будет разбиваться исходный файл, и как много слабых сигналов в каждом отдельно взятом сэмпле будет удалено (каков будет битрейт — количество битов в сэмпле заданной длительности).

Первые версии кодеков для сжатия данных действовали достаточно грубо — они просто вырезали слабый сигнал и не считались с типом музыки, поэтому достаточно энергичная музыка, лишённая особых нюансов, в компрессированном виде звучала ничуть не хуже оригинала, в то время как более сложная акустическая и классическая музыка попросту теряла всю окраску и глубину.

В результате этого был осуществлён переход к более интеллектуальному алгоритму компрессирования — с переменным битрейтом. В зависимости от музыкальной фактуры, а именно соотношения слабых и сильных сигналов, кодек меняет количество вырезаемых слабых сигналов, так что мы слышим более правдоподобный звук.

Очевидно, что при более высокой частоте сэмплирования (выборки) в 44.1-48.0 КГц и более высоком битрейте (от 160-192 Кбит/сек) мы получим более соответствующий оригиналу звук, чем при частоте сэмплирования в 22 КГц и битрейте 64 Кбит/сек. Однако размер конечного компрессированного файла прямо пропорционален частоте выборки и выбранному битрейту, и именно этим зачастую руководствуются люди, распространяющие музыку в компрессированном (сжатом) виде.

Следует также помнить о том, что большинство алгоритмов также “вырезают” верхнюю часть слышимого диапазона, начиная приблизительно с 15 КГц.

В настоящее время существует несколько оригинальных алгоритмов сжатия, большинство из которых поддерживаются в Linux.

Ogg Vorbis

Ogg Vorbis — это полностью открытый аудиоформат, позволяющий хранить и передавать аудиоинформацию с высоким качеством звука (частота сэмплирования 44.1-48.0 КГц, 16+ бит, полифония (многоканальный звук)) и битрейтом, варьирующимся от 16 до 512 Кбит/сек на канал. При этом количество обрабатываемых каналов может достигать 255. Это позволяет поставить Vorbis в один ряд с MPEG-4 audio (AAC и TwinVQ), WMA и PAC — и явно выше, нежели MPEG-1 audio layer 3 (MP3).

Ogg Vorbis также является поточным форматом, что позволяет использовать его, к примеру, для интернет-вещания — тем более, что этот формат поддерживается Icecast. Особенности алгоритма кодека позволяют получать конечный файл меньшего размера, чем файлы MP3 аналогичного качества.

Для воспроизведения используется консольная программа ogg123, для кодирования — oggenc; к обеим существуют графические оболочки. Подробнее о тех и о других — в следующих разделах.

MP3

MP3 или MPEG-1 audio layer 3 является на сегодняшний день наиболее популярным форматом для хранения и передачи данных в компрессированном виде. Этот формат был разработан в Frauenhofer Institut, Германия. Однако, несмотря на повсеместную распространённость формата, не следует забывать, что патент на алгоритмы кодирования и декодирования MP3 принадлежит одной компании, поэтому конечный пользователь в любой момент может оказаться в весьма невыгодных условиях, как это уже произошло с разработчиками свободных средств компрессии в данных в MP3. Подробности об условиях лицензирования вы можете получить на сайте разработчиков.

Таблица 23.1. Разработчики предлагают для ознакомления следующие характеристики кодека.

Качество звукаДиапазон частотРежимБитрейтКоэффициент сжатия
“телефонный” звук2.5 КГцмоно8 Кбит/сек96 : 1
Лучше коротковолнового радио (short-wave radio)4.5 КГцмоно16 Кбит/сек48 : 1
Лучше СВ-радио (средние волны, AM) 7.5 КГцмоно32 Кбит/сек24 : 1
На уровне FM-радиостанции11 КГцстерео56...64 Кбит/сек26...24 : 1
Близкое к качеству компакт-диска15 КГцстерео96 Кбит/сек16 : 1
Качество компакт-диска> 15 КГцстерео112..128 Кбит/сек14..12 : 1

В Linux существуют как средства кодирования, так и средства декодирования файлов в формате MP3. Подробнее о них вы можете прочитать в соответствующем разделе.

WMA

Формат WMA является закрытой разработкой компании Microsoft. Ему не удалось занять сегмент рынка, сравнимый с таковым у MP3, однако определённую популярность несмотря на выявленные серьзные проблемы с безопасностью он имеет. В настоящий момент воспроизводить файлы в формате WMA умеет только универсальный проигрыватель MPlayer. Свободных средства сжатия данных по этому алгоритму не существует и появление их маловероятно.