Виталий Леонтьев - Музыкальный центр на компьютере
Между тем максимальная частота звуков, записанных на компакт-диске, составляет 22 кГц. (Не путайте эту цифру с так называемой «частотой дискретизации», которая, согласно теории, должна вдвое превышать максимальную частоту звука в записи – вот откуда взялся тот самый стандарт 44 кГц!) Таким образом, налицо явный излишек, который можно удалить (я сознательно опускаю слово «безболезненно»: согласно современным данным, хотя высокочастотные сигналы и не воспринимаются человеческим ухом как слышимые звуки, они тем не менее серьезно влияют на общую картину, «прозрачность» звука). Что при MP3-кодировании с успехом и делается.
Но это – лишь вершина айсберга. В процессе сжатия звука программа-кодер работает с ювелирным искусством хирурга, убирая из звукового потока любые не слышимые человеком сигналы. Например, звуки и частоты, которые «пропадают» для нас, попадая «в тень» более мощного соседнего сигнала. При этом работа проводится максимально осторожно и бережно, чтобы не «повредить» слышимый человеком звук. Любители научной терминологии уже прозвали этот метод «психоакустическим», то есть учитывающим психологические особенности восприятия звука человеком.
Уже первые алгоритмы сжатия (например, Real Audio или Microsoft ADPCM) позволили уменьшить размер файла в 10 и более раз. Однако качество звука, получавшегося в результате сжатия по этим алгоритмам, чаще всего было ниже всякой критики – например, для достижения степени сжатия, сравнимого с MP3, пользователям ADPCM приходилось вдвое снижать как частоту дискретизации (с 44 до 22 кГц), так и разрядность звука (с 16 до 8 бит). Конечно, то, что оставалось от музыки после такой вивисекции, музыкой уже называть было никак нельзя…
Однако уже тогда возможностями «сжатого звука» заинтересовались пираты – так, в 1995 г. в России был выпущен первый в мире пиратский «мультимедийный диск» с полной коллекцией альбомов The Beatles, закодированных именно с использованием формата ADPCM.
Первый «мультимедийный» пиратский дискМонополия ADPCM на рынке «компрессоров» продлилась всего пару лет – уже к 1996 г. вовсю заявила о себе сенсационная разработка немецких ученых, новый формат сжатия под названием MP3.
MP3
Спецификация MPEG 1 Layer III (а именно так «по паспорту» именуется то чудо, которое мы знаем как MP3) появилась на свет в начале 90-х гг. в результате «мозгового штурма», предпринятого сотрудниками немецкого Fraunhofer Institute. Целью изысканий институтских умельцев было создание принципиально нового алгоритма сжатия звуковой информации, при котором качество звука сохраняется на уровне, максимально приближенном к первоначальному. Вначале разработки Института были использованы для сжатия радиорепортажей, передаваемых через спутник с проходившей в то время Олимпиады. Эксперимент прошел столь успешно, что уже через год-другой об MP3 заговорили как об идеальном стандарте хранения и передачи звуковой информации. На MP3 постепенно начали переходить крупные радиостанции. А еще через годик до нового стандарта дотянулись лапки первых пиратов…
С расцветом Интернета интерес к MP3 превратился в настоящую эпидемию – использование этой технологии позволяло распространять по Сети уже не отдельные звуковые фрагменты длительностью до нескольких секунд, но и целые альбомы! Кстати, еще одна интересная особенность стандарта MP3 заключается в возможности сохранять в файле подробную информацию о композиции: с какого альбома и какого артиста она взята, к какому жанру относится… Эта дополнительная информация, облегчающая идентификацию MP3 файлов, называется «тэгом» (tag) и может быть использована практически любыми программами для воспроизведения MP3.
Существуют разные степени сжатия звуковой информации. Характеристиками этих степеней является «скорость» получившегося в результате звукового потока, измеряемая в килобитах в секунду (kbps). Эта величина называется «битрейтом» (bitrate).
Как мы уже говорили, минута звучания обычного оцифрованного звука занимает около 10 Мб, что соответствует звуковому потоку примерно в 1400 кбит/с. После MP3-кодирования битрейт звукового потока составляет от 56 до 320 кбит/с. На практике же для сохранения качества звука используется битрейт в диапазоне от 128 до 256 кбит/с.
Стоит учесть, что в данном случае мы говорим о битрейте для стандартного стереорежима. В случае кодирования в моно для достижения такого же качества звучания нам понадобится битрейт вдвое меньше (ведь каждый канал кодируется отдельно!). Кроме того, в MP3 существует и специальный режим под названием Joint-Stereo – при нем полностью сохраняется информация лишь для одного канала, а для второго записывается лишь дополнительная информация. И это часто оправданно – ведь очень редко в стереозаписи каждый канал содержит уникальную информацию. Обычно же инструменты, звучащие в одном канале, имеются и в другом – правда, уровень их записи чуть тише. Отсюда – вывод: использование Joint-Stereo позволяет достичь чуть лучшего качества звучания по сравнению с тем же битрейтом в «чистом» стерео.
Спектрограмма несжатой звуковой дорожкиСпектрограмма звуковой дорожки, сжатой с битрейтом 128 kbpДля того чтобы сравнить между собой композиции, закодированные с различными битрейтами, сделаем для начала «снимок» обычной, несжатой дорожки. Для этого просто загрузим ее в любой звуковой редактор – например, Adobe Audition, и выведем на экран частотный анализ. Нижняя шкала как раз и обозначает частотный диапазон.
А теперь сделаем такую же спектрограмму уже «сжатой» дорожки (для начала – закодированной с битрейтом 128 kbps). Этот битрейт позволяет получить звук, не уступающий по качеству обычной кассете. Частотная планка при этом, правда, опускается до порога 18 кГц, что хорошо видно на спектрограмме.
Если же вы хотите максимально сохранить частоты воспринимаемого человеческим ухом диапазона, то стоит выбрать битрейт 256 kbps – он показывает гораздо лучший результат.
Стоит ли такая овчинка выделки? Насколько сильно при этом экономится дисковое пространство? Ответ можно получить, произведя простейшую операцию деления первоначального битрейта (1400 кбит/с) на конечный. Однако для наглядности составим маленькую табличку.
Кстати говоря, у второго столбца есть и еще одно значение: поскольку время звучания стандартного компакт-диска составляет около часа, показатель степени сжатия примерно соответствует тому количеству альбомов (часов музыки), которое может уместиться при записи получившихся MP3-файлов на CD.
Помимо постоянного битрейта при MP3-кодировании может использоваться и переменный. Вспомним, что MP3-файл состоит из отдельных отрезков – «фреймов» длительностью 1/100 секунды. Именно благодаря такому устройству MP3-файл можно воспроизводить одновременно с его скачиванием из Интернета, в «потоковом» режиме. Во время кодирования с переменным битрейтом программа-кодировщик определяет, какой именно битрейт стоит использовать для кодирования именно этого фрейма, в зависимости от его частотных характеристик. Таким образом, каждую секунду битрейт меняется добрую сотню раз в диапазоне от 56 до 320 кбит/с – хотя за пользователем остается право ограничить как верхний, так и нижний порог битрейта.
Существует две основных модификации переменного битрейта: VBR и ABR. В первом случае вы можете выбрать лишь усредненное значение битрейта (например, 192 kbps), а во втором еще и четко определить верхнюю и нижнюю границу. Например, 256 kbps (при нижней границе 192 kbps).
Использование переменного битрейта позволяет в некоторых случаях значительно улучшить качество MP3-композиции – ведь в любой композиции найдется немало мест, которые можно закодировать с минимально возможным битрейтом. В других же случаях, наоборот, планку не грех и приподнять…
Наконец, необходимо сказать пару слов о программах, которые и осуществляют кодирование в MP3 – кодеках: их тоже существует несколько видов. Официально признанным стандартом является оригинальный кодек от Fraunhofer Institute – именно он включен в комплект поставки самых известных мультимедийных «комбайнов» с возможностью MP3-кодирования.
Однако независимые разработчики гораздо чаще (и совершенно справедливо) отдают предпочтение альтернативному кодеку, созданному группой энтузиастов на основе оригинального алгоритма сжатия. Этот кодек, он уже упоминался, называется LAME, и распространяется он в виде отдельного файла-«библиотеки» DLL. Его последние версии вы всегда сможете найти по адресам:
? http://lame.sourceforge.net
? http://mitiok.cjb.net
С кодеком LAME работают самые популярные «рипперы» – CDex и ЕАС (нужная «библиотека» уже включена в их дистрибутив. И это понятно – LAME обеспечивает гораздо лучшее качество, чем оригинальный кодек Fraunhofer (особенно на высоких битрейтах). Правда, и кодирует он значительно медленнее – хотя сегодняшние компьютеры тратят на кодирование в MP3 в 10 раз меньше времени, чем звучит оригинальная «дорожка».