Сжатие аудио файлов… Насколько все плохо?

Объемы HD накопителей давно измеряется терабайтами. Диск на 1TВ вмещает в себя несжатой музыки почти на 3 месяца непрерывного прослушивания.

Если  вы будете слушать по часу музыки каждый день, — то 1TВ хватит более чем на 5 лет. При этом, все эти пять лет вы будет слушать, только то что еще не слушали. А в продаже ведь есть диски и на 10TВ.

Цены на диски вполне доступные. Порядка того, что попросят с вас за одно пластмассовое изделие (грампластинку). Но свобода лучше не свободы тем, что каждый может выбрать, то что он хочет:

Вопрос о том насколько плохо для звука годятся сжатые файлы, следует начинать с того, а какой формат и поток данных следует считать качественным.

Этому вопросу не особо принято уделять внимание. Так как он не очень удобен. Под несжатым форматом обычно подразумевают стандарт 44,1 кГц,16 бит с битрейтом 1411 кбит/с. (10,6 Мб на одну минуту)

Презентовала его в 1979 г. Philips. Которая и разработала всем известный звуковой компакт-диск. В последствии к разработке подключилась Sony.

На 1979 г. это было действительно круто. В том году вьетнамскими войсками был свергнут режим Пол Пота в Камбодже. В пустыне Сахара выпал снег. А Брежневу присудили Ленинскую премию по литературе за создание трилогии — «Малая земля», «Возрождение» и «Целина».

Но пошло более 40 лет. Формат сам по себе не особо современный!

Поток в 44,1 кГц,16 бит сейчас даже домашние студии на квартирах не жалуют.

Базовым стандартом для студий звукозаписи  является 24 / 32 бит в 192 кГц. При этом не существует проблемы увеличить этот битрейт хоть в 100 раз. Ограничений на поток нет. Скорости современных процессоров и объемы памяти легко могут справляться с этой задачей.

Посмотрим хотя бы в сторону бытового видео. Не профессионального, — бытового! Это на порядки большие потоки. К примеру у видео в 4K поток доходит  51 000 кбит/с. (370 Мб за одну минуту).

Причина по которой студии звукозаписи не увлекаются повышением потока — необходимости в этом нет. Повышение битрейта выше 32 бит в 192 кГц, не имеет ни каких, осязаемых кем либо, результатов.

С другой стороны и потребители тоже особо не рвутся слушать музыку с высоким битрейтом. Скачать сериал весом в 50 Гб и битрейтом 11 Мбит/с, это они понимают зачем.

Но вот как дело доходит до музыки, возникает большая потребность в теоретическом обосновании, зачем им качать аудио файлы с потоком выше 0,32 Мбит/с (массовый Мp3).

Действительно, разницу в видео 360×240 и 4К могут заметь даже большинство инвалидов по зрению.

Но для выявлении отличий в звучании аудио файлов с потоком 0,32 Мбит/с и в 10 -100 раз больших, потребуется много трудолюбия и большая теоретическая подготовка.

Не будем напрасно тратить время. Mp3 имеет схожие алгоритмы, что и jpeg. Они и называются даже очень похоже.

Но jpeg можно увидеть. А как известно — лучше один раз увидеть чем сто раз услышать.

И вот вам первое тестовое задание.Требуется определить какая из двух картинок имеет большее сжатие. Размер одной из них 69 КВ, другой 124 КВ.

Картинка 1
Картинка 2

Для чистоты эксперимента — проголосуйте, а потом посмотрите ответ под спойлером.

Какая картинка более качественная?
узнать вес картинок

1 картинка 124 КВ,

2 картинка 69 КВ.

Дело в различных алгоритмах сжатия и представления.

1 картинка, — высокое качество сжатия при меньшем размере.

2 картинка — очень низкое качество сжатия при большем размере.

Общее, что объединяет все mp3 треки распространяемые в сети, — их делал неизвестно кто, неизвестно когда и неизвестно зачем.

Если некий человек, брался цифровать в Mp3 из несколько тысяч компакт дисков, то делал он это не по тому, что ему этот процесс очень нравился. В большинстве случаев он хотел сделать это максимально быстро. Потому как сделал дело, — получил деньги и пошел домой.

Скорость счета напрямую зависит от качества используемых алгоритмов. И очень различных установок. Разница в скорости счета может отличаться в сотни раз.

Вычислительные мощности компьютеров начала века были таковы, что тысячу компакт дисков в предельном качестве, нужно было цифровать тысячи часов. И максимальные настройки при массовом грайбенге никто не ставил.

Сам по себе формат mp3 очень длительное время считался пиратским. И производители СД-плееров и муз. центров его около десятилетия бойкотировали. Да и сами СД-диски с которых делали mp3, в основной свое массе были все пиратские, и порой очень и очень сомнительного качества.

Оценивать качество звука на основании прослушивания файлов скаченных из интернета занятие бессмысленное. Мы не знаем, кто их делал и как. В большинстве случаев mp3 файлы скаченные из разных источников будут сильно отличаться сами по себе.

Если хочется поэкспериментировать со сжатием — сами пересчитайте файлы. Но на приличном софте. Железо на процесс преобразования не влияет. Это цифра. Взяли с диска одни нули и единицы — посчитали в другие нули и единицы.

Для пересчета в различные форматы, можно взять нормальный аудиоредактор, к примеру Sound Forge. Хуже, но сойдет и проигрыватель foobar2000, у которого встроен функционал конвертации различных файлов. И жмите файлы с максимальными настройками.

Для тестирования качества звучания сжатых фалов, не используйте академическую музыку!

Академическая музыка обуславливает относительно простой гармонический состав. Преобладание консонансов продуцирует меньшее количество побочных гармоник: например, для квинты (интервал, в котором основные частоты двух звуков различаются в полтора раза) общей для двух звуков будет каждая вторая гармоника, для кварты, где частоты различаются на одну треть — каждая третья, и т. п.

Классическая музыка намного легче сжимается, прежде всего, чисто математически. Математическое сжатие работает за счёт устранения избыточности (описывая похожие фрагменты информации с использованием меньшего количества битов), а также за счёт предсказания (т. н. предикторы предсказывают поведение сигнала, а затем кодируется только отклонение реального сигнала от предсказанного).

Не говоря уже о относительно небольшой средней громкости классических треков и о часто встречающихся промежутках тишины, для кодирования которых информация практически не требуется.

Часто, можно сжать БЕЗ ПОТЕРЬ, сольную инструментальную музыку до битрейтов ниже 320 кбит/с .

У электронной музыки шумовые составляющие имеют минимальную избыточность, и вместе с резкими скачками (пилообразными импульсами) являются крайне непредсказуемыми сигналами (для кодеров, которые «заточены» под естественные звуки, ведущие себя совершенно иначе), прямое же и обратное преобразование Фурье с отбросом отдельных гармоник психоакустической моделью неминуемо даёт эффекты пре- и пост-эхо, слышимость которых кодекам не всегда удается корректно оценить.

Если ставится задача в отлавливании разницы сжатых-несжатых треков, изначально отбирайте фонограммы которые позволяют сделать это максимально проще.

Берите для тестирования треки с огромным количеством разных инструментов (а не 30 дубль скрипок). Большой плотностью. С ярко сформированной и выраженной стереофоничностью. С множеством артефактов. И т.д.

Большая часть таких экспериментов, у подавляющей части экспериментаторов, приводит к одному и тому же выводу. При особом напряжении, удается угадывать какой трек есть какой. Но очень и очень редко. В слепом эксперименте эта цифра обычно близка к 50%.

Для того что бы ваши тестовые опыты имели осмысленность, предлагается производить эксперименты на 2-5 моделях разных акустических системах.

Послушали набор сжатых-несжатых файлов на одной акустике. Потом переходим слушать эти же файлы на другую пару АС. и т.д.

Какой бы ценовой группы не был бы ваш набор акустических систем или наушников, вы неизбежно придете к очевидному выводу. Возможно разница между сжатыми и несжатыми файлами существует. Возможно она и не особо существует. Возможно ее нет.

Но в сравнении с тем как запредельно различно звучат все акустические системы сами по себе, относительно друг друга, эта разница не имеет практического смысла.

Разные АС (даже топ-цены) звучат абсолютно по-разному. А сжатые или несжатые файлы вы на них слушаете, ни чего принципиально не меняет. Первичное значение имеет, как сами по себе звучит эти наушники или АС.

Ситуации приблизительно аналогично тому, — почему никто не ставит на ПК «обои» без сжатия. Или не смотрит каталоги картинок без сжатия.

Качество картинки и удовольствие от их просмотра, — задается качеством матрицы монитора. Это хорошо понимает всякий, кто переходил с TN на IPS матрицы.

Времена когда носители диктовали качество звучания остались в прошлом веке. Основное качество находится в оборудовании которое делает конечный вывод. В усилительно- акустическом тракте. Особенно АС. И конечно же конкретной комнате. Ее акустической характеристикой и местом расположением АС в ней .

Только передвигая акустику по комнате, вы будете получать совершенно различные варианты ее звучания. Эти различия будут очевидны и будут слышны даже инвалидами по слуху. И без преувеличения, могут поднять ощущаемый ценовой класс аудиосистемы в 3-10 раз.

Возьмите большую подушку в руки. И прямо во время прослушивания поместите ее за голову. Вы удивитесь на сколько звучание станет резко другим. Разница будет не идти ни в какое сравнение с тем, — сжатые или несжатые вы файлы слушаете.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Рейтинг
( 26 оценок, среднее 4.73 из 5 )
AudioArt.ru
Комментарии: 24
  1. Александр

    Слушаю разножанровую музыку: от классики до авангарда. Со сжатыми форматами наэкспериметировался от души ещё лет 15 назад. Кому то этого достаточно. А я, к сожалению, слышу разницу между СД разных производителей одного исполнителя…
    Почему к сожалению? Потому что это бесконечная, порой изматывающая гонка в поисках идеала. Но зато, когда к
    Нему приближаешься, такой кайф. Как говорит один мой знакомый: поставил утром Pink Floyd, и день пропал… Поэтому я никогда не слушаю музыку до обеда.

    1. Андрей

      У меня есть пара альбомов Флойдов в пяти — шести вариантах записей, и да. Я слышу разницу. Не так чтобы существенно, но компрессию на 320 кб\сек точно услышу.

  2. Ювелир
  3. Максим

    недавно скачал музыку чтобы слушать в 320 битрейде. Был приятно удивлен качеством. Сам являюсь поклоником cd дисков, конечно, если напрячь уши, разниц слышна..еле-еле… Но зато в сети можно найти любые записи 320 битрейда, записать на диск и наслаждаться. А не отдавать за китайский парлофон несколько тысяч рублей.
    Авторам статьи огромное спасибо. Очень познавательный сайт.

    1. Денис

      Битрейд, битрейд… Где же я это слышал? Вспомнил! Смотрел Game of Thrones с субтитрами, там постоянно кто-то кого-то betrayed.
      А в потоковых файлах битрейт. Бит это единица информации, рейт — темп, размер.

  4. Иван

    «Времена когда носители диктовали качество звучания остались в прошлом веке.»
    Ой-ой-ой! Какое заблуждение!
    То, что вами предлагается оценивать, как качество звука при высокой его плотности — чаще всего и есть искажения самого источника сигнала. Конечно речь не идет о точности записи нолей или единиц. Речь идет о конечном звучании самой фонограммы. И слушателю совершенно неважно, кто вносит непосредственно искажения. Поведение МП-3 даже несколько любопытно. Когда существуют некие призвуки, вызванные неким «творчеством» «колдуна» звукозаписи, то преобразование в МП-3 снижает их присутствие в самом результате. Сам МП-3 служит неким фильтром. Звук результата отличается от оригинала, но в правильную сторону. При сравнении разница слышна. Чем выше качество записи оригинала, тем меньше она при сравнении с результатом преобразования.

  5. Михаил

    Не соглашусь c автором по примеру картинки в jpeg — он немного слукавил. Разрешение первой 444*263, второй 1111*658 пикселей — разница около 84%. Т.е первое изображение по разрешению имеет 16% от второго. Браузер растягивает до необходимой величины и сглаживает изображение №1 (оно от этого выглядит замыленным). В глаза бросается отсутствие значительной части изображения, да хоть в bmp (png) их сохраняй. Если вывести эти 2 картинки в оригинальном разрешении — поймете о чем я.
    Перейдя на звуковую аналогию — это как послушать музыкальную композицию, записанную PCM с частотой дискретизации 8 кГц 8бит а затем ее же с 48 кГц 24 бит — какой трек звучит лучше? Алгоритм сжатия тут ни при чем!!!
    По поводу сжатия аудио — у меня на портативном плейере немного музыки сжатой из исходников (PCM 24 bit 48 kHz) в opus со средним битрейтом 192 kbit/s (хотя мне чаще всего хватало бы и mp3 44,1 кГц с тем же или более низким битрейтом). Голос mono + компрессия — mp3 80-128 kbit/s, либо aac 16кГц ABR 32 kbit/s, либо opus ABR 24-32 kbit/s (mp3 на низких битрейтах дает сильные артефакты, потому его редко использую для голоса). После последнего обновления прошивки плейера — на голосе с низкими битрейтами проявились артефакты по bluetooth, потому и перешел с aac на opus (размышления были таковы: накапливаются артефакты сжатия, ресемплинг, кодеки исходника + bluetooth). В итоге заметил, что opus приятней, но ситуация артефактов с bluetooth на низких битрейтах (16-32кбит/с) не решилась.
    На ПК вопросов нет, CD качество меня вполне устраивает.
    Раздражали лет 20-25 назад не замаскированные шумы на старых CD-rom. Или от электропривода или синхроимпульсы какие… Но было слышно при снятии сигнала с аналогового выхода CD приводов выпуска 90х годов :( В остальном, как со стороны слушателя — все нормально.

    1. Михаил

      Опечатка — имел в виду не ABR а VBR.

    2. AudioArt.ru

      «Разрешение первой 444*263, второй 1111*658 пикселей»
      Так так и указывается
      1 картинка, – высокое качество сжатия при меньшем размере.

      2 картинка – очень низкое качество сжатия при большем размере.

      А смотреть картинки , для сравнения, можно при любом размере окна броузера. Можно же сжимать само окно.

      1. Михаил

        1 “Размер одной из них 69 КВ, другой 124 КВ.”
        2 “Разрешение первой 444*263, второй 1111*658 пикселей”
        В первом случае размер — это объем, занимаемый файлом на носителе.
        Во втором, размер — ширина и высота изображения в пикселях.
        Не вводите людей в заблуждение.
        И еще раз повторю — к сжатию этот пример отношения не имеет!
        “Так так и указывается” — где?

        1. AudioArt.ru

          «указывается – где?»

          1 картинка, – высокое качество сжатия при меньшем размере.

          2 картинка – очень низкое качество сжатия при большем размере.

          1. Михаил

            Мы спорим о разных вещах.
            Я ориентировался на название статьи.

            Тест на качество сжатия я считаю корректным, если как исходник использовалось одно и то же изображение и разница состояла в том, что жалось оно на разных настройках кодека.
            В статье же изначально картинки разные! что меня и возмутило.

            По поводу опроса — абстрагируясь от сжатия — попробуйте сохранить картинки с исходным и урезанным размерами, допустим в bmp (без сжатия). Визуально — получите тот же результат и те же результаты голосов. Да отличие будет в объемах. Объем файла большей по разрешению картинки ожидаемо будет больше.

            Что же сделали вы (что наблюдаю в изображениях):
            Взяли исходник, сохранили с применением к нему resize, получили 2 файла. Исходник и уменьшенное.
            То, к которому применили resize (изначально «худшее» по качеству), выбираем в Adobe фотошоп сохранить как jpeg, качество максимум (качество 100%). И берем исходное, больших размеров по ширине и высоте, сохраняем в jpeg, качество около 20% (не знаю какое вы выбрали на самом деле). Получили то, что мы все наблюдаем. Т.е. 2 изображения, одно просто сильно сжатое в jpeg, другое после ресайза и почти без сжатия.

            Применимо к звуку — представим временную характеристику как: разрядность — высота, частоту примем за длину. Проведем то же что случилось с картинкой.
            Вы сделали что-то похожее на:
            Открываем исходный файл PCM 24 bit 48 kHz, в редакторе сохраняем как второй файл PCM 8 kHz 8bit. Жмем исходник кодеком mp3 с битрейтом (для примера) 96 кбит/с, а второй файл преобразуем в mp3 с битрейтом 320кбит/с.
            Разница получится как с изображениями — худший файл, что изначально содержал меньше информации, но сжатый кодеком с большим битрейтом будет весить больше, чем исходник с отличным качеством, но сжатый с меньшим битрейтом.
            Думаю — моя аналогия понятна?

            Может вы это и хотели показать? Типа меньший файл без сжатия занимает больше места чем пожатый большой…

            Есть и другие мелочи. Результат зависит от того как проводилась интерполяция изображения — по соседним пикселям или другие математические алгоритмы, с лучшими результатами. Их подвиды и различные реализации, например «суперсемплинг» с округлением границ пикселей до ближайшего целого числа пикселей и без и т.п. Сохраняем пропорции или нет. Манипуляция с цветами, мало заметными на глаз, маскировка резких границ шумами и т.д. и т.п.
            Так же сжимаемость от исходного материала зависит — просто чистый однородный фон (тишина) либо множество рандомных элементов типа белого шума.
            Короче факторов много.

            1. AudioArt.ru

              «Тест на качество сжатия я считаю корректным…В статье же изначально картинки разные!»

              Картинки одинаковые. У них разные геометрические размеры. И их можно смотреть и сравнивать при любом размере окна броузера. Тот факт, что броузеры лучше показывают картинки с большим геометрическим размером и меньшим сжатием чем наоборот… претензии шлите разработчика броузеров. Мы тут не причем.

              Закладываемая мысль статьи — больше или меньше не всегда значит лучше или хуже. Важны условия.

              1. Михаил

                Можно показать спичку и сказать, что это тот брусок, что вы видели ранее. Пусть и размерами поменьше… ну немного подрезали и все. И всего-то «у них разные геометрические размеры», не будем придираться к мелочам.
                А то, что вы видите их по разному, и воспринимаете как разные объекты так все претензии к вашему зрению и восприятию.
                А что не так? Спичка из той же древесины и пропорции сохранены.
                Как и то, что картинки «одинаковые».
                Первое изображение — это продукт обработки второго. Но, в результате «картинки одинаковые».
                Считайте, что вы меня убедили :)
                Правда себя убедили похоже раньше.

  6. Михаил

    Насколько все плохо?
    Плохо то, что исходные аудиоматериалы нам могут быть не доступны!
    Ходит множество копий в различных форматах, какой выбрать?
    Мне не нравится что люди, даже профессионалы в области аудио, не понимают разницу между сведенным оригиналом записи, до мастеринга и записью на мастер-диске.
    Как не понимают того что на выходе после мастеринга для CD, винила и магнитной ленты — получим 3 различных файла. Какой из них лучше? И как человеку непонимающему доказать, да и надо ли доказывать, что у файлов есть разница?
    Например к некоторым инструментам на CD можно применить компрессию (выровнять, поднять динамический диапазон) навалить баску, винил же это убьет. На ленте звук компрессировать и задрать высокие частоты. Фильтровать низкие частоты и перевести их в моно, обрезать все что выше 16-18кГц и ниже 30-35 Гц для винила. Для цифровой записи имет смысл прогнать через шумоподавитель, убрать фоновый шум в паузах. И это лишь малая часть всех манипуляций, что претерпевает аудиоматериал прежде чем дойти до пользователя. Что я чувствую, когда меня пытаются убедить, что разница отсутствует и там и там запись альбома «X», группы «Y» и вообще файлы одинаковы?
    В настоящий момент большинство перешло на цифру, кто в здравом уме будет крутить винил или кассеты? ;)
    С другой стороны — почему бы и нет? Иногда хочется послушать оригинал, без украшательств, компрессии и гипертрофированного баса…

    Многие не понимают разницу между оригинальным CD и CD купленным с лотка на базаре.
    Звук на «оригинальном» CD — как вариант подвергся сведению, минимально необходимой обработке и ресемплингу, перед тем как был записан.
    Какие пути прошел звук, перед тем как был записан на «пиратский» CD? В лучшем случае — сняли копию с оригинального CD, 1:1, упаковали в контейнер wav, передали через сеть интернет и записали с этого файла «пиратский». Тогда особой разницы нет. Может покупатель даже выиграет в цене — «пиратский» зачастую будет дешевле.
    Но «пираты» могли создать запись взяв MP3 файлы с какой нибудь торрент раздачи. Как аудиофайлы попали в раздачу и сколько цепочек переконвертаций претерпели?
    Многим невдомек, что качественный рип в mp3 со средним битрейтом будет звучать лучше, чем запись «пиратке». Даже если кажется, что композиции на одном носителе и на другом ничем не отличаются — это может быть не так!

    О качестве материала надо думать перед тем как начинать работать с ним! Заранее продумать всю цепочку преобразований материала для минимизации потерь.
    Сжатие второстепенно.
    Производить сжатие, если уж оно необходимо — следует последним этапом в обработке звука.
    Тогда потери и искажения в результате сжатия будут минимальны и по сути настолько малы по сравнению со всей предыдущей цепочкой преобразований, что ими можно просто пренебречь. При условии выбора качественного алгоритма сжатия и оптимальных настроек кодека для каждого конкретного случая.

  7. Евгений З.

    Может не совсем по теме , а что если в качестве носителя использовать видеомагнитофон?

    1. AudioArt.ru

      В прошлом веке так делали. Для больших архивов. А сейчас то зачем?

  8. Евгений З.

    Хороший бабинник дорогое удовольствие , а видик валяется без дела , а по качеству записи он вроде как на уровне 38 скорости , а может даже и лучше.

    1. AudioArt.ru
  9. Стив

    1 картинка 124 КВ,

    2 картинка 69 КВ.

    1 картинка, – высокое качество сжатия при меньшем размере? Она наоборот весит больше, судя по описанию!

    2 картинка – очень низкое качество сжатия при большем размере. Где этот больший размер, если указан всего 69КБ, что в два раза меньше первой, мутной?

    Исправьте опечатку.

    1. AudioArt.ru

      Больше физически (в пикселях).

  10. Леонид Ю.

    В продаже и на торрентах есть музыка с различными схемами сжатия в mp3. Это «stereo» и «joint stereo». Я стараюсь выбирать всегда первый вариант с битрейтом 320 kbps. Эвучит лучше!

  11. Денис

    Не знаю, можно ли мне рассуждать о качестве алгоритмов сжатия, ведь я, признаться, уже не молод и не слышу звуков выше 16 кГц (если это не отдельные звуки на аппаратно увеличенной громкости). Поэтому полностью согласен с идеей статьи: алгоритмы сжатия — умнички и работают на совесть, если не злоупотреблять, а на звук больше влияют колонки и окружение. Так влияют, что иногда просто беда — хочется слушать музыку в одной комнате, а звучит она лучше в другой. Настолько лучше, что даже сжатие слабее влияет.

  12. Skver

    Отличная статья. Во многом согласен. Сам я слушаю исключительно лослес. Предыдущая статья про Макаревича очень зашла

Добавить комментарий

Спасибо!

Теперь редакторы в курсе.

© При использовании материалов AudioArt.ru обязательным условием является наличие открытой гиперссылки на исходную страницу