Tel. (+49) 0221-801 36 75
      (+49) 0174-700 95 11
Fax (+49) 0221-801 36 76
 
 
  MPEG

 

 
Добавить в Избранное
 

Moving Picture Expert Group

MPEG-1

Стандарт MPEG-1 (1992г.) предназначен для записи видеоданных на компакт-диски (CD-ROM, VideoCD) и передачи ТВ изображений по сравнительно низкоскоростным каналам связи (скорость цифрового потока до 1-3 Мбит/с). В нем используется стандарт развертки с четкостью, в 4 раза меньшей, чем в вещательном телевидении: 288 активных строк в ТВ кадре и 352 отсчета в активной части ТВ строки. Субъективная оценка качества ТВ изображения в зависимости от скорости передачи данных показывает, что стандарт MPEG-1 можно эффективно использовать при кодировании видеоданных до скорости 3,5 Мбтит/с, т.к. в интервале скоростей от 1,5 до 3,5 Мбит/с увеличение скорости передачи видеоданных сопровождается адекватным улучшением качества ТВ изображения. Однако дальнейшее повышение скорости передачи уже не ведет к заметному улучшению качества, и при скорости передачи видеоданных выше 3,5 Мбит/с лучшее качество изображения получается при кодировании по стандарту MPEG-2. Стандарт MPEG-1 имел врожденные недостатки. Например, однотонная стена всегда оказывалась нарисованной из рассыпающихся квадратиков, вылезали квадраты и на сценах, в которых много действий. Известны факты, что при издании VideoCD версий фильмов приходилось урезать в несколько раз многие сцены с большим количеством движений, взрывов и т.п. Таким образом, не получилось никакого преимущества по сравнению с VHS и сейчас MPEG-1 потихоньку загнивает, а для телевещания - распространения вообще не получил.

Однако, есть и некоторые плюсы стандарта VideoCD: чистота цвета всегда лучше чем на VHS, даже лицензионных и записанных на хорошей ленте; кроме того, не портится носитель (при аккуратном обращении), нет эффекта "запиливания" ленты и нет проблем с помятой или порвавшейся пленкой; качество звука (Dolby Stereo) вообще не идет в сравнение с качеством записи на ленте, особенно по уровню шума; опять же, меньшие габариты и более эстетичный вид... К недостаткам следует отнести некоторое неудобство, связанное со сменой диска на середине фильма (если у Вас не многозарядный дископриемник на проигрывателе). Что до сравнения цен, то на
сегодняшний день лицензионная видеокассета стоит около 130-150 руб. а VideoCD можно приобрести за 150-170руб. Лично я уже видеокассеты не покупаю, а стараюсь брать VideoCD, которым по совокупности параметров отдаю предпочтение перед видеокассетами. Способов же проигрывания и просмотра VideoCD достаточно много. Компьютерный вариант, проигрыватели для Karaoke, Video CD проигрыватели (не говоря уже про DVD-проигрыватели), игровые приставки Sony Play Station с дополнительным
адаптером, портативные CD/Video CD плейеры и т.д. Для программного просмотра VideoCD на компьютере Вам потребуется декодер XingMPEG.

Существуют программные средства, позволяющие самостоятельно осуществлять процесс кодирования видео сигнала непосредственно в цифровой поток стандарта MPEG-1. Наибольший интерес, на мой взгляд, представляет возможность конвертирования фильмов, записаных на дисках DVD (по стандарту MPEG-2) в цифровой поток MPEG-1.

MPEG-2

Работы над стандартом MPEG-2 начались в 1990г. Разработанный специально для кодирования ТВ сигналов вещательного телевидения, он позволяет получить высокую четкость ТВ изображения, соответствующую Рекомендации 601 МККР: 576 активных строк в кадре и 720 отсчетов в активной части строки. Стандарт предназначен для каналов связи, обеспечивающих скорость передачи данных 3-10 Мбит/с для обычного телевизионного стандарта и 15-30 Мбит/с для телевидения высокой четкости (ТВЧ). Проект стандарта MPEG-2 вышел в начале 1994г., а в 1995г. были выпущены последние документы. В стандарте обеспечивается совместимость "вперед", т.е. MPEG-2 декодер может декодировать поток данных формата MPEG-1.


Общие положения.
Стандарт MPEG-2 состоит из трех основных частей: системной видео и звуковой. Системная часть описывает форматы кодирования для мультиплексирования звуковой, видео- и другой информации, рассматривает вопросы комбинирования одного или более потоков данных в один или множество потоков, пригодных для хранения или передачи.

Системный уровень выполняет пять основных функций:
  • Синхронизация нескольких сжатых потоков при воспроизведении
  • Объединение нескольких сжатых потоков в единый поток
  • Инициализация для начала воспроизведения
  • Обслуживание буфера
  • Определение временной шкалы
Видео часть стандарта описывает кодированный битовый поток для высококачественного цифрового видео. MPEG-2 является совместимым расширением MPEG-1, он поддерживает чересстрочный видеоформат и содержит средства для поддержки ТВЧ.

Звуковая часть стандарта MPEG-2 определяет кодирование многоканального звука. MPEG-2 поддерживает до пяти полных широкополосных каналов плюс дополнительный низкочастотный канал и(или) до семи многоязычных комментаторских каналов. Он также расширяет возможности кодирования моно- и стереозвуковых сигналов в MPEG-1 за счет использования половинных частот дискретизации (16;22,05 и 24 кГц) для улучшения качества при скоростях передачи 64 Кбит/с и ниже.

Применение стандарта MPEG-2 в вещательном телевидении позволяет значительно снизить скорость передачи видео- и звуковых данных и за счет этого передавать несколько цифровых программ в стандартной полосе частот радиоканалов эфирного, кабельного и спутникового телеизионного вещания. Например, большие преимущества MPEG-2 дает в системах спутникового телевизионного вещания. Сжатие позволяет передать по одному стандартному каналу от одного до пяти цифровых каналов при профессиональном уровне качества видеосигнала. Важно и то, что цифровые каналы по сравнению с аналоговыми предоставляют более широкие возможности для передачи дополнительной информации.

Пропускная способность стандартного спутникового канала при полосе 32 МГц составляет 55 Мбит/с. Для вещания с профессиональным качеством необходима скорость цифрового потока 5-8 Мбит/c. Таким образом, один стандартный спутниковый канал позволяет транслировать 4-5 телевизионных программ. Возможно использование цифровых каналов с более высокими коэффициентами сжатия. При этом в одном стандартном канале передается до десяти видеопрограмм. Однако, в этих случаях заметна потеря качества изображения.


Совместимость стандартов MPEG-1 и MPEG-2.
MPEG-2 совместим с предыдущим стандартом MPEG-1 "вперед" и "вверх" по видеопотоку. Вообще говоря, при переходе к новому стандарту возможны следующие виды совместимости:
  • Совместимость "вперед" - декодер нового поколения должен уметь декодировать потоки декодера предыдущего поколения
  • Совместимость "назад" - декодер предыдущего поколения должен уметь декодировать потоки или часть потока кодера нового поколения
  • Совместимость "вверх" - декодер нового поколения с более высоким разрешением должен уметь декодировать потоки предыдущего поколения с низким разрешением
  • Совместимость "вниз" - декодер предыдущего поколения с низким разрешением должен уметь декодировать потоки нового поколения с более высоким разрешением
Совместимость кодеров предыдущего (MPEG-1) и последующего (MPEG-2) поколений достигается за счет введения синтаксиса расширений заголовков. Декодер предыдущего поколения игнорирует дополнительную информацию, содержащуюся в расширениях заголовков, зарезервированных в предыдущем поколении стандарта, и способен восстанавливать данные, содержащиеся в битовом потоке. Таким образом можно обеспечить совместимость "вперед" и "вверх". Совместимость "назад" и "вниз" может быть гарантирована лишь дополнительным аппаратным обеспечением декодера предыдущего поколения.

Сжатие видеосигнала.
Стандарт MPEG-2 не регламентирует методы сжатия видеосигнала, а только определяет, как должен выглядеть битовый поток кодированного видеосигнала, поэтому конкретные алгоритмы являются коммерческой тайной фирм - производителей оборудования. Однако существуют общие принципы, и процесс сжатия цифрового видеосигнала может быть разбит на ряд последовательных операций: преобразование аналогового сигнала в цифровую форму, предварительная обработка, дискретное косинусное преобразование, квантование, кодирование.

Заключение.
В заключении отметим, что качество кодирования и декодирования видеосигналов по стандарту MPEG-2 определяется не только возможностями аппаратных средств, но и уровнем проработки специализированного программного обеспечения.

MPEG-3

MPEG-3 - предназначался для использования в системах телевидения высокой чёткости (high-defenition television, HDTV) со скоростью потока данных 20-40 Мбит/с , но позже стал частью стандарта MPEG-2 и отдельно теперь не упоминается. Кстати, формат MP3, который иногда путают с MPEG-3, предназначен только для сжатия аудиоинформации и полное название MP3 звучит как MPEG-Audio Layer-3 .


MP3.

MP3 - это звуковые файлы с компрессией по технологии MPEG (MPEG 1.0, 2.0 и 2.5, MP3, MPEG 1 Layer 3, Audio MPEG), позволяющей обеспечить наилучшее качество звука при минимальном объеме файла. Это достигается учетом особенностей человеческого слуха, в том числе эффекта маскирования слабого сигнала одного диапазона частот более мощным сигналом соседнего диапазона, когда он имеет место, или мощным сигналом предыдущего фрейма, вызывающего временное понижение чувствительности уха к сигналу текущего фрейма (попросту, удаляются второстепенные звуки, которые не слышатся человеческим ухом из-за наличия в данный/предыдущий момент другого - более громкого). Также учитывается неспособность большинства людей различать сигналы, по мощности лежащие ниже определенного уровня, разного для разных частотных диапазонов. Данный процесс называется адаптивным кодированием и позволяет экономить на наименее значимых с точки зрения восприятия человеком деталях звучания. Степень сжатия (следовательно и качество), определяются не форматом, а шириной потока данных при кодировании в MP3.

Аудиоинфоpмация, сжатая по данной схеме, может пеpедаваться потоком (streaming), а может храниться в файлах формата MP3 или WAV-MP3. Отличие второго от первого состоит в наличии дополнительного заголовка WAV-файла, что позволяет при наличии MP3 кодека в системе использовать для работы с таким файлом стандартные средства Windows. Параметры компрессии при кодировании файла можно варьировать в широких пределах. Так, например, наивысшее качество, не отличимое от качества CD, достигается при скорости передачи (bitrate) 112...128 kb/s (обеспечиваемой ISDN-модемами), при этом сжатие составляет примерно 14:1 относительно исходного объема (вспомним: на 650 Mb компакт-диска помещается всего 74 минуты звука, т.е. 1 минута "стоит" почти 9 Mb!). Для Интернет, впрочем, и такие объемы великоваты, поэтому чаще используется кодирование с качеством "Подобно УКВ-вещанию" (MPEG 1.0, bitrate 56 kb/s, 44.1 sampling frequency, bandwidth 11 kHz, stereo, 1 min=415 kb), при котором воспроизведение в реальном масштабе времени может быть обеспечено 56К-модемами. Что же касается классического рок-н-ролла, то для него, поскольку он изначально записывался в моно режиме и с неширокой полосой частот, оптимальным можно считать кодирование с качеством "Лучше ДВ/СВ радио" (MPEG 2.0, bitrate 32 kb/s, 22.05 samp. freq., bandwidth 7.5 kHz, mono, 1 min=237 kb).

Принципиальной особенностью MPEG-кодирования является компрессия с потерями. После упаковки и распаковки звукового файла методом MP3 результат не идентичен оригиналу "бит в бит". Напротив, упаковка целенаправленно исключает из упаковываемого сигнала несущественные компоненты, что приводит к чрезвычайному возрастанию коэффициента сжатия. В зависимости от необходимого качества звука метод MP3 способен сжать звук в десять и более раз (См. Степень сжатия и качество).


Приемущества MP3.

MP3 на сегодня имеет два огромных преимущества перед другими доступными форматами. Правда, MicroSoft пытает потеснить MP3 со своим новым форматом WMA, а также есть альтернативные форматы VQF и AAC, но они еще не получили должного распространения, хотя качество WMA, если судить по отзывам, несколько лучше. Однако WMA пока, фактически, закрыт для свободного использования, поэтому у него есть проблемы с различным софтом для кодирования / прослушивания / обслуживания (хотя, кто же сомневается в мобилизационных возможностях MicroSoft :-). Первое преимущество состоит в том, что ни про один из существующих подобных форматов нельзя пока сказать, что он полностью гарантирует устойчивое сохранение качества звучания на достаточно высоких битрейтах, кроме MP3, который достойно выдержал проверку временем. Второе, не менее важное преимущество - на ближайшие годы, а возможно, и на все десятилетие, MP3 стал стандартом де факто, поскольку много сделано в него вложений пользующимися им сторонами, в том числе и цифровыми радиостанциями. Для MP3 также написано множество удобного программного обеспечения. Сейчас уже налажено производство аппаратных MP3 плееров, и карманных, и для автомобилей. Таким образом, MP3 стал первым массово признанным форматом хранения аудио после CD-Audio (пусть, часто и нелегальным).


Степень сжатия и качество.

128 kbps, в принципе, нормальный формат, если Вы имеете обычную аудиотехнику и рядовой слух. Но, чтобы быть уверенным, лучше кодировать на 160 kbps, т.к. это даст запас (весьма существенный) по сравнению с 128 kbps на тот случай, если улучшится качество аппаратуры. А если хотите быть совсем уверены в том, что Ваша музыка ничего не потеряет от кодирования, то берите 192 kbps. 128 kbps (11:1) Самый популярный на сегодня битрейт. Степень сжатия 11:1 - это, конечно, аргумент, особенно для Интернета, где каждый килобайт на счету. Однако при этом не очень хорошо сохраняются высокие частоты и имеют место некоторые искажения звука. При этом можно точно сказать, что на обычной аппаратуре, например используя обычную звуковую карту, компьютерные колонки, пусть и неплохого качества, разницы не будет заметно, если только Вы не эксперт по звуку. Однако на качественных колонках отсутствие высоких частот проявляется довольно заметным образом - музыка звучит приглушенно. На 128 кб/с лучше себя ведут кодеры от Fraunhofer-IIS - они оставляют больше высоких частот, чем кодеры ISO и, тем более, Xing. Все ISO кодеры как один добавляют характерный звон, наличие которого связано с особенностью психоаккустических фильтров ISO. На этом битрейте отлично себя показал MP3 Producer, специально оптимизированный под низкие битрейты. 160 kbps (8:1) Лучше, чем 128 кб/с. На неплохой (хорошей непрофессиональной) аппаратуре разницы уже не заметно. Но все равно присутствует недостаток высоких частот. На этом битрейте себя лучше проявили кодеры от Fraunhofer, т.к. ISO кодеры продолжают "звенеть", хотя и меньше. Выбирать приходится между кодерами от Fraunhofer, поэтому неплохой выбор - новый MP3 Producer. 192 kbps (7:1) Последнее время, с ростом пропускной способности каналов Интернета, этот битрейт становится более популярным на его просторах. Заметная часть новых записей оцифровавается именно в 192 kbps, во всяком случае теми, кто занимается MP3 серьезно. Кодеры от Fraunhofer убирают высоких больше, чем кодеры ISO, которые уже не "звенят". На этом битрейте кодеры от ISO чуть-чуть опережают Fraunhofer. Но ISO-оптимизированные - гораздо быстрее. 256 kbps (5:1) Вот тут практически все совсем перестают ощущать разницу между записью с CD и MP3-файлами, даже на очень качественной аппаратуре, при кодировании ISO-кодерами. Все ISO-кодеры обеспечивают на слух одинаковое качество, которое выше, чем у других кодеков. 320 kbps (4:1) Вот этого уже многие совсем не понимают. Это что, попытка быть святее Папы Римского? Ну нет разницы на слух между ISO 256 кб/с и CD. Зачем же 320? Если бы эти люди хрошенько подумали, то предпочли бы все-таки CD, который, как традиционно считается, обеспечивает качество Hi-Fi.

Используя стерео эффекты и ограничивая ширину полосы звуковых частот, кодирование схем может достигнуть приемлемого надежного качества в более низких частотах. Некоторые типичные данные для MPEG Layer-3 :
 

sound quality bandwidth mode bitrate reduction ratio
telephone sound 2.5 kHz mono 8 kbps * 96:1
better than shortwave 4.5 kHz mono 16 kbps 48:1
better than AM radio 7.5 kHz mono 32 kbps 24:1
similar to FM radio 11 kHz stereo 56...64 kbps 26...24:1
near-CD 15 kHz stereo 96 kbps 16:1
CD >15 kHz stereo 112..128kbps 14..12:1

Во всех международных тестах слушания, MPEG Layer-3 впечатляюще доказывал высокое исполнение, поддерживая исходное качество при сжатии данных 1:12 (около 64 kbit/s ). Если материал допускает ограниченную ширину полосы частот около 10 kHz, разумное надежное качество для стерео сигналов может быть достигнуто при сжатии 1:24.
 

1:4 by Layer 1 (corresponds with 384 kbps for a stereo signal),
1:6...1:8 by Layer 2 (corresponds with 256..192 kbps for a stereo signal),
1:10...1:12 by Layer 3 (corresponds with 128..112 kbps for a stereo signal),

Способы кодирования СТЕРЕО в сигнале.

В рамках MP3 кодирование стереосигнала допустимо четырьмя различными методами: Dual Channel - Каждый канал получает ровно половину потока и кодируется отдельно как моно сигнал. Рекомендуется главным образом в случаях, когда разные каналы содержат принципиально разный сигнал - скажем, текст на разных языках. Stereo - Каждый канал кодируется отдельно, но кодер может принять решение отдать одному каналу больше места, чем другому. Это может быть полезно в том случае, когда после отброса части сигнала, лежащей ниже порога слышимости или полностью маскируемой, оказалось, что код не полностью заполняет выделенный для данного канала объем, и кодер имеет возможность использовать это место для кодирования другого канала. Этим, например, избегается кодирование "тишины" в одном канале, когда в другом есть сигнал. Данный режим выставлен по умолчанию в большинстве ISO-based кодеров, а также используется продукцией FhG IIS на битрейтах выше 192kbs. Применим и на более низких битрейтах порядка 128kbs... 160kbs. Joint Stereo (MS Stereo) - Стереосигнал раскладывается на средний между каналами и разностный. При этом второй кодируется с меньшим битрейтом. Это позволяет несколько увеличить качество кодирования в обычной ситуации, когда каналы по фазе совпадают. Но приводит и к резкому его ухудшению, если кодируются сигналы, по фазе не совпадающие. В частности, фазовый сдвиг практически всегда присутствует в записях, оцифрованных с аудиокассет, но встречается и на CD, особенно если CD сам был записан в свое время с аудиоленты. Но эта проблема, опять же, нам не сильно важна, т.к. нас интересует, прежде всего, кодирование полноценных Audio CD. Режим выставлен по умолчанию продукцией FhG IIS, а также кодером Lame, для битрейтов от 112kbs до 192kbs. Joint Stereo (MS/IS Stereo) - Вводит еще один метод упрощения стереосигнала, повышающий качество кодирования на особо низких битрейтах. Состоит в том, что для некоторых частотных диапазонов оставляется уже даже не разностный сигнал, а только отношение мощностей сигнала в разных каналах.


Словарь.

Кодер (англ. coder, encoder)
Программа и/или устройство, используемые для преобразования информации из одного вида в другой (кодирование). Мы рассматриваем программы, которые преобразуют аудио-данные из формата PCM WAV в ISO MPEG Audio Layer-3 (MP3).
Декодер (англ. decoder)
По сути то же, что и кодер, но осуществляет преобразование в обратном направлении.
Кодек (англ. codec)
Кодер и декодер в одном блоке.
Степень сжатия
Отношение размера входного (некодированного) файла к размеру выходного (кодированного) файла. Например, степень сжатия 11:1 означает, что закодированный файл в 11 раз меньше оригинала.
Битрейт (англ. bitrate)
Количество бит, отведенное для записи единицы времени аудио-информации. Измеряют обычно в кбит/с, то есть килобит в секунду (англ. kb/s или kbps). Степень сжатия (следовательно и качество), определяется шириной потока (bitrate) про кодировании сигнала. Термин битрейт в общем случае обозначает общую величину потока, количество передаваемой за единицу времени информации, и поэтому не связан с внутренними тонкостями строения потока, его смысл не зависит от того, содержит ли поток моно или стерео, или пятиканальное аудио с текстом на разных языках, или что-либо еще. Bitrate может варьировать в широких пределах от наибольшего, 320кбит/с до 96кбит/с и ниже.
Децибелл (англ. decibell, обознач. дБ, dB)
Единица измерения каких-либо величин. По опрелению значение величины в децибеллах равно десяти логарифмам отношения величины в обычных единицах к некой опорной величине в обычных единицах. В звукотехнике обычно используется для измерения слышимости звукового сигнала, при этом в качестве опорной величины берется максимальный уровень звука. Дело в том, что человеческое ухо воспринимает силу звукового потока нелинейно. Особенность слуха в том, что звук в -40 дБ кажется в 2 раза тише, чем звук в -20 дБ, хотя очевидно, что величина U40, описывающая этот звук (в данном случае - мощность звукового потока), в 100 раз меньше величины U20. Получается что "ухо слышит в децибеллах".
Логарифмическая шкала
Шкала, в которой величины, соответствующие соседним отметкам, различаются не на одинаковую величину (как это делается обычно - линейная шкала), а в одинаковое число раз.
АЧХ (амплитудно-частотная характеристика, англ. AFG, amptitude to frequency graph)
Зависимость уровня сигнала от частоты сигнала. Из-за того, что уровень может измеряться и в единицах мощности звукового потока, и в единицах электрического напряжения (по отношению к электрическому представлению этого же сигнала в схемах, скажем, усилителя), и много чего еще; а также учитывая особенности человеческого слуха (см. Децибелл), уровень сигнала часто измеряют в дБ и не конкретизируют, об уровне чего (громкости, напряжения) идет речь. АЧХ можно построить в виде графика.
Частота дискретизации
MPEG Layer 1/2/3 В MPEG Layer3 основной упор делается на оптимизацию качества звучания (кодируется с частотой 44,1 kHz, как и на обычном CD Audio). Что касается MPEG Layer2, например, то там осуществляется понижение частоты дискретизации до 22,5 kHz, что заметно ухудшает восприятие звука, зато в два раза уменьшает объем файла (потока). Этот формат часто используют для передачи аудио в реальном времени по сетевым каналам (Интернет). Правда, в этом секторе более распространен формат RealAudio, т.к. он имеет встроенную защиту. Более подробно это здесь рассматриваться не будет, т.к. этот обзор построен вокруг и около процесса качественного кодирования CD Audio.
Frame
Кодирование данных происходит посредством выделения независимых отдельных блоков данных - фреймов. Для этого исходный сигнал при кодировании разбивается на равные по продолжительности участки, именуемые фреймами и кодируемые отдельно. При декодировании сигнал формируется из последовательности декодированных фреймов.
VBR
В районе конца 98 - начала 99 года XingTech первая использовала технологию переменного битрейта, VBR. Если в случае постоянного битрейта кодер выбирает наиболее значащие частотные составляющие фрейма, убирающиеся в выделенный битрейт, то в случае VBR задается максимальный допустимый уровень потерь, а кодер выбирает еще и минимальный битрейт, достаточный для выполнения поставленной задачи. Стоящие рядом в конечном потоке фреймы могут оказаться в итоге закодированы с совершенно разными параметрами (как вы помните, фреймы кодируются отдельно). Сейчас VBR можно использовать в LAME-кодеке. Единственная проблема кодирования в VBR - значительное падение скорости (в 2-3 раза). Используя сжатие по методу MPEG, можно получить уменьшение объема данных, все еще поддерживая исходное качество CD.



MP3-плейеры.

Сейчас стандарт MP3 приобрел большую популярность, благодаря Интернет. По количеству запросов на поисковых серверах информация, связанная со стандартом вышла на одно из первых мест. Появились в продаже и твердотелые MP3-плейеры, часто комбинированные с компакт-кассетными механизмами. В комплект поставки таких аппаратов входит соединительный кабель для компьютера и CD-ROM с необходимым софтом. В частности, программа для перевода треков с компакт-дисков в формат MP3 и дальнейшая пересылка файлов в съемную память прлейера.


Цена на плееры сильно меняется в зависимости от объема памяти карт. На сегодняшний день максимальный объем памяти вставляемых карт - 64Мб, что позволяет разместить на них 6-8 песен с максимальным качеством воспроизведения для этого стандарта. Конечно, этого пока мало, однако производители обещают наладить в скором времени выпуск карточек объемом до 256Мб. Да и нет пока в мире единого стандарта на карты памяти. Многие фирмы предлагают свои варианты исполнения и они физически не совместимы друг с другом. Короче говоря - пока сыровато.
 

MPEG-4

Стандарты серии MPEG для сжатия видео/аудиоданных разрабатывает группа Motion Picture Expert Group Международной организации по стандартам (ISO). Напомним, что MPEG-1 (принят в качестве официального стандарта в 1992 г.) разрабатывался для доставки видео на CD-ROM (скорость около 1,5 Мбит/с) и получил широкое распространение во многом благодаря дискам VideoCD (до сих пор очень популярным в Азии, в частности в Китае). MPEG-2 (1994 г.) предназначен для работы с видео вещательного качества (скорость потока данных 3-15 Мбит/с) и сегодня все шире используется в цифровом телевещании, а также при кодировании видеоматериалов для дисков DVD-Video. Группа MPEG начала было работу над стандартом MPEG-3, который должен был обеспечить унификацию в компрессии потоков данных со скоростями 20-40 Мбит/с для телевидения высокой четкости (HDTV), но довольно быстро обнаружилось, что принципиальной разницы в подходах между MPEG-2 и MPEG-3 нет, в результате чего разработка последнего была прекращена, а рамки MPEG-2 расширены. MPEG-4 же, подобно Золушке, из стандарта «мультимедиа для бедных» с дергающейся картинкой в маленьком окошке превращается в главное действующее лицо мира мультимедиа (фактически подчинив себе и «старших сестер», области применения которых теперь можно трактовать как частные случаи - как способы кодирования одного из многочисленных типов данных, предусмотренных MPEG-4). Важность этого стандарта трудно переоценить, он гораздо больше, чем просто описание правил кодирования. По существу он претендует на то, чтобы стать - спустя десять лет после зарождения цифрового мультимедиа - единым концептуальным способом описания, представления и обработки мультимедиа-данных на ближайшее десятилетие.

К сожалению, у нас в стране состояние дел с MPEG-4 пока не известно даже большинству тех специалистов, которые будут прямо вовлечены в его внедрение и применение - а с ним придется иметь дело и программистам, и разработчикам декодеров, и создателям
интерактивных мультимедиа-продуктов, и телевизионным авторам и вещателям, и сетевым провайдерам, а затем и всем остальным, простым домашним потребителям. При этом, в отличие от MPEG-1 и 2, которые предстают некими строго локализованными
«черными ящиками», сжимающими/разжимающими видео незаметно для пользователя, MPEG-4 будет повсюду и прямо повлияет на способ работы и мышления многих категорий специалистов, а бесчисленные заложенные в него потенциальные возможности придется внимательно изучать, чтобы опередить конкурентов. Публикуя еще в «Мультимедиа» статью замечательного провидца (visionary) Крейга Биркмайера [4], мы рассчитывали, что она привлечет внимание к стандарту и потянет за собой серию публикаций в других изданиях, но пока увы...

К тому времени, когда данная статья увидит свет, MPEG-4 уже должен быть признан в качестве официального международного стандарта - ISO/IEC 14496. Поэтому пришла пора поговорить о нем более подробно - чтобы не быть застигнутыми врасплох, как мистер Бильбо Бэггинс, и не остаться в результате без кексов.

Объектно-ориентированное мультимедиа

Новое предназначение стандарта MPEG-4 в рабочих документах группы MPEG формулируется так: он задает принципы работы с контентом (цифровым представлением медиа-данных) для трех областей: собственно интерактивного мультимедиа (включая продукты, распространяемые на оптических дисках и через Сеть), графических приложений (синтетического контента) и цифрового телевидения - DTV. При этом его главное достоинство, на мой взгляд, состоит в том, что он не просто оформляет ту или иную сложившуюся практику в качестве стандарта, но, подобно американской конституции, является опережающим, структурообразующим и фундаментальным законом, создающим основу для производства, распространения контента и способов доступа к нему в новой единой цифровой среде и открывающим - в случае его признания перечисленными отраслями - множество принципиально новых возможностей для авторов, дистрибьюторов и потребителей этого контента.

MPEG-4 - не только стандарт, фактически он задает правила организации среды, причем среды объектно-ориентированной. Он имеет дело не просто с потоками и массивами медиа-данных, а с медиа-объектами - это ключевое понятие стандарта. Объекты могут быть аудио-, видео-, аудиовизуальными, графическими (плоскими и трехмерными), текстовыми. Они могут быть как «естественными» (записанными, отснятыми, отсканированными и т. п.), так и синтетическими (т. е. искусственно сгенерированными). Примерами объектов могут служить неподвижный фон, видеоперсонажи отдельно от фона (на прозрачном фоне), синтезированная на основе текста речь, музыкальные фрагменты, трехмерная модель, которую можно двигать и вращать в кадре, анимированный спрайт (о спрайтах см. в главе «Кодирование видео»). Медиа-объекты могут быть потоковыми. Каждый медиа-объект имеет связанный с ним набор дескрипторов, где и задаются все его свойства, операции, необходимые для декодирования ассоциированных с ним потоковых данных, размещения в сцене, а также поведение и допустимые реакции на воздействия пользователя. Из объектов строятся сцены. Сцена имеет свою систему координат, в соответствии с которой размещаются объекты. Звуковые объекты также могут иметь (и менять во времени) координаты в пространстве сцены, благодаря чему достигаются стерео- и «окружающие» (surround) эффекты. Объекты могут быть элементарными (primitive) и составными (compound), т. е. представляющими ту или иную композицию элементарных объектов (например, сгенерированный трехмерный телевизор, наложенная на его экран живая видеотрансляция и исходящий из его динамиков звук). Стандарт задает правила кодирования различных объектов, их иерархии и способы композиции при построении сцены, а также методы взаимодействия пользователя с отдельными объектами внутри сцены. Каждый объект имеет свою локальную систему координат - с ее помощью объект управляется в пространстве и во времени. При помещении объекта в сцену происходит преобразование его локальной системы координат в систему координат старшего по иерархии объекта или глобальную систему координат сцены. Объекты и сцена могут обладать поведением, контролируемым уровнем композиции при визуализации сцены (характер звука, цвет объекта и т. п.). Сцена описывается с помощью иерархической структуры; узлами этой структуры являются объекты, и она динамически  перестраивается по мере того, как узлы-объекты добавляются, удаляются или заменяются.

В MPEG-4 определен двоичный язык описания объектов, классов объектов и сцен BIFS, который характеризуют как «расширение Си++». С помощью команд BIFS можно анимировать объекты, менять их координаты, размеры, свойства, задавать поведение, реакции на воздействия пользователя, менять свойства среды, изменять и обновлять сцену, выполнять 2D-геометрические построения и т. п. Поскольку язык двоичный, он весьма компактен и быстр в интерпретации. Согласно заявлениям разработчиков, многие концепции BIFS позаимствованы у VRML, и сейчас MPEG и Web 3D Consortium продолжают работу по сближению MPEG-4 и VRML.

Активная зрительская позиция

Очень важно подчеркнуть для понимания революционной сущности MPEG-4, что окончательная сборка сцены (причем с возможностью добавления разного рода геометрических преобразований, визуальных и акустических эффектов реального
времени), вообще говоря, происходит на приемном конце - в компьютере, приставке или телевизоре пользователя. Это, в частности, позволит в корне изменить (еще раз оговоримся - только после реального признания стандарта производителями телепрограмм и вещательными корпорациями и появления MPEG-4-совместимых приставок или телевизоров) всю концепцию современного телевидения. Каждый сам, наверное, представит количество степеней свободы, которое может получить телезритель. Вместо сегодняшнего плоского окошка, отображающего аудиовизуальный поток, где-то кем-то подготовленный и директивно выдаваемый в эфир, окошка, оставляющего только одну степень свободы - переключить канал («Я тебе покручу!») или вообще выключить телевизор, - зритель получает некое подобие виртуального пространства, с которым он может взаимодействовать и которое (при соответствующей доброй воле производителя телепрограммы) может выстраивать удобным для себя образом. Простейший пример такого взаимодействия с контентом - динамический выбор той или иной камеры или повтора при просмотре спортивных передач (естественно, при многокамерных трансляциях по цифровым каналам - но это уже близко к реальности даже для России): фактически зритель становится «Сам себе режиссер трансляции», беря на себя функции, которые вот уже лет тридцать, сидя в телевизионном автобусе возле «Лужников» или «Динамо», бессменно выполняют для него Ян Садеков и Раиса Панина.

Но это - только цветочки. Среди допустимых в принципе пользовательских команд взаимодействия с контентом - изменение точки наблюдения, удаление, добавление и перемещение объектов внутри сцены, выбор той или иной языковой дорожки, активизация более или менее сложной цепочки событий путем «щелчка» на объекте, ввод команд с клавиатуры и т. п. Естественно, эти воздействия должны  ыть предусмотрены и разрешены создателями того или иного контента - в противном случае «пользователь» остается пассивным «зрителем», наблюдающим сцены, построенные автором, режиссером (это должно развеять опасения некоторых авторов и  вещателей относительно того, что с введением MPEG-4 они утратят возможность контролировать качество продукта, картинку, которую увидит зритель на своем экране, и в конечном итоге - эстетическое и эмоциональное воздействие произведения). Для отслеживания действий пользователя и описания реакций на них реализована структура событий из VRML. Опираясь на эту модель, авторы контента могут создавать действительно интерактивные произведения и передачи.

Добавим, что стандарт предусматривает как локальную отработку воздействий и команд пользователя в декодере (client side interaction), так и пересылку их для исполнения на передающую сторону по обратному «восходящему» каналу, если декодер обладает такой возможностью, а серверная сторона готова реагировать на запросы снизу (server side interaction).

Кодирование видео

Как уже упоминалось, MPEG-4 начинал разрабатываться как способ передачи потоковых медиа-данных, в первую очередь видео, по каналам с низкой пропускной способностью (4,8-64 Кбит/с), в том числе беспроводным. Сейчас эта часть представлена блоком VLBV Core (Very Low Bit-rate Video) - ядром, обеспечивающим работу с «видео, имеющим очень низкую скорость потока данных». Естественно, такое видео имеет ухудшенные характеристики как по разрешению (до так называемого разрешения CIF, Common Interchange Format - 320Ч240), так и по частоте кадров (до 15 кадр/с); впрочем, прогресс методов сжатия постоянно повышает «верхнюю границу» характеристик - всего два года назад речь шла лишь о 176Ч144... Помимо эффективных и помехоустойчивых методов кодирования последовательностей подобных кадров, VLBV содержит предложения по реализации операций произвольного доступа к кадрам видеопоследовательности, а также быстрой «подмотки» видеоряда вперед и назад. Это требуется, например, в бурно развивающейся области управления медиа-активами (Digital Asset Management) - для работы с базами видеоданных, хранящими видеоматериалы в низком разрешении (для целей быстрого поиска и оценки) и ссылки на места хранения соответствующих
материалов в полном вещательном качестве.

Второй блок, отвечающий за работу с видео с большой скоростью потока, вплоть до вещательного качества по стандарту ITU-R 601, обеспечивает в общем те же функции, что и VLBV, однако здесь предусмотрены возможности работы с видео, имеющим не только прогрессивную, но и чересстрочную телевизионную развертку. Два названных блока обрабатывают обычные видеопотоки с прямоугольными кадрами и фактически включают в себя функциональность MPEG-1 и MPEG-2, а также кодирование «живых» текстур.
Особенно интересен третий блок - так называемые функции, зависящие от контента. Сюда входит обработка видео с произвольным силуэтом (с помощью 8-бит механизма прозрачности или двоичных масок) для отдельного кодирования видеообъектов (например, «вырезанного» силуэта диктора) и интерактивных манипуляций с ними. Помимо обычных методов межкадрового кодирования - предсказания и компенсации движения, предусмотрены механизмы работы со «спрайтами» - неподвижными изображениями, которые передаются в декодер лишь однажды и всякий раз подставляются в нужное место кадра из специального спрайтового буфера. Механизм
спрайтов позволяет значительно снизить объем передаваемых данных и обеспечивает большую гибкость в построении сцен. Например, можно запускать различные объекты-спрайты (самолеты, автомобили) поверх «живого» видео-фона или же построить (выделить из реальных съемок или сгенерировать) неподвижную спрайт-панораму шириной в несколько кадров для «задника» сцены (спортивная площадка и трибуны) и, запустив поверх нее «живые» видеообъекты (игроков), панорамировать камерой вправо-влево - в этом случае для каждого кадра достаточно передавать вместо полной картинки фона только параметры камеры - направление и наплыв (zoom). Для улучшения времени реакции спрайт-панорамы могут подкачиваться с «прогрессивным разрешением», т. е. с постепенным улучшением разрешения, как картинки в Интернете.

Этот же блок отвечает за «масштабируемость» видеообъектов. Под этим термином подразумевается, что объекты кодируются таким образом, чтобы декодер имел возможность в случае ограничений пропускной способности сети или параметров самого декодера (недостаточная вычислительная мощность, малое разрешение дисплея) огрублять изображение, декодируя и выводя лишь часть  ередаваемой потоковой информации (например, уменьшая частоту или разрешение кадров, увеличивая «зернистость»), но сохраняя тем не менее адекватность передачи контента. Для видеопотоков предусмотрено до трех уровней зернистости. При кодировании неподвижных изображений и текстур в MPEG-4 применяется очень эффективный wavelet-алгоритм, обеспечивающий кодирование объектов произвольной формы, 11 уровней масштабируемости по разрешению и плавную масштабируемость по качеству картинки. Результирующий закодированный поток представляет собой «пирамиду» различных разрешений, и в приемнике картинка со временем «проявляется», улучшаясь настолько, насколько позволяет данная передающая среда.

Синтетические объекты и лица

В MPEG-4 предусмотрены инструменты и алгоритмы для работы не только с видеообъектами, но и с объектами синтетическими, т. е. сгенерированными средствами компьютерной графики: каркасными представлениями (mesh) двух- и трехмерных моделей, потоками геометрических данных для анимирования этих моделей, с натуральными («живыми») или анимированными текстурами, которые могут на эти модели накладываться, и т. п. Подобные объекты позволяют значительно сократить объем передаваемых данных, так как для их анимации бывает достаточно передать всего несколько параметров - все остальное будет сделано в декодере.
Среди синтетических объектов выделена в отдельный класс анимация человеческих лиц и фигур. В MPEG-4 установлены наборы управляющих параметров для задания особенностей лица (FDP), для его анимации (FAP) и интерполяции, контрольные точки в
полигональной сетке, «отвечающие» за те или иные эмоции или движения (с весовыми коэффициентами) и т. п. Необходимые средства управления анимацией входят в язык BIFS. Лицо может быть сгенерировано в декодере на базе имеющейся в нем обобщенной
модели и затем «индивидуализировано» с помощью FDP, либо желаемая конкретная модель (например, полученный с помощью трехмерного сканера «автопортрет») может быть загружена во входящем потоке. Мало этого, на построенную модель лица можно
«натянуть» фото- или видеотекстуру лица конкретного человека, а затем «заставить» его произносить написанный текст. Средства синтеза речи на базе текстов (text-to-speech), предусмотренные в MPEG-4, не только генерируют необходимые фонемы, но могут также
создавать поток данных для соответствующей анимации модели лица говорящего. Таким образом можно построить виртуального диктора, изображение удаленного абонента при «разговоре» в chat или отправить сетевым партнерам собственного аватара-дубля.

Имеются развитые средства работы с двумерными полигональными моделями, адаптации их под имеющийся видеоконтент для последующей анимации - например, искажения текстур в соответствии с деформацией подложенной сетки и др. Использование этих
средств позволяет выполнять многие функции, например представление контуров объектов с помощью вершин сетки (вместо битовых масок), замещение в сцене «живых» видеообъектов синтетическими и т. д. - отсылаем читателя к описанию стандарта.

Сюда примыкают и средства учета точки наблюдения, которые работают как на клиентской, так и на серверной стороне (если имеется обратный канал): при наличии в трехмерном пространстве сцены объектов переднего плана те фрагменты изображения, которые заслонены для наблюдателя этими объектами, не передаются.

Звук

Несмотря на отсутствие в названии группы MPEG даже намека на звук, ее эксперты весьма успешно работают в этой области, и их предложения действительно становятся общеупотребительными стандартами, порой опережая разработки «профильных» звуковых
организаций и фирм. При этом звуковая часть стандартов MPEG достаточно слабо связана с видеочастью, новые версии и алгоритмы, выбранные экспертами, просто добавляются к уже имеющимся функциям. Так, в частности, был добавлен (к ранее стандартизованным
Уровням 1 и 2) формат сжатия MPEG Audio Уровень 3 для стандартов MPEG-1 и 2, разработанный специалистами Fraunhofer Institute for Integrated Circuits (IIS-A) и University of Erlangen в рамках проекта цифрового аудиовещания DAB. Этот стандарт сегодня, наверное, уже известен всем под именем MP3 (не путать с MPEG-3). Он зажил «самостоятельной», отдельной от видеоряда жизнью и грозит перевернуть весь бизнес звукозаписи (из-за высокого качества, компактности сжатых им материалов и расцвета несанкционированного распространения их через Сеть). Его последователь, формат MPEG-2 AAC (Advansed Audio Coding), также разработанный в IIS-A (www.iis.fhg.de), соперничает с Dolby AC-3 в качестве многоканального формата записи звука для дисков DVD-Video. Этот формат обеспечивает, по сравнению с MP3, еще более высокое качество звучания, лучшую степень сжатия и возможность работы с  азличными потоками, от моно- до многоканальных.

При всем множестве новаторских подходов MPEG-4 звуковые разделы стандарта - возможно, наиболее интересная и революционная его часть. Объектный подход к изображениям - откровение для телевидения, но в ряде систем анимации, в VRML он применялся и ранее. Что же касается объектного звука, то системы, сопоставимой с MPEG-4 по комплексности подхода, спектру примененных технологий и  диапазону применений, просто не удается вспомнить. Она заслуживает отдельного разговора, а здесь мы можем лишь бегло перечислить ее возможности.

Как и другие типы объектов, аудиообъекты входят в структуру дерева сцены и описываются на языке BIFS, что позволяет располагать источники звука в трехмерном пространстве сцены, управлять их характеристиками и применять к ним различные эффекты независимо друг от друга, перемещать источник звука при перемещении связанного с ним визуального объекта и т. п. В следующей версии в  стандарт будет добавлена возможность задания акустических параметров среды. Отметим, что все эффекты и анимации выполняются в декодере по командам, полученным во входном потоке, что уменьшает объем передаваемых данных и увеличивает гибкость.

Для кодирования аудиообъектов MPEG-4 предлагает наборы инструментов как для живых звуков, так и для синтезированных. MPEG-4 устанавливает синтаксис двоичных потоков и процесс декодирования в терминах наборов инструментов, это позволяет применять
различные алгоритмы сжатия. Диапазон предлагаемых стандартом скоростей потока для кодирования живых звуков - от 2 до 128 Кбит/с и выше. При кодировании с переменным потоком минимальная средняя скорость может оказаться еще меньше, порядка 1,2 Кбит/с.
Для звука высшего качества применяется алгоритм AAC, который дает качество лучше, чем у CD, при потоке в 10 с лишним раз меньше. Другой возможный алгоритм кодирования живого звука - TwinVQ. Для кодирования речи предлагаются алгоритмы:
HVXC (Harmonic Vector eXcitation Coding) - для скоростей потока 2-4 Кбит/с и CELP (Code Excited Linear Predictive) - для скоростей 4-24 Кбит/с. Предусмотрены различные механизмы масштабируемости.

Особый раздел - синтез речи. На входы синтезатора поступает текст, а также различные параметры «окраски» голоса - ударения, изменения высоты тона, скорости произнесения фонем и т. п. Можно также задать для «говорящего» пол, возраст, акцент и т. п. В текст  можно вставлять управляющую информацию, обнаружив которую синтезатор синхронно с произнесением соответствующей фонемы передаст те или иные параметры или команды другим компонентам системы. Параллельно с голосом может генерироваться
поток параметров для анимации лица. Отметим, что, как и всегда, MPEG-4 задает правила работы, интерфейс синтезатора, но не его внутреннее устройство.

Наконец, самая интересная часть «звуковой» составляющей - средства синтеза произвольных звуков и музыки. Здесь MPEG-4 предлагает в качестве стандарта подход, разработанный в колыбели многих передовых технологий - MIT Media Lab и названный Structured Audio (SA) - «Структурированный звук». Опять-таки, это не конкретный метод синтеза, а формат описания методов синтеза, в котором можно задать любой из существующих методов (а также, как утверждается, будущих). Для этого вводятся два языка: SAOL (Structured Audio Orchestra Language) и SASL (Structured Audio Score Language). Как следует из названия, первый задает оркестр, а второй - то, что этот оркестр должен играть. Оркестр состоит из инструментов. Каждый инструмент представлен сетью элементов цифровой обработки сигналов - синтезаторов, цифровых фильтров, которые все вместе и синтезируют нужный звук. С помощью SAOL можно  запрограммировать практически любой нужный инструмент, природный или искусственный звук. Сначала в декодер загружается набор инструментов, а затем поток данных SASL заставляет этот оркестр играть, управляя процессом синтеза. Таким образом обеспечивается одинаковое звучание на всех декодерах при очень низком входном потоке и высокой точности управления.

Стандартом допускается также управление, основанное на протоколе MIDI, - но этот метод не столь точен, а набор инструментов ограничен. Для простых декодеров стандартизован также формат для работы с волновыми таблицами (wavetable bank format) -
в этом случае в декодер загружаются набор сэмплов и необходимые фильтры и эффекты.

Потоки и уровни

В «потоковой» части архитектура MPEG-4, очевидно, опирается на другой фундаментальный стандарт ISO - семиуровневую модель взаимодействия открытых систем. Напомним, эта модель выделяет семь независимых вложенных уровней (сверху вниз: прикладной, представительский, сеансовый, транспортный, сетевой, канальный, физический). Каждый из уровней на передающем конце общается с соответствующим уровнем на приемном, а для этого обращается к локальным службам соседнего нижнего уровня (который предоставляет ему для этого специальный интерфейс) - и далее все происходит «прозрачно» для него, все остальные нижние уровни системы от него скрыты. По мере продвижения по этой лестнице вниз содержательная информация, которой обмениваются пользователи или приложения - т. е. прикладные уровни, - обрастает служебными данными (которые «навешивает» каждый из уровней для взаимодействия со своим визави на приемном конце в соответствии с принятым между ними протоколом общения), данные разбиваются на пакеты, тем или иным способом мультиплексируются, кодируются и передаются между узлами сети, а на приемном  конце происходит обратный процесс - сообщение собирается, очищается от вспомогательных данных и восстанавливается к своему первоначальному виду.

MPEG-4 действует на верхних уровнях модели ISO, начиная с сеансового. Для передачи потоков данных он обращается к службам транспортного уровня, которые обеспечивают приложениям инвариантность работы с различными системами и средами доставки - сетевыми (в том числе IP/UDP/RTP, ATM, сетями коммутации пакетов H.223), вещательными (кабельные и спутниковые системы, DTV, DAB), дисковыми (CD, DVD). (Что касается более низких уровней, собственно сетей и технологий передачи мультимедиа-информации, то, пожалуй, наиболее полный в отечественной литературе обзор составлен Олегом Фоминовым [5].)

Для управления передачей потоковых данных в MPEG-4 предусмотрен специальный протокол сеансового уровня, называемый DMIF (Delivery Multimedia Integration Framework - среда интеграции доставки мультимедиа). Разработчики указывают на его сходство с FTP, подчеркивая при этом, что основное различие в том, что «FTP в ответ на запрос передает данные, а DMIF - указатели на то, где находятся (потоковые) данные». Службы уровня DMIF в декодере MPEG-4 устанавливают сеанс с «передающей стороной», затем выбираются нужные потоки, посылается запрос, в результате чего транспортный уровень устанавливает требуемые соединения, по которым будут поступать потоковые данные, и сообщает указатели на эти соединения. В итоге устанавливается прямой канал обмена данными между приложениями.

Службы DMIF доступны прикладному уровню с помощью интерфейса DAI (DMIF-Application Interface). Именно DAI маскирует для локальных приложений разницу между сетевыми, вещательными и локальными (например, с дисков CD/DVD) потоками, эмулируя при работе с вещательными и дисковыми источниками «удаленный DMIF» и «удаленное приложение». При этом допускается одновременная работа со всеми тремя типами источников и замена одного на другой.

Потоковые данные, которые относятся к медиа-объекту, могут поступать через один или несколько элементарных потоков (elementary streams, ES). Все необходимые характеристики этих потоков, как-то: требования к приемнику, данные о тайминге и об уровне обслуживания (Quality of Service, QoS), т. е. скорости, приоритете, допустимом уровне ошибок и максимальной задержке, - содержатся в предусмотренном для каждого объекта дескрипторе объекта. Дескрипторы могут также содержать текстовую информацию об объекте. Дескрипторы объектов передаются в специальном элементарном потоке, что позволяет добавлять к сцене новые объекты или удалять ненужные динамически. Команды описания сцены и объектов в формате BIFS также составляют отдельный элементарный поток и могут быть модифицированы без изменения собственно медиа-данных в других потоках. Таким образом можно выстраивать различные сценарии на базе одних и тех же медиа-потоков. Это пригодится и для интерактивных применений с многовариантным развитием сюжета, и для подстройки сложности сцен и объектов под доступный уровень QoS: в обоих случаях можно заранее предусмотреть несколько командных BIFS-потоков, а в процессе передачи оперативно выбирать из них подходящий в качестве действующего сценария. Кроме того, облегчаются адаптация готовых произведений для новой среды доставки (например, СD-продуктов для WWW) или извлечение готовых объектов для использования в новых произведениях.

Стандартом предусмотрено наличие отдельного, общего для всех типов потоковых данных уровня синхронизации, который для каждого элементарного потока определяет минимальную единицу доступа, или access unit (т. е. аудио- или видеокадр, команду описания сцены и т. п.), выстраивает для каждого объекта и для всей сцены временную базу и обеспечивает синхронизацию между ними. На  синхроуровне элементарные потоки разбиваются на пакеты, к ним добавляется информация тайминга (time stamps) - чтобы на
приемном конце декодер смог адекватно собрать и отобразить результирующий поток. Затем специальный подуровень мультиплексирования (FlexMux) определяет элементарные потоки с близкими требованиями к QoS и группирует их - для того, чтобы
минимизировать число сетевых соединений, запрашиваемых от транспортного уровня. Сам транспортный уровень (как и более низкие) в стандарте не рассматривается, однако установлены методы защиты от ошибок, ресинхронизации и восстановления данных при
сбоях в механизме доставки.

На приемном конце происходит декодирование потоков, выделение объектов и построение сцены. Особо подчеркнем, что, как и в случае MPEG-1 и MPEG-2, MPEG-4 не устанавливает правил процесса кодирования; не касается он и деталей реализации декодера, задавая лишь правила поведения некоего абстрактного устройства, а также синтаксис и семантику двоичных потоков, с которыми оно  должно уметь работать. Для этого в MPEG-4 определена модель декодера - System Decoder Model. На практике допустимы всевозможные реализации декодеров MPEG-4: от отдельных специализированных терминалов до функций, встроенных в телевизор или приставку, от мобильных коммуникационных устройств до программных модулей в ПК, с разной степенью сложности (см. ниже).

Авторские права

Одна из самых острых и трудно решаемых проблем цифрового мира, проблема, сегодня уже тормозящая его развитие куда сильнее, чем проблемы технологические, - это защита авторских прав. Стандарт же MPEG-4, претендуя на роль универсальной среды доставки контента, немедленно становится средоточием и болевой точкой этой проблемы. Понимая это, разработчики стандарта с самого начала привлекли представителей различных творческих профессий и отраслей, стремясь добиться единого подхода, определить синтаксис и набор средств идентификации и защиты прав интеллектуальной собственности (IPR) для MPEG-4. В результате был выработан комплекс  мер, известный под названием IPMP (Intellectual Property Management & Protection), подробное изложение которых выходит за рамки этой статьи (ссылки на соответствующие документы можно найти на сайте MPEG). Вкратце упомянем, что с дескриптором каждого объекта или потока может быть связан специальный блок данных (IPI, Intellectual Property Identifier), содержащий уникальный идентификатор в одной из принятых международных систем (ISAN, ISRC или др.), характеристику типа контента, а также имя обладателя прав или указатель на него (на них). Каждый декодер имеет блок (интерфейс) IPMP, который обрабатывает данные о защите. Стандартом предусмотрены также точки входа для шифрования/дешифрования информации. Выработанная система позволяет реализовать
механизмы отслеживания авторских прав, автоматического отчисления авторских процентов, проведения аудита и расследований в случае предполагаемых нарушений, строить разные уровни защиты контента - по соображениям коммерческим, личностным,
секретности и т. п. Однако эти «верхние» уровни защиты и управления правами не входят в стандарт и могут быть реализованы разработчиками приложений и/или держателями контента.

Естественно, и эти меры, особенно при наличии программно реализованных плейеров MPEG-4, в принципе можно обойти, так что работа над проблемой авторских прав продолжается.

«Профили» MPEG-4

Как видите, стандарт MPEG-4 в его полном виде - весьма разветвленный и многоплановый конгломерат, включающий множество механизмов и инструментов, так что его полная реализация может показаться задачей почти невыполнимой. Чтобы не допустить неконтролируемого размножения малосовместимых частичных реализаций, был установлен набор подмножеств, которые содержат ограниченные наборы инструментов и функций MPEG-4, существенных для тех или иных применений. Эти подмножества были названы «профилями» (Profile), они могут частично пересекаться, полностью включать в себя функциональность «младших» подмножеств или  добавлять те или иные функции. Для большей гибкости и упрощения подбора вариантов профили были разбиты по категориям: девять визуальных (включающие в свою очередь профили для работы только с живым видео, только с анимацией и гибридные), четыре  звуковых, три графических и четыре профиля описания сцены. Кроме того, в зависимости от доступной вычислительной мощности декодера, для каждого профиля установлены один или несколько уровней (Level - не путать с Layer модели ISO). Таким образом, при построении декодера MPEG-4 разработчик должен выбрать комбинацию профилей и уровней и после этого обязан реализовать описываемый ими набор функций в полном объеме. Потребитель же, прочтя в паспорте устройства или программы эту комбинацию,  сразу понимает, что умеет, а чего не умеет данный декодер. Реализации, построенные на основе одинаковой комбинации, должны быть полностью совместимы друг с другом. Естественно, в «предельном случае», выбрав комбинацию из всех старших профилей и уровней, мы получим полный набор функций MPEG-4.

Версия 2

В октябре 1998 г. был зафиксирован набор полностью готовых на тот момент функций и инструментов MPEG-4, этот набор был назван MPEG-4 Version 1 и передан на утверждение в качестве официальной спецификации стандарта. Все последующие доработки должны войти в MPEG-4 Version 2, которую планируется утвердить в ноябре 1999 г. Версия 2 не будет заменять функции Версии 1, а добавит к ней новые возможности, сама же Версия 1 ревизии не подлежит. Декодеры, построенные по Версии 1, не устареют с выходом Версии 2, поскольку новые функции будут реализованы как дополнительный набор профилей.

Что же ждет наc во второй версии стандарта? Список планируемых новых функций занимает пять страниц, мы назовем лишь некоторые из наиболее впечатляющих.

• Разрешение многопользовательского присутствия в сцене и взаимодействия с контентом. Значит ли это, что в принципе можно залезть через сеть в чужой телевизор и все там передвинуть или зайти в гости к соседу в виде аватара и сыграть с ним в Quake?

• Дальнейшее пополнение функций BIFS и сближение его с VRML.

• Введение формата файла MPEG-4 (MP4) на базе формата файла QuickTime, что позволит хранить (локально или распределено с URL-ссылками), копировать, редактировать, проигрывать на локальном устройстве и передавать полную презентацию в формате
MPEG-4.

• MPEG-J позволит загружать (в отдельном потоке) и запускать код Java на плейерах MPEG-4.

• Работа с полигональными 3D-моделями, поддержка уровней детализации модели (LOD).

• Вдобавок к анимации лица появится анимация тела (разработка ведется совместно с Humanoid Animation Working Group VRML).

• Стереоскопическое видео.

• Значительные усовершенствования на уровне DMIF, включая симметричные соединения отправитель-получатель вместо сервер-клиент, что позволит строить разговорные приложения и организовывать поиск в мультимедийных базах данных и многое другое.

Несмотря на беглое и схематичное изложение, объем статьи не позволил рассказать обо всех хитрых свойствах MPEG-4 и оценить многочисленные удивительные возможности и перспективы, которые сулит его внедрение (хотя на это и трудно было рассчитывать -
ведь даже краткий обзор стандарта, сделанный разработчиками, занимает 50 страниц!). Но мы видели свою задачу в том, чтобы создать ощущение надвигающихся перемен и побудить к дальнейшим самостоятельным поискам - и потому отсылаем читателя к
приведенной в конце статьи литературе, а также рекомендуем исследовать сайт разработчиков MPEG по адресу http://cselt.it/mpeg и справочный сайт www.mpeg.org .

Раз, два, четыре, семь, или MPEG как индикатор прогресса

За восемь лет у широкой аудитории успело сложиться представление о MPEG как об организации, целиком посвятившей себя вопросам сжатия медиа-данных - и это одна из причин, почему так поражает при первом знакомстве содержание стандарта MPEG-4. Но если разобраться, то даже само название MPEG - «Экспертная группа по движущимся изображениям» - показывает, что круг ее интересов значительно шире проблем сжатия. Просто на первом этапе «мультимедиа-революции» именно сжатие имело решающее значение, и в MPEG уделили ему наибольшее внимание, добившись, отметим, беспрецедентно успешного результата в деле примирения подходов и интересов многомиллиардных корпораций и целых индустрий.

Сегодня происходит сближение (начинается интеграция) телевидения и Интернета, персональных компьютеров и развлекательных приставок и плейеров, а медиа-контент, который потребитель получает из всех этих источников, становится не просто цифровым, но и все более интерактивным. И требуются новые стандарты, которые помогут разработчикам контента донести свои произведения до потребителя максимальным числом способов, а пользователям (зрителям) - получать со своего устройства доступ к медиа-контенту в любой его форме.

В целом можно сказать, что разработчики MPEG-4 собрали и обобщили многое из того, что было наработано за десять лет в ранее мало пересекавшихся областях и технологиях (QuickTime и VRML, 3D-графика и интерактивная «персонажная» анимация по типу Macromedia Director, разработка видеоигр, видеокомпозитинг, телевещание, потоковые видео и звук), и сумели объединить все это в новое качество.

Насколько быстро MPEG-4 станет общепринятым, и станет ли? Когда двадцать лет назад, вслед за появлением первых сетей с коммутацией пакетов, ISO была впервые предложена семиуровневая модель, многие упрекали ее в избыточности и тяжеловесности, в
«сложности в реализации», старались выкинуть «лишние» уровни или вообще обойтись без нее, предлагая альтернативные концепции. Однако постепенно модель была воспринята всеми и по существу легла в основу устройства всего построенного за эти годы связанно-цифрового мира - даже мыслить многие стали в категориях этих семи уровней. Подобным же образом в 1991 г., в весеннюю пору «цветения ста цветов» в области сжатия мультимедиа-данных, критически воспринимались разработки группы MPEG, о проекте стандарта говорили, как о «слишком сложном, чтобы быть реализованным», сетовали на высокий уровень требующейся аппаратной поддержки...

Сегодня уже не только MPEG-1, но и MPEG-2 может быть реализован программно, на базе этих стандартов выстроились целые индустрии, стандарты MPEG отмечены наградами Emmy.

Поэтому, несмотря на кажущуюся (особенно для вещателей!) сложность MPEG-4, имеет смысл подробно разобраться с этим стандартом - он с очень большой вероятностью определит развитие компьютерных, вещательных и даже мобильных систем в ближайшие годы. Подчеркнем еще раз - разбираться придется не только программистам, для которых открывается новая интересная ниша (реализация сложной и многосторонней функциональности MPEG-4 для самых разных клиентских и серверных платформ), но и
гуманитарно-творческим людям, авторам и продюсерам вещательных программ. Вслед за интерактивным контентом на дисках и в Сети интерактивными становятся телепрограммы - и навыки программирования и алгоритмического мышления очень пригодятся разработчикам этих новых программ. Давний термин «TV programming» - телевизионное программирование, означавший искусство составления сетки вещания, приобретет новое, теперь вполне компьютерное звучание. Опять всем нужен программист... С появлением MPEG-4 наконец-то обретает более реальные и понятные очертания ITV - интерактивное телевидение, о котором спорят уже несколько лет и под которым каждый понимает что-то свое - от детективов с многовариантным развитием сюжета до простого видео-по-запросу и даже до «ИТВ по-русски» - возможности взять в руки телефон и позвонить в студию.

MPEG-4 появился вовремя: пока еще фактически никто (кроме Apple) не предложил своего готового и работоспособного варианта единой архитектуры доставки мультимедиа, и потому открывается реальная возможность избежать сценария типа «вавилонской башни» в создающейся единой многомиллиардной индустрии. Но ведь для этого комитету MPEG надо было заранее почувствовать тенденцию и начать свою разработку на несколько лет раньше!

... В конце 1996 г. группа MPEG объявила о начале работы над новым стандартом - MPEG-7. В ноябре 1998 г. был закончен прием предложений по этому стандарту, а окончательное его принятие планируется на ноябрь 2000 г. Официально он называется Multimedia Content Description Interface. Чтобы понять, что это такое и почему он необходим, нам придется познакомиться, в дополнение к «контенту», с новым набором понятий цифровой эпохи - метаданные, цифровые медиа-активы, уловить тонкие различия в употреблении английских слов reusing, repurposing, redirection и re-expression (все это применительно к контенту) и, возможно, попытаться подобрать им русские аналоги.
 

    © Designed by ADAX GmbH, 2003 -