Способ и устройство высокоэффективного сжатия мультимедийной информации большого объема по критериям ее ценности для запоминания в системах хранения данных

Иллюстрации

Показать все

Изобретение относится к средствам сжатия, передачи и хранения в компактном виде мультимедийной информации. Технический результат заключается в повышении быстродействия при сжатии мультимедийной информации. Способ сжатия мультимедийной информации (МИ) большого объема в цифровой форме для ее передачи по каналам связи или запоминания в системах хранения данных, в котором видео, речевой и аудио потоки кодируются с учетом их специфики соответственно видео, речевым и аудиокодеками, уплотняются в общий мультимедийный поток, передаваемый по телекоммуникационным каналам или помещаемым в виде отдельных файлов или в общем файле в запоминающие устройства, а на выходе канала или при извлечении из запоминающего устройства восстанавливаются в форме, приемлемой для потребителя или лица, принимающего решения, отдельно по каждому потоку или после разуплотнения общего потока и декодирования сжатой видео, речевой и аудио информации объединяются в общий восстановленный мультимедийный поток, общий поток и его отдельные составляющие делятся на информационно значимую часть и информационно незначимую часть по критериям ценности информации, при этом значительно сокращается в объеме информационно незначимая часть. 6 н. и 9 з.п. ф-лы, 6 ил.

Реферат

Область техники, к которой относится изобретение

Изобретение относится к области сжатия, передачи и хранения в компактном виде мультимедийной информации (МИ), циркулирующей в системах передачи/записи видео, изображений, речевых сообщений, аудиосигналов, графических и текстовых файлов, включая системы речевой связи, видеоконференсинга, видеонаблюдений, ТВ и радиовещания, системы хранения данных, а также поисковые системы, в которых вся МИ или ее отдельные фрагменты должны соответствовать критерию информационной достаточности (или полезности/ценности) для приема решения относительно адекватности информации, воспроизводимой после ее передачи по телекоммуникационной среде или помещения в систему хранения данных (СХД), поставленной цели при значительном сжатии данных с исключением (потерями) той доли МИ, которая не отвечает критериям ценности для системы принятия решения и/или лица (лиц), принимающего(их) решение (ЛПР), и качественным представлением тех фрагментов МИ, которые отвечают критериям ценности.

Уровень техники

В науке и технике широко используются методы сжатия данных с потерями и без потерь, которые позволяют сократить их естественную избыточность и экономить ресурсы систем передачи информации (СПИ) и/или систем хранения данных (СХД), а также систем поиска информации за счет уменьшения первоначального объема данных, порождаемых их источником. Теоретико-информационный аспект сжатия данных (кодирования источника) был развит в работах К. Шеннона и других исследователей и определялся функцией «скорость-искажения» (Rate-distortion function) или R=ƒ(e), где R - скорость потока данных в бит/с на выходе кодера источника, а е - ошибка (погрешность) или искажения при воспроизведении данных на выходе декодера источника (при сжатии без потерь можно обеспечить е=0, если исходные данные представлены в цифровом виде), применительно к передачи данных по каналу связи с пропускной способностью С бит/с, причем должно выполняться соотношение R<C для обеспечения нормальной связи. Здесь R и е выступают в роли основных критериев качества кодирования источника. Фактически речь здесь идет о так называемом сжатии данных с потерями, т.е. кодировании потока данных на выходе источника при отсутствии ошибок в канале и выполнении условия передачи R<C, контролирующего уровень информационных потерь е>0, которые можно оценить на выходе декодера источника [1, 2]. При этом задержка кодирования и сложность кодирования, используемые как дополнительные критерии (факторы), должны быть ограниченными для реальных приложений.

Характеристикой эффективности сжатия данных служит коэффициент сжатия K=Iвх/Iвых, где Iвx - объем информации на выходе источника (возможно, порождаемой за некоторый интервал времени Т, если анализу подвергается поток данных на выходе источника, т.е. на входе кодера источника), а Iвых - объем информации на выходе кодера источника (возможно, за указанный интервал времени Т, если анализируется результат кодирования потока данных на выходе кодера источника). Потери е при этом определении эффективности сжатия фиксируются. Эффективность сжатия данных зависит от уровня их избыточности, но также метода кодирования и его способности сократить или даже устранить эту избыточность.

Такие мультимедийные потоки как видео/изображений или речи/аудио являются примерами выходных данных на выходе источника (например, фото и видеокамеры или микрофона). При их приведении к цифровому виду и кодировании обязательно вносится погрешность е, определяющая качество оцифровки и кодирования. При оценке качества широко используются такие объективные критерии качества как среднеквадратическая ошибка (СКО) и ее вариации, максимальная погрешность и отношение сигнал/шум (SNR)/пиковое SNR (PSNR).

Для кодирования изображений широко используются кодеки JPEG и JPEG-2000, включая опцию сжатия без потерь цифровой копии изображения, а для кодирования видео используются кодеки MPEG-1, MPEG-2, MPEG-4 или их версии в виде стандартов (Рекомендаций) ITU-T Н.26х, а также проприетарные кодеки VP8, VP9 и др. [3]. Коэффициент сжатия К варьируется от 10 до 500 раз в зависимости от допустимой скорости видеопотока или выделенного объема памяти для хранения изображений/видео, уровня заданного качества, типа кодека и специфики изображений/видео. Широко используемый в таких кодеках принцип сжатия изображений и видео с потерями (в предположении, что они цветные (в частном случае монохромные, полутоновые) и представлены в известном формате RGB или YUV) таков: устранение пространственной избыточности на базе перехода из пространственной области в частотную путем трансформации матрицы изображения как в JPEG (или опорного кадра, как в MPEG 2 и 4) и использования системы ортогональных функций (преобразование Фурье, Уолша, дискретного косинусного преобразования (DCT), вейвлетов и др.) и тонкого или грубого квантования компонент, что вносит погрешность е, и последующее кодирование квантованных компонент на принципах энтропийного кодирования без потерь (в частности, арифметического кодирования); устранение временной избыточности в соседних кадрах видеопотока, в которых, как правило, есть небольшие изменения за счет движения объектов в кадре и/или видеокамеры, выявляемые оценивателем движения (motion estimator) и определением векторов движения для кодирования только измененных фрагментов нового кадра по отношению к опорному (что детально описано в стандартах MPEG 2 и 4, Н.26х).

Для кодирования речи используются речевые кодеки по стандартам ITU-T серии G.7xx (G.711, G.718, G.719, G.722.2 (AMR WB), G.723.1, G.726, G.729, G.729.1 и др.), кодеки GSM-FR, SILC, iLBC, IPMR и другие проприетарные кодеки. В тех случаях, когда кодирование учитывает специфику речеобразования (на базе модели «источник-фильтр») и слухового восприятия, а мера качества кодирования речи является субъективной (например, разборчивость по ГОСТ или Mean Opinion Score (MOS)), то такой кодек называется вокодером (voice codec) [4]. Коэффициент сжатия варьируется от 5 до 50 раз в зависимости от требуемой скорости речевого потока на выходе кодера, уровня заданного качества, допустимой задержки и специфики речевого сигнала (с учетом пауз в речи). Если же форма оригинального сигнала сохраняется на выходе кодека с контролируемой погрешностью е, то такие кодеки называются кодеками речевой волны (waveform codecs). Примером такого кодека является речевой кодек G.726, реализующий метод адаптивной дифференциальной импульсно-кодовой модуляции (ADPCM) во временной области, но его эффективность по значению К невелика: обеспечивается К=3…5.

Для кодирования аудиосигналов используются такие известные и широко используемые аудиокодеки как МР3, ААС, ААС+, WMA, Ogg Vorbis и др. [5]. Практически все аудиокодеки построены на основе метода waveform coding, но обработка сигнала производится, как правило, в частотной области. Коэффициент сжатия К аудиопотока варьируется от 5 до 30 раз и зависит от полосы частот аудиосигнала и требуемого качества воспроизведения аудио при декодировании.

Уровень потерь (ошибок) е можно опустить до нуля, что имеет место в кодеках, обеспечивающих сжатие без потерь, а также в методах дедупликации, используемых в СХД для сжатия массива символьных данных путем исключение дублирующих копий повторяющихся данных [6]. Примером могут служить архиваторы zip и rar, широко используемые для кодирования символьной информации (например, буквенно-цифровых текстов), а также энтропийные кодеки в отмеченных выше стандартных методах сжатия изображений и видеоданных, но они представляют относительно малый самостоятельный интерес для кодирования мультимедийной информации из-за весьма низкой эффективности сжатия (коэффициент сжатия данных, равный двум-трем, считается для кодирования текстов вполне нормальным), но используются как составная часть общего метода сжатия мультимедийных данных.

Одна из особенностей этого классического теоретико-информационного подхода состоит в том, что при декодировании информации, переданной по каналам СПИ или хранящейся в сжатом виде в системах памяти, требуется максимально качественно ее воспроизвести и, возможно, с небольшой погрешностью (ошибкой) е, которая является некой платой за относительно высокий коэффициент сжатия К первоначального объема данных Iвx. Считаем что очень качественное (HD) видео при частоте кадров (fps) 30 требует скорости R=50 Мбит/с, а относительно низкое по качеству требует R=128 Кбит/с. Для перевода высокоскоростного видеопотока в низкоскоростной нужно обеспечить коэффициент сжатия не выше К=400. Применительно к речи качественный речевой сигнал в полосе 7 КГц при передаче или записи требует скорости R≥32 Кбит/с. Он может быть сжат до скорости 1.2 Кбит/с в «телефонной» полосе 4 КГц (хотя качество речи при декодировании будет довольно низким: по пятибалльной шкале оценки качества MOS~2.8…3.0). Т.е. К~ 30…50.

Однако такой подход (его можно назвать традиционным), широко освещенный в технической литературе, формирует фундаментальную границу эффективности кодирования источника мультимедийной информации из-за требования «воспроизвести полный сигнал (изображения, видео, речь, аудио) практически в его первоначальном виде, но с относительно небольшими контролируемыми потерями», чтобы наше зрение или слух почти не заметили при просматривании или прослушивании этих потерь. Этот подход предполагает, что почти ничего нельзя упустить («все важно») при восприятии и воспроизведении и человек или распознающая машина должны получить все в деталях при декодировании изображения/видео или речи/звука даже в ситуациях, когда полное видео или речевой/аудиосигнал в целом не несет информации, важной для зрителя и/или слушателя при вынесении им решений о сущностных ситуациях или событиях, которые показываются, описываются, сопровождаются звуком или высказываются в видео, аудио и/или речевом потоке. Указанный подход не воспринимает одну часть мультимедийной информации как «информационный шум», отвлекающий внимание и существенные ресурсы, включая временные, или даже мешающий принимать правильное решение. Целесообразно эту часть в поисковых системах и системах принятия решений отнести к «потерям». Другая его часть (как правило, значительно меньшая по объему) является информационно содержательной, полезной, ценной для пользователя и именно ее надо записывать в СХД с целью последующего воспроизведения с требуемым качеством и анализа при поиске релевантных данных или для поддержки систем принятия решений. Таким образом, сжатие данных во многих реальных ситуациях рассматривается в парадигме их ценности для ЛПР, а не в парадигме «скорость-искажения» безотносительно к их информационной значимости для того же ЛПР.

Классификация потока данных для целей более эффективного их сжатия широко используется, в частности, в патенте [2], где выбор собственно кодирования для сжатия данных и кодеков зависит или не зависит от контента. Другой пример применительно к речевому потоку связан с использование детектора активности речи (Voice Activity Detector - VAD), который включается в состав речевых кодеков практически во всех СПИ с коммутацией пакетов (в частности, в Интернете). VAD позволяет классифицировать речевой поток на участки наличия речи и участки отсутствия речи (паузы), т.е. это классификатор «речь/пауза». При этом паузы считаются неценными фрагментами потока и их не передают, а участки с речевым сигналом - ценным фрагментом.

Критерий, позволяющий оценить в потоке мультимедийных данных что является информационным шумом, а что - полезной информацией, определяется поставленной задачей, включающей составной частью анализ релевантной информации, и самим пользователем (даже если обработку данных ведет машина), которого интересует результат решения такой задачи, т.е. достижения поставленной цели. В тех ситуациях, когда важно оставить при сжатии данных с потерями только информативную с позиций пользователя как ЛПР (заинтересованного зрителя или слушателя) часть всего объема данных, можно даже получить очень большой коэффициент сжатия (например, К=1000 и более). Можно назвать такой подход суперсжатием (или сжатием данных с ценностным критерием) и его не надо путать с фрактальными методами сжатия данных [7], обещавшими указанные значения К, но так и не реализованными для большинства типов изображений и видео, которые, однако, вписываются применительно к компресии МИ в рамки традиционной парадигмы «сжатия с потерями» и функции «скорость-искажения». Указанный подход, определяемый полезностью или ценностью информации для пользователя, изучался разными исследователями, включая М.М. Бонгарда, Р.Л. Стратоновича, А.А. Харкевича, А.П. Веревченко и других крупных ученых. Важная цитата из [8] по этому вопросу такова: «Известно, что работа с информацией осуществляется с определенной целью. Увеличение вероятности достижения цели оценивается пользователем, к ней стремящимся. Поэтому стоит задача в получении точной и однозначной информации, освобожденной от избыточности. Определено, что избыточная, повторная информация имеет нулевую полезность, так как не увеличивает и не уменьшает вероятность достижения цели… Таким образом, полезность информации - это оптимальное удовлетворение определенным требованиям информационных запросов потребителей при принятии ими решений в конкретных условиях (ситуациях)».

Приведем поясняющие примеры отбора мультимедийной информации по критерию ценности/полезности для решения некоторых нестандартных задач, считая, что в них можно использовать известные перечисленные выше методы сжатия мультимедийных данных, а также человека (или виртуальную распознающую машину) для интеллектуальной классификации кадров в видеопоследовательности, выявления специфических фрагментов (ключевых слов и выражений) в речевом сообщении и детектировании определенных акустических событий в аудиопотоке.

В первом примере пользователем информации в изображении является врач, диагностирующий заболевание по цифровой рентгенограмме легких пациента на своем компьютере. Оригинальная рентгенограмма снята с высоким качеством (малое значение е), трансформирована в цифровую форму и кодирована с использованием кодека JPEG, контролирующего CKO/PSNR. В исходной рентгенограмме (в оригинале на фотопленке) в правом легком видна маленькая (по отношению к площади оригинала) черная точка, свидетельствующая о начале болезни. Но в JPEG-версии рентгенограммы этой точки нет (она исключена), но сама рентгенограмма в целом имеет довольно высокое разрешение. Т.е. с позиций использования критерия СКО погрешность е, связанная с исключением указанной точки, невелика, а с позиции врача-диагноста в ней упущена очень важная диагностическая информация (не был указан критерий ценности при использовании конкретного метода кодирования). Для врача интересна только эта часть целого изображения во всех ее деталях, а остальная часть или не интересна, или как фон может быть представлена с низким разрешением, т.е. может быть сжата со значительно большим значением К и большей погрешностью е. Т.е. для диагноста (в частности, лица принимающего решение - ЛПР) важно не пропустить релевантную для принятия решения информацию на фоне несущественной, но детально представленной информации, причем большого, как правило, объема. В данном примере критерий СКО для всего изображения без указания что полезно/ценно в цифровой копии рентгенограммы не может обеспечить выделение важной для врача информации и его необходимо дополнить адекватным задаче диагностики критерием ценности и в соответствии с ним выделять из информации только ценную для диагностики часть, нивелируя (или даже совсем исключая) неценную часть, и при этом ценная часть должна быть представлена с высоким качеством, обеспечивающем отображение диагностических данных.

Во втором примере рассматривается видеоконференция между двумя удаленными участниками (р2р-сеанс), т.е. имеются два видеопотока по двусторонней линии связи (виртуальной или реальной) между этими участниками. Участники обсуждают некоторую тему с частыми отвлечениями от нее. Фон, на котором представлены участники, статичен. Вся эта видеоконференция записывается и запись сеанса связи (исходный видеофайл) в сжатом виде помещается в систему хранения данных (СХД). Для некоего лица или организации, принимающих решения (ЛПР), через некоторое время на основании записи необходимо выяснить: 1) кто конкретно участвовал в конференции с каждой стороны, 3) имеются какие-либо специальные события в видеопотоке и 3) были ли некоторые ключевые слова произнесены при разговоре на определенную тему и кто их произнес. (Другие ЛПР могут ставить другие вопросы. Если таких лиц много, то записываемая в СХД информация, потенциально востребованная этими лицами, должна отвечать на вопросы этой группы лиц). Для данного случая это и будет критериями ценности, если отобранная в соответствии с ним информация в сеансе ВКС позволяет ответить на перечисленные вопросы.

Пусть скорость исходного видео со сжатием по стандарту ITU-T Н.264 (MPEG-4, part 10) равна 512 Кбит/с при 30 кадрах/с, а скорость речи 32 Кбит/с, т.е. общий уже обработанный мультимедийный поток в одну сторону составит 544 Кбит/с, в обе - 1.088 Мбит/с (не учитываем служебные данные при организации связи и разрешение видео считаем стандартным (SD)). Пусть два участники видеоконференцсвязи (ВКС) говорят T=1 час. Общий объем переданной информации Iвx = R * T = 1.088 Мбит/с × 3600 с = 3916.6 Мбит = 489.6 MB. Этим самым задан критерий качества исходного видео (значение искажения е) применительно ко всему видеопотоку (т.е. как к информативной, так и неинформативной его части).

Если интересуют только участники и не было ли при видеосвязи других людей в кадре, то достаточно выявить только опорные I-кадры (изображения участников), которые в среднем повторяются через каждые 32 кадра (их частота может задаваться в диапазоне 8…100) и представляются в сжатом виде (~30 KB на кадр). При этом очень быстрые изменения в видеоряде могут и не фиксироваться оценивателем движения, встроенным в кодек Н.264 [9]. Для записи в СХД с целью хранения длительное время нужно оценить и записать только информативные кадры (если в текущем кадре по отношению к предыдущему информативному кадру были довольно сильные изменения в сцене, например, появляется новый человек или участник выходит из поля зрения видеокамеры, то такой кадр объявляется информативным). Пусть на каждой стороне были в кадре другие люди помимо самих участников сеанса видеосвязи (т.е. они на некоторое время появлялись в поле зрения видеокамеры), которые постоянно присутствовали в кадре, а в целом динамика участника в кадре была относительно мала (имеются в виду моргание, разговор, повороты головы, движения руками и пр.). Пусть мы записали для каждого участника сеанса ВКС такие кадры: участник j, j=1,2, один в кадре; участник j с другим человеком в кадре; участник j один в кадре (снова), т.е. на каждого участника получилось три информативных кадра и всего таких кадров 6 и для их записи требуется память в размере 30 KB × 6 = 180 КВ. Отметим, что информативные по критерию ценности для ЛПР кадры (далее - ключевые кадры) совпадают с некоторыми опорными кадрами, определяемыми кодером Н.264, но число последних в среднем за 1 час равно 30×3600/32=3375, т.е. существенно больше числа действительно информативных (ключевых) для ЛПР кадров. При записи этих информативных кадров теряются движения и динамика в потоке видеокадров, когда участники говорят, моргают, жестикулируют, но известно и зафиксировано время t их появления в видеопотоке. Т.е небольшая динамика в поведении участников и лиц, вошедших в кадр, никак не учитывается в процессе записи в этих шести кадрах, также не учитываются возможные эмоции участников, а только их и других лиц присутствие в некоторые моменты времени из интервала Т.

При этом выделить в речи, информационный поток которой существенно слабее по значению битовой скорости, чем видеопоток, ключевые речевые события (высказывания, словосочетания, слова) довольно сложно, если не прибегать к современным относительно надежным методам распознавания в дикторонезависимом режиме слитной речи с произвольной тематикой и анализа текста на выходе распознавателя на предмет выделения специальных событий семантического (возможно, и прагматического) уровня. Если такого надежного механизма нет, то речевой сигнал в своем полном виде должен быть записан (желательно в сжатом виде для экономии памяти в СХД, но с приемлемым качеством). Пусть такие ключевые речевые события выявлены и для сохранения мини-контекста для этих событий записывается речь до и после их наступления (и пусть длина записи 20с = 10с + 10с). Предположим, что пять выявленных речевых событий (слов или высказываний) приписаны участнику 1 и два - участнику 2. Тогда речевой сигнал общей длительностью (5+2) × 20с = 140 с записывается в СХД. Это требует объема памяти 32 Кбит/с × 140с = 4480 Кбит = 560 КВ. Вместе с записанными кадрами это составит 740 КВ. В целом эта информация позволяет ответить на вопросы 1), 2) и 3), интересующие ЛПР. Методы и средства распознавания ключевых слов в потоке слитной речи уже разработаны и представлены в виде соответствующих продуктов на рынке [10, 11].

Полученный в этом примере коэффициент сжатия данных составляет К=489600/740=661, т.е. уже сжатый видео поток данных (с К ~ 30) дополнительно прорежен без информационных потерь для ЛПР более чем в 600 раз. Общий коэффициент сжатия К=30×661=19848. При этом в данном примере выделения ценной для ЛПР части мультимедийного потока запись речи требует больше памяти, чем запись изображений (выделенных ключевых кадров).

В том случае, если механизм распознавания речевых событий (т.е. ключевых слов и выражений - КСВ) на семантическом уровне не используется, то речевой сигнал должен быть записан в сжатом виде целиком, включая паузы (и считая, что участники говорят по очереди). Пусть используется вокодер на скорости 8 Кбит/с (например, кодек G.729). Тогда общий объем речевой информации равен 8 Кбит/с × 3600 = 28800 Кбит = 28.8 Мбит = 3600 KB = 3.6 MB. Вместе с кадрами из видеопотока общий объем станет 180КВ + 3600КВ = 3780КВ. При этом коэффициент сжатия уменьшится до значения К=489600/3780=129.5, т.е. в пять раз. При этом объем записи всей речи в данном случае существенно превосходит объем записи выделенных изображений (кадров). Если исключить паузы (обычно их не более 20% в речи), то можно немного увеличить значение К.

Третий пример связан с видеонаблюдением в интересах безопасности. Видеокамера направлена на определенное место и работает 24 часа в сутки. Качество видео, как исходного материала, довольно высокое и соответствует данным из второго примера (скорость 512 Кбит/с, кодек Н.264, ночью используется ИК-подсветка). Общий объем записываемой информации за сутки составляет Iвx=512×24×3600=44236800 Кбит=5529600 KB=5529.6 MB. Службу безопасности интересуют только кадры, где 1) представлена наблюдаемая сцена утром, днем, вечером, ночью, т.е. достаточно 4 кадра с разрешением SD, 2) динамика в сцене, вызванная проходом людей и проездом подвижных средств, 3) оставлением предметов, которые фиксирует подсистема отслеживания и распознавания объектов, входящая в систему видеонаблюдения, в разных местах наблюдаемой сцены. Таким образом, статические ситуации представлены одиночными кадрами, а динамические ситуации должны быть полностью записаны в память (возможно, с дополнительным сжатием данных) даже в случае, когда динамика (изменения) в кадре по отношению к предыдущему совсем мала.

Предположим, что примерно 60% времени сцена статична (динамика ниже определенного порога). В этом случае, как указано выше, она представлена четырьмя кадрами общим объемом 30 KB × 4 = 120 КВ. Остальное время (40%) производится запись динамической сцены (с любыми изменениями в ней, превышающими некоторый порог динамики), что требует за сутки информационного объема 512×0.40×24×3600=17694720 Кбит=2211840 КВ=2211.8 MB. Т.е. общий объем информации, записанный в память СХД, составляет Iвых = 2211840 + 120 = 2211960 KB = 2211.9 MB и коэффициент сжатия К=5529.6/2211.9=2.5, т.е. значение К весьма скромное и при учете первоначального сжатия в 30 раз (как в предыдущем примере) в общем составит всего 75. Но даже в этом случае имеется выигрыш в сокращении объема памяти для записи цифрового видео и сокращения времени анализа ситуаций и положения объектов в сцене человеком или машиной для системы безопасности, хотя он может быть существенно увеличен, если добавить в систему интеллектуальный анализ сцены для выбора информативных кадров, что является самостоятельной задачей.

Четвертый пример рассматривает запись ТВ-передачи (видео, речь, аудио) в качестве оригинала на предмет ее цензуры с параметрами сжатия данных: видеокодек MPEG-4, 25 кадров/с, скорость 2.048 Мбит/с, длительность записи 1 час; звуковой сигнал (речь и аудио) записывается аудиокодеком МР3 и его битовая скорость 128 Кбит/с, т.е. скорость общего медиапотока 2.176 Мбит/с и за 1 час объем информации составит 7833.6 Мбит=979.2 MB. Эти параметры определяют качество всего мультимедийного потока (всех трех его составляющих), хотя для реализации цензуры этого файла можно снизить качество как видео, так и звукового потока без потери информации для цензора.

При анализе записанного медиа-файла необходимо выявить речевые фрагменты и игнорировать музыкальное сопровождение записи, а в речевых фрагментах определить по критериям цензурирования отдельные высказывания из заданного словаря высказываний и слов и оставить речевой контекст для этих высказываний до и после их произнесения длительностью 15 с, что составит в общем 30с. В видеоряде интерес для анализа (по критериям ценности) представляют кадры, в которых человек произносит эти высказывания, а также сцены или фрагменты сцен, подобные тем, что имеются в базе данных (БД) специальных изображений (кадров). Выделенные таким образом фрагменты видеопотока и речевого потока помещаются в СХД.

Предположим, что в конкретном медиа-файле 30% времени занимает музыка, 20% паузы, а 50% речь (возможно, иногда сопровождаемая музыкой), а мы располагаем надежным классификатором речь/аудио/пауза для выявления речевых фрагментов и пауз. Предположим также, что в речевых фрагментах мы можем довольно надежно выделить участки, где произносится слова или выражения из заданного словаря и таких выражений/слов выявлено в полном файле 20. Т.к. необходимо записать видео этих высказываний, то это соответствует записи видеопотока общей длительностью 20 × 30с = 600 сек. При этом его скорость можно понизить с 2.048 Мбит/с до 512 Кбит/с за счет некоторого снижения качества, т.к. стоит задача подвергуть файл цензуре и несколько сниженное качество вполне обеспечит ее решение.. Соответствующий объем равен 512 × 600 = 307200 КВ = 307.2 МВ.

Пусть из БД изображений отобрано 15 кадров, наличие близких кадров к которым должно быть выявлено и зафиксировано в ТВ-видеофильме. Считаем, что мы располагаем подсистемой, которая с приемлемой надежностью может обнаруживать похожие изображения (такие решения уже присутствуют в известных поисковых системах, например, в поисковых системах Яндекс или Google [12, 13]. Пусть обнаружено 120 таких кадров в файле, причем 10% из них мало соответствуют критерию похожести, но они все попадают в интересующий цензора набор. Для запоминания каждого кадра в отдельности требуется 30 КВ (качество будет немного снижено по сравнению с оригиналом). Требуемая память 120 × 30 = 3600 КВ = 3.6 МВ. А всего на кадры требуется памяти в объеме 307.2 + 3.6 MB = 313.8 MB. Объем служебной информации будет существенно меньше (не более 10 байтов на кадр) и поэтому она не принимается в расчет.

Запись 20 речевых высказываний в контексте звучит 20 × 30 сек = 600 сек. При этом для указанной задачи можно при некотором снижении качества записанной речи использовать вокодер G.729 (8 кбит/с), который подготовит выделенные речевые участки (без пауз) объемом 8 × 600 = 4800 Кбит = 600 KB, что практически не влияет на общий объем 313.8 + 0.6 MB = 314.4 MB

Итого, для хранения в СХД этого «урезанного» файла для цензурирования ТВ-видеофильма достаточно выделить объем в 314 MB. Коэффициент сжатия К=3.11, т.е. уже сжатый медиопоток (коэффициент сжатия К не менее 10) дополнительно сокращается в объеме примерно в три раза для решения задачи цензуры, которая может быть решена значительно быстрее ввиду сокращения объема просматриваемого материала. Но для этого требуются надежные классификаторы аудио/речь/пауза и надежный поиск кадров в видеопотоке для сравнения со сценами на эталонных кадрах из БД изображений.

Раскрытие изобретения

Цель данного изобретения - создание такого способа и реализующего его устройства для высокоэффективного сжатия мультимедийной информации большого объема по критериям ее ценности/полезности, которые по сравнению с существующими методами и устройствами, контролирующими «искажения» или усредненные ошибки в полном медиа-потоке, включающем как информационно важные для ЛПР, так и информационно незначимые его части, позволяют отобрать для запоминания только информационно-содержательные фрагменты для решения возникающих в реальных условиях задач и достижения поставленных ЛПР целей и представить эти фрагменты по возможности в более компактном виде, чтобы тем самым экономить память в системах хранения данных, но также время для решения поставленных задач и достижения поставленных целей, так как «информационный шум» и присутствующая избыточность исключаются или значительно сокращаются в своем объеме.

Для достижения этой цели предлагаются выполнить следующие позиции:

1. Задать или выбрать из определенного списка критерии ценности/полезности текстовой (символьной), графической, речевой, аудио и видеоинформации в мультимедийном потоке на основе специфики ее использования и/или опроса представительской группы лиц, принимающих решения (ЛПР), входящих в круг тех людей и организаций, которые используют или потенциально могут использовать мультимедийную информацию, хранимую в СХД, для решения своих информационных задач в рамках систем принятия решений. Состав ранжированного в соответствии с приоритетами списка критериев может меняться (некоторые его позиции могут исключаться, а другие - добавляться).

2. Определить эталонные элементы (записи или образцы) в базе данных (БД) изображений, БД ключевых слов и выражений, БД акустических сигналов и акустических событий, которые представляют собой наборы символьных и сигнальных (или параметров сигналов) записей и несут ценностный интерес для ЛПР с точки зрения вхождения соответствующих элементов этих баз данных в видеопоток, речевой и аудиопоток с той или иной мерой соответствия эталонным элементам (записям в БД), мерой похожести на них.

3. При необходимости выявить в мультимедийном потоке или файле фрагменты, которые подобны в определенном смысле заданным эталонным образцам из баз данных (БД) эталонных элементов, методом анализа и сравнения, то считать критерием ценности соответствие указанных фрагментов заданным образцам. Считать данные в медиапотоке, удовлетворяющие заданным критериям, информационно ценными (информативными), а неудовлетворяющие этим критериям - «информационным шумом», т.е. неинформативными. При пороговом определении ценности медиоданных обеспечить сравнение количественных оценок критериев ценности с выбранными порогами (пороги должны быть заданы).

В качестве количественного критерия ценности применительно к изображениям и кадрам видеопотока предлагается использовать степень корреляции rij цифровых изображений (метод DIC), определяющий статистическую связь двух изображений (эталонного образца из БД изображений и отдельного кадра или его фрагмента в видеопотоке, для которого определяется степень его «похожести» на эталонный образец) [14]. Метод DIC широко применяется на практике для проведения точных плоских и объемных измерений изменений на изображении на основе оценок коэффициентов взаимной корреляции двух изображений и для его реализации разработаны различные средства вычислений коэффициентов rij.

Для речевого потока определяются не похожие речевые сигналы, а ключевые слова и выражения, т.е. обнаружение в потоке слитной речи такого слова или высказывания (Key Word Spotting - KWS) оценивается вероятностью правильного обнаружения Pkws и вероятностью ошибки Perror. Т.е. в данном случае ввиду символьной определенности слова или выражения не используется сравнение с порогом. Системы KWS представляют собой частный случай систем распознавания слитной речи и более часто используются на практике ввиду большей надежности.

Для аудиопотока распознавание акустических событий (крики, удары, столкновения, сильные звуки и т.п.) сводится к классификации каждого звука с учетом прежде всего энергетической составляющей (мощность звука) и, может, спектральных характеристик аудиособытия, что является хорошо отработанным методом при обработке и анализе аудиосигналов. Решение о каждом таком акустическом событии также может быть принято на основе сравнения оценок его параметров с порогами.

Для информационно ценных фрагментов видео, речи и аудио задать отдельно критерий качества в виде допустимого уровня искажений е=(евра) по отношению к оригиналу при их воспроизведении в процессе считывания из СХД и декодирования фрагментов каждого потока, формирующих (при необходимости) вместе мультимедиапоток или мультимедиафайл.

4. Разуплотнить (демультиплексировать) общий мультимедийный поток на отдельные потоки: видео, речевой, аудио; обрабатывать и анализировать их отдельно и каждый своими методами ввиду значительного различия между ними.

5. Выделить в каждом из отдельных потоков информационно значимую часть с учетом заданных критериев ценности/полезности данных. Для анализа исходной мультимедийной информации и выбора ее информативной части по критериям ценности/полезности использовать методы обработки и классификации сигнала и элементы искусственного интеллекта (ИИ) для оценки существенных изменений в видеопотоке на покадровой основе и отбора важных по критерию ценности кадров или последовательности кадров, выявления ключевых слов и выражений из заданного словаря в речевом потоке, выделения значимых для ЛПР акустических событий в аудиопотоке. При этом для обработки и анализа звукового (речевого и аудио) потока обеспечить надежное выделение речевой ее части, пауз и аудиочасти, относя смешанные участки «речь на фоне неречевых звуков» к речевой части. Выделенные ценные фрагменты каждого потока снабдить служебной информацией в определенном формате в виде пакета, позволяющей точно задать их временнОе местоположение в соответствующем потоке и, возможно, другие параметры, описывающие выделенные фрагменты.

6. Выделенные информативные фрагменты видео, речевого и аудиопотоков подвергнуть при необходимости перед хранением в СХД процедуре кодирования для сжатия данных (возможно дополнительного) с контролируемой погрешностью или процедуре транскодирования с учетом последующего восстановления соответствующего потока декодером, причем значение указанной погрешности е=(евpа) должно быть релевантным с позиций решения информационной задачи или достижения поставленной цели.

7. При извлечении записанных данных из СХД и восстановлении выделенных информационных фрагментов общего медиапотока в декодерах видео, речи и аудио обеспечить (при необходимости) согласование и синхронизацию отдельных потоков видео, речи и аудио на основе временных меток и других описывающих эти фрагменты параметров с целью формирования (при необходимости) единого мультимедийного потока для его анализа ЛПР. При восстановлении отдельных потоков или общего мультимедийного потока можно исключить участки, где отсутствуют изменения в видео, ключевые слова и выражения в речи, акустические события в аудиопотоке (для общего потока такими исключаемыми участками являются те, где одновременно отсутствуют соответствующие изменения в каждом отдельном потоке).

Поясним для каждого отдельного потока каким образом выделить из него информативные фрагменты. Наиболее емким по объему и скорости генерации данных является источник видеопотока (например, выход видеокамеры, выход кодера или декодера в терминальном оборудовании СПИ, видеофайл в памяти некоторой системы), который представляется последовательностью видеокадров (видеорядом). Обычно источником видео является цифровая или аналоговая видеокамера и