Система и способ обработки символов, вставленных в цифровое видео
Иллюстрации
Показать всеИзобретение относится к системам передачи мультимедийной информации. Техническим результатом является повышение эффективности передачи сжатой мультимедийной информации. Указанный технический результат достигается тем, что видеоизображения, например, в мультимедийном потоке сканируют до сжатия для передачи для распознавания символов, таких как графические символы и алфавитно-цифровые знаки. Типы, позиции, размеры символов записывают для представления символьной информации и затем изображения сжимают со сжатием или без сжатия символов, которые могут быть удалены из изображения до сжатия, если необходимо. Сжатое видео и символьную информацию посылают в приемник, который развертывает видео, опционально преобразует символы и затем вставляет символы, куда указывает символьная информация. 3 н. и 31 з.п. ф-лы, 3 ил.
Реферат
Область техники, к которой относится изобретение
Настоящее изобретение относится в основном к мультимедийной передаче.
Уровень техники
Мультимедийные потоки, которые обычно включают в себя видеокадры, заранее сжимаются до передачи для сохранения полосы пропускания. Сжатие видео в общем означает представление относительно большой группы битов относительно меньшей группой битов.
Когда видеокадр или видеокадры содержат символы, в общем используемые здесь для обозначения графических символов и алфавитно-цифровых знаков, биты, представляющие символ, сжимаются вместе с битами, представляющими изображение. Т.е., когда видео перекрывается графикой или алфавитно-цифровыми символами, лежащие в основе изображение и символы совместно сжимают для передачи. При приеме поток разворачивают для воспроизведения «потерянной» версии первоначального изображения.
Настоящее изобретение подразумевает, что сжатие и разворачивание мультимедийного потока, особенно для эффективной передачи мультимедиа, часто приводит к некоторой потере данных. Как результат, некоторая полезная информация в первоначальном потоке может не появиться вновь в развернутом потоке. Настоящее изобретение также подразумевает, что в контексте видеоизображений потеря малого количества информации обычно имеет небольшие последствия, поскольку для зрителя будет невозможно обнаружить потерю в относительно большом объеме данных, которые составляют видеоизображение.
Настоящее изобретение критически признает, однако, что символы в основном не требуют много данных для воспроизведения. Следовательно, потеря малого количества символьной информации во время процесса сжатия/развертывания может привести к обнаруживаемым искажениям и/или артефактам при разворачивании символа. Кроме того, необходимость сжатия и передачи символов вместе с изображением, которому они принадлежат, поглощает полосу пропускания мультимедийной передачи.
В добавление к вышеупомянутому признанию настоящее изобретение подразумевает, что передача изображений по беспроводным линиям к портативным устройствам часто требует значительного снижения в разрешении. Сниженное разрешение здесь означает, что меньше пикселов доступны для представления символа. Малый экран дисплея, обычно используемый на мобильных устройствах, ограничивает возможность системы человеческого зрения или СЧЗ (HVS), легко и точно распознавать символы. Настоящее изобретение подразумевает, что способность увеличить или преобразовать символы в видео, которое отображается на малом экране, улучшила бы возможность СЧЗ распознавать символы. Имея в виду эти замечания, ниже предлагается изобретение.
Сущность изобретения
Система для обработки изображения, такого как видеоизображение, которое имеет символ, такой как графический символ или алфавитно-цифровой знак, включает в себя процессор, который выполняет логику, включающую в себя сканирование изображения. Также процессор использует методы распознавания знака/символа для создания представления символа и затем сжимает изображение для представления сжатого изображения.
В предпочтительном варианте осуществления логика, выполняемая процессором, может включать в себя скрытие символа в изображении перед сжатием. Альтернативно, символ может быть сжат вместе с изображением. Представление символа может включать в себя не только тип или идентификацию символа, но также другие описательные параметры, включающие в себя, но не ограничивающиеся ими, идентификацию символа, позицию символа, размер символа, шрифт символа и цвет символа.
Когда система включает в себя процессор передатчика и передаются сжатое изображение и представление символа, система может дополнительно включать в себя процессор приема, который развертывает сжатое изображение для представления развернутого изображения. С помощью представления символа процессор приемника может комбинировать символ с развернутым изображением. Например, процессор приема может использовать позицию символа для вставки или преобразования версии символа в развернутое изображение. Представление символа может быть вставлено в сжатый поток или оно может быть передано отдельно от него.
В другом аспекте способ обработки мультимедийного потока, который включает в себя информацию о видеоизображениях и символах в видео, включает в себя удаление символов из потока и затем сжатие информации видеоизображения для представления сжатого потока.
Еще в одном аспекте процессор приема развертывает сжатый видеопоток для представления развернутого изображения. С помощью представления символа, который включен в первоначальное изображение, процессор приема комбинирует символ с развернутым изображением. Предпочтительное неограничивающее символьное представление может принимать одну из нескольких форм. Например, представление попиксельного битового отображения символа может быть отправлено или вставлено в сжатый поток, например, в заголовке сжатого потока или побитовое отображение может быть передано в отдельном потоке. Или код, представляющий символ, может подобным образом быть передан вместо побитового отображения.
В еще одном аспекте раскрывается компьютерный продукт для обработки отсканированных видеоизображений, имеющих символы. Продукт включает в себя средство для распознавания символов в отсканированных изображениях для воспроизведения символьной информации. Средство затем сжимает изображения.
Подробности настоящего изобретения, как и его структура и работа, могут быть лучше поняты со ссылкой на сопровождающие чертежи, на которых одинаковые ссылочные позиции ссылаются на одинаковые части и на которых:
Краткое описание чертежей
Фиг. 1 - функциональная блок-схема настоящей системы;
Фиг. 2 - блок-схема алгоритма логики сжатия и передачи; и
Фиг. 3 - блок-схема различных способов приема и развертывания, которые могут быть использованы.
Подробное описание предпочтительных вариантов осуществления
На фиг. 1 показана система, обозначенная в целом 10, для передачи и приема сжатого мультимедиа, включающего видеопотоки, от источника 12 мультимедиа. Хотя раскрытие здесь фокусируется на видеочастях потоков мультимедиа, следует понять, что настоящие принципы применяются для других мультимедиа, включая аудио, слайды, 2D [двумерную] графику и 3D [трехмерную] графику и т.п.
Как показано, система 10 включает в себя сканер 14, который сканирует изображения мультимедийного источника от источника 12 и отправляет изображения и/или результаты сканирования на процессор 16 передачи, который среди прочего функционирует как устройство распознавания символа и устройство сжатия видео в соответствии с логикой, описанной ниже. Используемый здесь термин «символ» означает графические символы и алфавитно-цифровые знаки, и, следовательно, термин «символ распознавания» включает в себя распознавание символов и знаков.
Хотя для ясности раскрытия показан один процессор 16 передачи, может быть использовано множество процессоров для выполнения логики на фиг. 2. Например, в вариантах осуществления, в которых сами символы подлежат сжатию отдельно от потока, может быть предусмотрен, как показано, символьный процессор 17. Как обсуждается ниже, сжатое видео вместе с символьной информацией, полученное из распознавания знака/символа, отправляется на передатчик 18 для его передачи.
Неограничивающий предпочтительный вариант осуществления, показанный на фиг. 1, показывает передатчик 18 мультимедиа, который использует беспроводное средство, и более конкретно, которое использует принципы множественного доступа с кодовым разделением каналов (МДКР) (CDMA). Потоки могут пересылаться множеству приемников, если необходимо, или могут быть переданы с помощью принципов передачи точка-к-точке или многоадресной беспроводной передачи. Понятно, что настоящие принципы применяются к другим формам беспроводной связи, такой как GSM, TDMA, S-TDMA, широкополосные CDMA, OFDM и т.п., так же как и для передачи мультимедиа по кабельным системам, Интернет и т.п.
Один или более приемников 20 могут принимать передаваемую видео- и символьную информацию и отправлять ее к одному или более процессорам 22 приема. Процессор 22 приемника работает как устройство развертки видео. Если необходимо, процессор 22 приемника может развертывать символы, если они были сжаты во время передачи, или символы могут быть развернуты отдельным символьным процессором 23, как показано. Устройство 24 комбинирования потока затем комбинирует символы с потоком изображений в соответствии с логикой на фиг. 3, обсуждаемой ниже. Развернутое мультимедиа с символами может быть отображено на выходном устройстве 25, таком как видеодисплей, принтер, громкоговоритель и т.д.
На фиг. 2 можно увидеть логику сжатия и развертывания. В блоке 26 видеоизображения в потоке сканируются соответствующим устройством 14 сканирования. Может быть использован любой соответствующий сканер 14. Предпочтительно, изображения сканируются с относительно высокой частотой дискретизации, которая достаточна для уменьшения или исключения искажения символов в видеоизображениях. Сканером 14 создается оцифрованное представление изображений с символами.
Если необходимо, не все видеокадры в потоке необходимо сканировать. Например, каждый десятый кадр может сканироваться, пока не будет обнаружен символ. Тогда каждый следующий кадр может сканироваться для определения символа. Когда встречается кадр, не имеющий символов, частота сканирования может возвратиться к каждому nth кадру. Таким способом увеличивается скорость сканирования.
В блоке 28 символы в изображении распознаются программным обеспечением распознавания символов, выполняемым процессором 16 передачи (или, если необходимо, символьным процессором 17). Могут использоваться любые соответствующие алгоритмы распознавания символов. Процессор 16 передачи (или символьный процессор 17) создает символьную информацию, т.е. бинарные представления символов, которые указывают не только идентификацию (тип) сканированного символа, но также, предпочтительно, позицию символа в изображении и, если необходимо, цвет, шрифт, размер символа и т.п.
Соответственно, используемые здесь «символьная информация» и «представление символа» информации/данных отличаются от пиксельных данных, которые представляют цвет или оттенок несимвольных частей видеоизображений на основе пиксел-за-пикселом. Скорее «символьная информация» означает двоичный код, который выдается механизмом распознавания символов, который может быть коррелирован с конкретным символом (и его характеристиками, упомянутыми выше). Эта символьная информация записывается в блок 30.
После сканирования видеоизображения (по меньшей мере, пиксельная информация, представляющая данные несимвольного изображения) сжимаются в блоке 32. Может быть использована какая-либо соответствующая схема или алгоритм видеосжатия. В одном предпочтительном варианте осуществления сжатие игнорирует символы первоначального изображения, т.е. процессор 16 скрывает символы (например, путем установления пикселов, покрытых символьной областью, в единственное заданное бинарное значение), так что символы не сжимаются во время сжатия изображения. Это сохраняет полосу пропускания. Может быть использовано другое средство, известное в уровне техники, для игнорирования частей потока изображения, подлежащего сжатию. Например, символ в изображении может быть заменен пиксельной информацией, которая соответствует пиксельной информации, окружающей символ, которая, когда сжата, будет представлять меньший поток, чем будет представлять в противном случае. Или символ может быть заменен вспомогательными данными, полезными для управления, передачи основной информации или коррекции ошибок. Однако, если необходимо, символы в изображении не должны удаляться, но могут быть сжаты вместе с данными изображения с распознанной символьной информацией, несмотря на использование приемником для представления неискаженных символов после расширения. В любом случае, как упомянуто выше, символьная информация, выдаваемая алгоритмом распознавания символов, может быть сама сжата (например, символьным процессором 17) или передана отдельно от сжатой видеоинформации или с ней (например, в заголовках видеокадров).
Сжатый поток, представляющий видеоизображения, передается в блоке 34. В блоке 36 символьная информация, представленная логикой распознавания символов процессора 16 передачи (или символьного процессора 17), также передается. Эта символьная информация может быть передана отдельно от потока сжатого видеоизображения, разумеется, она может быть передана на полностью другом канале, чем канал передачи видеопотока. Или же символьная информация может быть вставлена в поток, например, символьная информация может быть включена в заголовки видеокадров.
Когда символы передаются отдельно от видеопотока, эти символы могут передаваться по каналу беспроводной связи, а видеопоток передается по другому беспроводному каналу или действительно в отдельной передающей системе. Символы и видеопотоки могут передаваться от точки к точке в приемник или они могут быть многоадресно переданы или транслированы в множество приемников.
На фиг. 3 в блоке 38 принимается поток сжатого видеоизображения. Кроме того, в блоке 38, когда передана символьная информация вместе с видеопотоком по одному и тому же каналу, она также принимается. Переходя к блоку 40, сжатый видеопоток развертывается как символьная информация, если бы она была сжата и передана, например, в заголовках видеопотока. С другой стороны, если символы не сжаты, они отправляются из блока 40 в блок 41, где символ может быть обработан и преобразован, что необходимо для улучшения видимости. Например, в блоке 41 символ может быть декодирован, если было отправлено кодированное представление символа и если необходимо расширить или иным образом преобразовать (например, путем изменения формы, шрифта, цвета или других атрибутов символов). Фигура 3 также показывает альтернативу, в которой символы передаются отдельно от видеопотока, и в этом варианте осуществления символы принимаются прямо из отдельных каналов в блок 41 для преобразования и/или обработки.
В блоке 42 информация о позиции и другая информация в символьной информации может быть использована для повторной вставки символов на их соответствующие позиции в видеоизображениях с изображениями с символами, отображаемыми в блоке 44.
В вышеприведенном изобретении можно понять, что символы в видеопотоке могут обрабатываться отдельно от их видеоизображений, обеспечивая бульшую гибкость. Например, символы могут быть переданы отдельно от видеопотока. Также символы могут быть по новому расположены в изображениях, если необходимо, во времени или пространстве с помощью процессора 22 приемника. Кроме того, символы могут быть увеличены в развернутых видеоизображениях для повышения видимости или заменены полностью иконками, чтобы занимать меньше пространства на видеоизображениях для улучшения качества изображения и распознавания и читаемости символа. Помимо этого, иконки могут быть использованы в качестве раскрывающегося меню или всплывающего меню, которое, когда пользователем выбирается представляющий символ, может отображать отсканированный символ. Действительно, символы могут быть отображены отдельно от видеоизображений, если необходимо.
Хотя конкретная система и способ обработки символов, вставленных в цифровое видео, показанные и описанные здесь в деталях, полностью способны достичь вышеописанных объектов изобретения, следует понимать, что в настоящее время это является предпочтительным вариантом осуществления настоящего изобретения и таким образом показывает сущность, которая широко рассматривается настоящим изобретением, что объем настоящего изобретения полностью охватывает другие варианты осуществления, которые могут стать очевидными специалисту в данной области техники, и что объем настоящего изобретения соответственно не ограничивается ничем, кроме приложенной формулы изобретения, в которой отсылки на отдельные элементы не предполагают, что это означает «один и только один», если это не устанавливается явно, но «один или более». Все структурные и функциональные эквиваленты элементов, описанных выше предпочтительных вариантов осуществления, которые известны или позже станут известными для специалистов в уровне техники, прямо включены сюда посредством ссылки и предназначены для включения в настоящую формулу. Кроме того, для устройства или способа нет необходимости обращаться к каждой и всякой проблеме, чтобы найти решение посредством осуществления настоящего изобретения. Кроме того, ни элементы, ни компоненты, ни этапы способа в настоящем раскрытии не предназначены для представления общественности независимо от того, перечислены ли в явном виде элементы, компоненты или элементы способа в формуле изобретения. Никакие заявленные здесь элементы не подлежат толкованию по положению 35 США § 112, шестой абзац, пока элементы специально не перечислены с помощью фразы «средство для» или, в случае заявленного способа, элемент указан как «этап» вместо «действия».
1. Способ обработки мультимедийного потока, включающего в себя информацию видеоизображений, заключающийся в том, что сканируют, по меньшей мере, часть мультимедийного потока для обнаружения, присутствует ли символ в информации видеоизображений; создают представление коррелированного символа для обнаруженного символа; создают остаточную информацию видеоизображений путем удаления символа из информации видеоизображения мультимедийного потока; сжимают остаточную информацию видеоизображений мультимедийного потока для представления сжатого потока; и передают сжатый поток вместе с представлением коррелированного символа, причем представление коррелированного символа вставлено в сжатый поток.
2. Способ по п.1, в котором представление коррелированного символа включает в себя, по меньшей мере, одну характеристику символа, которая содержит один или несколько элементов, выбранных из списка элементов, причем список элементов включает в себя позицию символа в информации видеоизображений, цвет символа, тип шрифта символа, размер символа и двоичный код для символа.
3. Способ по п.1, в котором информация видеоизображений включает в себя множество видеокадров и при этом сканирование, по меньшей мере, части мультимедийного потока дополнительно включает в себя сканирование только каждого n-ого кадра из множества видеокадров до тех пор, пока символ не будет обнаружен.
4. Способ по п.1, в котором упомянутая информация изображений представляет, по меньшей мере, один кадр изображения из множества кадров изображений и при этом при сканировании сканируют, по меньшей мере, один кадр изображения до сжатия.
5. Способ по п.4, в котором дополнительно используют распознавание знака для обнаружения символа.
6. Способ по п.4, в котором представление коррелированного символа включает в себя, по меньшей мере, одну характеристику символа, которая содержит позицию символа в, по меньшей мере, одном кадре изображения.
7. Способ по п.6, в котором дополнительно развертывают сжатый поток для представления развернутого потока.
8. Способ по п.7, в котором дополнительно используют позицию символа для вставки символа в, по меньшей мере, одно изображение, представленное развернутым потоком.
9. Способ по п.1, в котором передают сжатый поток отдельно от представления коррелированного символа.
10. Способ по п.1, в котором осуществляют скрытие символа до сжатия.
11. Способ по п.1, в котором этап удаления содержит этап, на котором заменяют пиксельную информацию, представляющую символ, на пиксельную информацию, которая соответствует пикселам, окружающим символ, до сжатия.
12. Способ по п.1, в котором передают, по меньшей мере, одно из: сжатый поток или представление коррелированного символа по беспроводному каналу.
13. Способ по п.12, в котором беспроводной канал является вещательным каналом.
14. Способ по п.12, в котором сжатый поток передают по первому беспроводному каналу, а представление коррелированного символа передают по второму беспроводному каналу.
15. Способ по п.14, в котором, по меньшей мере, один из каналов является вещательным каналом.
16. Способ по п.12, в котором сжатый поток передают впервой передающей системе, а представление коррелированного символа передают во второй передающей системе.
17. Система для обработки мультимедийного потока, содержащего информацию видеоизображений, содержащая процессор, включающий в себя логику для выполнения следующих этапов, на которых сканируют, по меньшей мере, часть мультимедийного потока для обнаружения, присутствует ли символ в информации видеоизображений; представляют представление коррелированного символа, если символ присутствует; создают остаточную информацию видеоизображений путем удаления символа из информации видеоизображения мультимедийного потока; и сжимают представление коррелированного символа и остаточную информацию видеоизображений мультимедийного потока для представления сжатого потока.
18. Система по п.17, в которой этап создания, выполняемый процессором, включает в себя, по меньшей мере, один из следующих этапов, на которых осуществляют скрытие символа в информации видеоизображений до сжатия; заменяют пиксельную информацию, представляющую символ, пиксельной информацией, которая соответствует пикселам, окружающим символ, до сжатия; заменяют пиксельные значения, представляющие символ, значениями, которые при сжатии с изображением создают меньший сжатый поток по сравнению со сжатием информации видеоизображения с пиксельными значениями, представляющими символ; и заменяют символ данными, связанными с одним или несколькими из следующего: управлением, передачей основной информации и коррекцией ошибки.
19. Система по п.17, в которой информация видеоизображений включает в себя множество видеокадров и при этом сканирование, по меньшей мере, части мультимедийного потока включает в себя сканирование только каждого n-ого кадра из множества видеокадров до тех пор, пока символ не будет обнаружен.
20. Система по п.17, в которой процессор является процессором передатчика, при этом передаются и сжатый поток, и представление коррелированного символа, причем представление коррелированного символа включает в себя, по меньшей мере, одну характеристику символа, которая содержит позицию символа в информации видеоизображения.
21. Система по п.17, в которой представление коррелированного символа включает в себя, по меньшей мере, одну характеристику символа, которая содержит один или несколько элементов, выбранных из списка элементов, причем список элементов включает в себя позицию символа в видеоизображении, двоичный код для символа, цвет символа, размер символа и шрифт символа.
22. Система по п.20, причем система дополнительно включает в себя процессор приема, реализующий логику для выполнения этапов, на которых развертывают сжатый поток для представления развернутого потока; и используют представление коррелированного символа для представления изображения символа; и комбинируют изображение символа с развернутым потоком.
23. Система по п.22, в которой этапы, выполняемые процессором приема, дополнительно содержат использование позиции символа для объединения символа с развернутым потоком.
24. Система по п.17, в которой, по меньшей мере, одно из: сжатый поток или представление коррелированного символа передается по беспроводному каналу.
25. Система по п.24, в которой беспроводной канал является вещательным каналом.
26. Система по п.17, в которой сжатый поток передается по первому беспроводному каналу, а представление коррелированного символа передается по второму беспроводному каналу.
27. Система по п.26, в которой, по меньшей мере, один из каналов является вещательным каналом.
28. Система по п.17, в которой сжатый поток передается впервой передающей системе, а представление коррелированного символа передается во второй передающей системе.
29. Система по п.22, в которой этапы, выполняемые процессором приема, дополнительно содержат использование параметров передачи для символа для изменения представления коррелированного символа перед комбинированием представления коррелированного символа с развернутым потоком.
30. Машиночитаемый носитель информации, содержащий программный код, который, при исполнении процессором системы для обработки мультимедийного потока, содержащего информацию видеоизображений, предписывает процессору выполнять способ, содержащий этапы, на которых сканируют, по меньшей мере, часть мультимедийного потока для обнаружения, присутствует ли символ в информации видеоизображений; представляют представление коррелированного символа, если символ присутствует, причем представление коррелированного символа включает в себя, по меньшей мере, одну характеристику символа, которая содержит один или несколько элементов, выбранных из списка элементов, причем список элементов включает в себя позицию символа в информации видеоизображения, двоичный код для символа, цвет символа, размер символа и шрифт символа; создают остаточную информацию видеоизображений путем удаления символа из информации видеоизображений мультимедийного потока; сжимают остаточную информацию видеоизображений для представления сжатого потока; и разворачивают сжатый поток; и комбинируют представление коррелированного символа с развернутым потоком посредством использования, по меньшей мере, одной характеристики символа.
31. Машиночитаемый носитель информации по п.30, в котором информация видеоизображения включает в себя множество видеокадров и при этом при сканировании, по меньшей мере, части мультимедийного потока сканируют только каждый n-ый кадр из множества видеокадров до тех пор, пока символ не будет обнаружен.
32. Машиночитаемый носитель информации по п.30, причем символы удаляют посредством, по меньшей мере, одного из следующего: скрытия символа в информации видеоизображений до сжатия изображений; замены пиксельных значений, представляющих символ, пиксельными значениями, по меньшей мере, приблизительно соответствующими значениям, окружающим символ; и замены символа данными, связанными с одним или несколькими из следующего: управлением, передачей основной информации и коррекцией ошибки.
33. Машиночитаемый носитель информации по п.30, причем представление коррелированного символа преобразуют до комбинирования его с развернутым потоком.
34. Машиночитаемый носитель информации по п.30, причем дополнительно развертывают сжатое представление коррелированного символа.