2662683 - Преобразователь масштаба времени, аудио декодер, способ и компьютерная программа, использующие управление качеством

Преобразователь масштаба времени, аудио декодер, способ и компьютерная программа, использующие управление качеством

Иллюстрации

Показать все

Изобретение относится к области кодирования и декодирования аудиосигналов. Технический результат – повышение качества звучания масштабированной по времени версии входного аудиосигнала. Преобразователь масштаба времени для обеспечения масштабированной по времени версии входного аудиосигнала сконфигурирован, чтобы вычислять или оценивать качество масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени входного аудиосигнала. Преобразователь масштаба времени сконфигурирован для выполнения масштабирования по времени входного аудиосигнала в зависимости от вычисления или оценивания качества масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени. Аудио декодер содержит такой преобразователь масштаба времени. 10 н. и 26 з.п. ф-лы, 15 ил.

Реферат

1. ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Варианты осуществления согласно изобретению относятся к преобразователю масштаба времени для обеспечения масштабированной по времени версии входного аудиосигнала.

Дополнительные варианты осуществления согласно изобретению относятся к аудио декодеру для обеспечения декодированного аудио контента на основе входного аудио контента.

Дополнительные варианты осуществления согласно изобретению относятся к способу для обеспечения масштабированной по времени версии входного аудиосигнала.

Дополнительные варианты осуществления согласно изобретению относятся к компьютерной программе для выполнения упомянутого способа.

2. УРОВЕНЬ ТЕХНИКИ

Хранение и передача аудио контента (включая обычный аудио контент, подобный музыкальному контенту, речевому контенту и смешанному обычному аудио/речевому контенту) являются важной областью технического применения. Конкретная проблема обусловлена фактом, что слушатель ожидает непрерывное воспроизведение аудио контентов, без каких-либо прерываний, а также без каких-либо слышимых артефактов, обусловленных хранением и/или передачей аудио контента. В то же время, требуется поддерживать насколько возможно низкими требования к средству хранения и средству передачи данных, чтобы удерживать затраты в рамках допустимого предела.

Проблемы возникают, например, если считывание с носителя данных временно прерывается или задерживается, или если передача между источником данных и приемником данных временно прерывается или задерживается. Например, передача через сеть Интернет не является высоконадежной, поскольку передаваемые по протоколу TCP/IP пакеты могут быть потеряны, и поскольку задержка передачи по сети Интернет может изменяться, например, в зависимости от ситуации с изменяющейся загрузкой интернет-узлов. Однако чтобы иметь удовлетворительное восприятие пользователем, требуется, чтобы имелось непрерывное воспроизведение аудио контента без слышимых "разрывов" (щелчков) или слышимых артефактов. Кроме того, является желательным избегать существенных задержек, которые будут обусловлены буферизацией большого количества аудио информации.

Ввиду вышеизложенного обсуждения, может быть признано, что есть необходимость идеи, которая обеспечивает хорошее качество звучания, даже в случае прерывистого предоставления звуковой информации.

3. РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

Осуществление согласно изобретению создает преобразователь масштаба времени для обеспечения масштабированной по времени версии входного аудиосигнала. Преобразователь масштаба времени сконфигурирован для вычисления или оценивания качества масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени входного аудиосигнала. Кроме того, преобразователь масштаба времени сконфигурирован для выполнения масштабирования по времени входного аудиосигнала в зависимости от вычисления или оценивания качества масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени. Этот вариант осуществления согласно изобретению основан на идее, что имеются ситуации, в которых масштабирование по времени входного аудиосигнала приводит к существенным слышимым искажениям. Кроме того, вариант осуществления согласно изобретению основан на установлении факта, что механизм управления качеством помогает избегать таких слышимых искажений посредством оценивая, обеспечит ли требуемое масштабирование по времени фактически достаточное качество масштабированной по времени версии входного аудиосигнала. Соответственно, масштабированием по времени управляют не только путем требуемого «растягивания» по времени или «стягивания» по времени, но также и оценивания получаемого качества. Соответственно, является возможным, например, отложить масштабирование по времени, если масштабирование по времени приведет к недопустимо низкому качеству масштабированной по времени версии входного аудиосигнала. Однако, вычислительная оценка (ожидаемого) качества масштабированной по времени версии входного аудиосигнала также может использоваться, чтобы скорректировать какие-либо другие параметры масштабирования по времени. Для заключения, механизм управления качеством, используемый в вышеупомянутом варианте осуществления, помогает уменьшить или предотвратить слышимые артефакты в системе, в которой применяется масштабирование по времени.

В предпочтительном варианте осуществления преобразователь масштаба времени сконфигурирован, чтобы выполнять операцию перекрытия-и-сложения, используя первый блок выборок входного аудиосигнала и второй блок выборок входного аудиосигнала (причем, первый блок выборок входного аудиосигнала и второй блок выборок входного аудиосигнала могут быть перекрывающимися или неперекрывающимися блоками выборок, которые принадлежат одному кадру или которые принадлежат различным кадрам). Преобразователь масштаба времени сконфигурирован для сдвига по времени второго блока выборок относительно первого блока выборок (например, по сравнению с исходной временной шкалой (осью), связанной с первым блоком выборок и вторым блоком выборок), и для перекрытия-и-сложения первого блока выборок и сдвинутого по времени второго блока выборок, чтобы посредством этого получить масштабированную по времени версию входного аудиосигнала. Этот вариант осуществления согласно изобретению основан на установлении факта, что операция перекрытия-и-сложения, использующая первый блок выборок и второй блок выборок, обычно приводит к хорошему масштабированию по времени, причем регулировка сдвига по времени второго блока выборок относительно первого блока выборок позволяет поддерживать искажения достаточно небольшими во многих случаях. Однако также было установлено, что введение дополнительного механизма управления качеством, который проверяет, приводит ли предполагаемое перекрытие-и-сложение первого блока выборок и сдвинутого по времени второго блока выборок фактически к достаточному качеству масштабированной по времени версии входного аудиосигнала, помогает избежать слышимых артефактов с еще большей надежностью. Другими словами, было установлено, что является полезным выполнять проверку качества (на основе оценивания качества масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени) после того, как был идентифицирован требуемый (или эффективный) сдвиг по времени второго блока выборок относительно первого блока выборок, поскольку эта процедура помогает уменьшить или предотвратить слышимые артефакты.

В предпочтительном варианте осуществления преобразователь масштаба времени сконфигурирован для вычисления или оценивания качества (например, ожидаемого качества) операции перекрытия-и-сложения между первым блоком выборок и сдвинутым по времени вторым блоком выборок, чтобы вычислить или оценить (ожидаемое) качество масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени. Было установлено, что качество операции перекрытия-и-сложения фактически имеет сильное влияние на качество масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени.

В предпочтительном варианте осуществления преобразователь масштаба времени сконфигурирован для определения сдвига по времени второго блока выборок относительно первого блока выборок в зависимости от определения степени сходства между первым блоком выборок, или порцией первого блока выборок (например, правосторонней порцией, то есть, выборками в конце первого блока выборок), и вторым блоком выборок, или порцией второго блока выборок (например, левосторонней порцией, то есть, выборками в начале второго блока выборок). Эта концепция основана на установлении факта, что определение подобия между первым блоком выборок и сдвинутым по времени вторым блоком выборок обеспечивает оценку качества операции перекрытия-и-сложения, и, следовательно, также обеспечивает значимую оценку качества масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени. Кроме того, было установлено, что степень сходства между первым блоком выборок (или правосторонней порцией первого блока выборок) и сдвинутым по времени вторым блоком выборок (или левосторонней порцией сдвинутого по времени второго блока выборок) может быть определена с хорошей точностью, используя умеренную вычислительную сложность.

В предпочтительном варианте осуществления преобразователь масштаба времени сконфигурирован для определения информации о степени сходства между первым блоком выборок, или порцией (например, правосторонней порцией) первого блока выборок, и вторым блоком выборок, или порцией (например, левосторонней порцией) второго блока выборок, для множества различных сдвигов по времени между первым блоком выборок и вторым блоком выборок, и для определения (пригодного для использования) сдвига по времени, подлежащего использованию для операции перекрытия-и-сложения, на основе информации о степени сходства для множества различных сдвигов по времени. Соответственно, сдвиг по времени второго блока выборок или относительно первого блока выборок может выбираться, чтобы являться приспособленным к аудио контенту. Однако управление качеством, которое включает в себя вычисление или оценивание (ожидаемого) качества масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени входного аудиосигнала, может выполняться после определения (пригодного) сдвига по времени, подлежащего использованию для операции перекрытия-и-сложения. Другими словами, при использовании механизма управления качеством может обеспечиваться, что сдвиг по времени, определенный на основе информации о степени сходства между первым блоком выборок (или порцией первого блока выборок) и вторым блоком выборок (или порцией второго блока выборок) для множества различных сдвигов по времени, фактически приводит к достаточно хорошему качеству звучания. Таким образом, артефакты могут быть уменьшены или предотвращены эффективно.

В предпочтительном варианте осуществления преобразователь масштаба времени сконфигурирован для определения сдвига по времени второго блока выборок относительно первого блока выборок, каковой сдвиг по времени подлежит использованию для операции перекрытия-и-сложения (если только операция сдвига по времени не отложена в ответ на оценку недостаточного качества), в зависимости от информации целевого сдвига по времени. Другими словами, рассматривают информацию целевого сдвига по времени и делают попытку определить сдвиг по времени второго блока выборок относительно первого блока выборок такой, что упомянутый сдвиг по времени второго блока выборок относительно первого блока выборок является близким к целевому сдвигу по времени, описанному информацией целевого сдвига по времени. Следовательно, может достигаться, что (пригодный) сдвиг по времени, который получают перекрытием-и-сложением первого блока выборок и сдвинутого по времени второго блока выборок, соответствует требованию (заданному информацией целевого сдвига по времени), причем фактическое исполнение операции перекрытия-и-сложения может предотвращаться, если вычисление или оценивание (ожидаемого) качества масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени, указывает недостаточное качество.

В предпочтительном варианте осуществления преобразователь масштаба времени сконфигурирован для вычисления или оценивания качества (например, ожидаемого качество) масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени входного аудиосигнала на основе информации о степени сходства между первым блоком выборок, или порцией (например, правосторонней порцией) первого блока выборок, и вторым блоком выборок, сдвинутым по времени на определенный сдвиг по времени, или порцией (например, левосторонней порцией) второго блока выборок, сдвинутого по времени на определенный сдвиг по времени. Было установлено, что степень сходства между первым блоком выборок, или порцией первого блока выборок, и вторым блоком выборок, сдвинутым по времени на определенный сдвиг по времени, или порцией второго блока выборок, сдвинутого по времени на определенный сдвиг по времени, образует хороший критерий для принятия решения, будет ли масштабированная по времени версия входного аудиосигнала, получаемая масштабированием по времени, иметь достаточное качество или нет.

В предпочтительном варианте осуществления преобразователь масштаба времени сконфигурирован, для принятия решения, на основе информации о степени сходства между первым блоком выборок, или порцией (например, правосторонней порцией) первого блока выборок, и вторым блоком выборок, сдвинутым по времени на определенный сдвиг по времени, или порцией (например, левосторонней порцией) второго блока выборок, сдвинутого по времени на определенный сдвиг по времени, выполнять ли масштабирование по времени фактически. Соответственно, определение сдвига по времени, который идентифицирован как пригодный сдвиг по времени, с использованием первого (обычно в вычислительном отношении более простого и не высоконадежного) алгоритма, за которым следует управление качеством, которое основано на информации о степени сходства между первым блоком выборок (или порцией первого блока выборок) и вторым блоком выборок, сдвинутым по времени на определенный сдвиг по времени (или порцией второго блока выборок, сдвинутого по времени на определенный сдвиг по времени). "Управление качеством" на основе упомянутой информации является обычно более надежным, чем простое определение пригодного сдвига по времени, и поэтому используется, чтобы окончательно принять решение, выполняется ли масштабирование по времени фактически. Таким образом, масштабирование по времени может предотвращаться, если масштабирование по времени приводит к чрезмерным слышимым артефактам (или искажениям).

В предпочтительном варианте осуществления преобразователь масштаба времени сконфигурирован для сдвига по времени второго блока выборок относительно первого блока выборок и для перекрытия-и-сложения первого блока выборок и сдвинутого по времени второго блока выборок, чтобы посредством этого получать масштабированную по времени версию входного аудиосигнала, если вычисление или оценивание качества масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени, указывает качество, которое больше чем или равно пороговому значению качества. Преобразователь масштаба времени сконфигурирован для определения сдвига по времени второго блока выборок относительно первого блока выборок в зависимости от определения степени сходства, оцененной с использованием первой меры подобия, между первым блоком выборок, или порцией (например, правосторонней порцией) первого блока выборок, и вторым блоком выборок, или порцией (например, левосторонней порцией) второго блока выборок. Преобразователь масштаба времени дополнительно сконфигурирован для вычисления или оценивания качества (например, ожидаемого качества) масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени входного аудиосигнала, на основе информации о степени сходства, оцениваемой с использованием второй меры подобия, между первым блоком выборок, или порцией (например, правосторонней порцией) первого блока выборок, и вторым блоком выборок, сдвинутым по времени на определенный сдвиг по времени, или порцией (например, левосторонней порцией) второго блока выборок, сдвинутого по времени на определенный сдвиг по времени. Использование первой меры подобия и второй меры подобия позволяет быстро определять сдвиг по времени второго блока выборок относительно первого блока выборок с умеренной вычислительной сложностью, и также позволяет вычислять или оценивать качество масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени входного аудиосигнала, с высокой точностью. Таким образом, двухэтапная процедура, использующая две различные меры подобия, позволяет объединить сравнительно малую вычислительную сложность на первом этапе с высокой точностью на втором этапе (управления качеством) и позволяет уменьшить или предотвратить слышимые артефакты даже при том, что первая мера подобия, которая обычно в вычислительном отношении является простой, используется для определения (пригодного) сдвига по времени второго блока выборок относительно первых из выборок (причем, это обычно потребует излишне использовать меру подобия высокой вычислительной сложности, подобной второй мере подобия, при определении пригодного сдвига по времени второго блока выборок относительно первого блока выборок).

В предпочтительном варианте осуществления вторая мера подобия в вычислительном отношении является более сложной, чем первая мера подобия. Соответственно, "конечная" проверка качества может выполняться с высокой точностью, тогда как легкое определение сдвига по времени второго блока выборок относительно первого блока выборок может выполняться эффективным образом.

В предпочтительном варианте осуществления первой мерой подобия является взаимная корреляция или нормированная взаимная корреляция или функция разности средних величин или сумма квадратичных ошибок. Предпочтительно, второй мерой подобия является комбинация взаимных корреляций или нормированных взаимных корреляций для множества различных сдвигов по времени. Было установлено, что взаимная корреляция, нормированная взаимная корреляция, функция разности средних величин или сумма квадратичных ошибок позволяют хорошее и эффективное определение (пригодного) сдвига по времени второго блока выборок относительно первого блока выборок. Кроме того, было установлено, что мера подобия, являющаяся комбинацией взаимных корреляций или нормированных взаимных корреляций для множества различных сдвигов по времени, является высоконадежной количественной величиной для численного выражения (вычисления или оценивания) качества масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени.

В предпочтительном варианте осуществления второй мерой подобия является комбинация взаимных корреляций, по меньшей мере, для четырех различных сдвигов по времени. Было установлено, что комбинация взаимных корреляций, по меньшей мере, для четырех различных сдвигов по времени позволяет точную оценку качества, поскольку также могут рассматриваться изменения сигнала во времени путем определения корреляции, по меньшей мере, для четырех различных сдвигов по времени. Кроме того, в некоторой степени могут рассматриваться гармоники при использовании взаимных корреляций, по меньшей мере, для четырех различных сдвигов по времени. Следовательно, может достигаться особо хорошее оценивание доступного качества.

В предпочтительном варианте осуществления вторая мера подобия является комбинацией первого значения взаимной корреляции и второго значения взаимной корреляции, которые получают для сдвигов по времени, которые отстоят на целочисленное кратное длительности периода основной частоты аудио контента первого блока выборок или второго блока выборок, и третьего значения взаимной корреляции и четвертого значения взаимной корреляции, которые получают для сдвигов по времени, которые отстоят на целочисленное кратное длительности периода основной частоты аудио контента, причем сдвиг по времени, для которого получено первое значение взаимной корреляции, отстоит от сдвига по времени, для которого получено третье значение взаимной корреляции, на нечетное кратное половине длительности периода основной частоты аудио контента. Соответственно, первое значение взаимной корреляции и второе значение взаимной корреляции могут обеспечивать информацию, является ли аудио контент, по меньшей мере, приблизительно стационарным во времени. Подобным образом третье значение взаимной корреляции и четвертое значение взаимной корреляции также обеспечивают информацию, является ли аудио контент, по меньшей мере, приблизительно стационарным во времени. Кроме того, факт, что третье значение взаимной корреляции и четвертое значение взаимной корреляции являются “смещенными во времени” относительно первого значения взаимной корреляции и второго значения взаимной корреляции, позволяет рассмотрение гармоник. Для заключения, вычисление второй меры подобия на основе комбинации первого значения взаимной корреляции, второго значения взаимной корреляции, третьего значения взаимной корреляции и четвертого значения взаимной корреляции привносит высокую точность, и, следовательно, достоверный результат для вычисления (или оценивания) (ожидаемого) качества масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени.

В предпочтительном варианте осуществления вторую меру q подобия получают согласно q=c(p)*c(2*p)+c(3/2*p)*c(1/2*p) или согласно q=c(p)*c(-p)+c(-1/2*p)*c(1/2*p). В вышеупомянутых уравнениях c(p) - значение взаимной корреляции между первым блоком выборок и вторым блоком выборок, которые сдвинуты по времени (друг относительно друга и относительно исходной временной шкалы) на длительность периода p основной частоты аудио контента первого блока выборок или второго блока выборок. Значение c(2*p) - значение взаимной корреляции между первым блоком выборок и вторым блоком выборок, которые сдвинуты по времени на 2*p. Значение c(3/2*p) - значение взаимной корреляции между первым блоком выборок и вторым блоком выборок, которые сдвинуты по времени на 3/2*p. Значение c(1/2*p) - значение взаимной корреляции между первым блоком выборок и вторым блоком выборок, которые сдвинуты по времени на -1/2*p. Значение c(-p) - значение взаимной корреляции между первым блоком выборок и вторым блоком выборок, которые сдвинуты по времени на -p, и c(-1/2*p) является значением взаимной корреляции между первым блоком выборок и вторым блоком выборок, которые сдвинуты по времени на -1/2*p. Было установлено, что использование вышеупомянутых уравнений приводит к особо хорошему и надежному вычислению (или оцениванию) (ожидаемого) качества масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени.

В предпочтительном варианте осуществления преобразователь масштаба времени сконфигурирован для сравнения значения качества, которое основывается на вычислении или оценивании качества масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени, с переменным пороговым значением, для принятия решения, должно ли масштабирование по времени выполняться или нет. Использование переменного порогового значения позволяет адаптировать к ситуации пороговое значение для принятия решения, должно или нет выполняться масштабирование по времени. Соответственно, требования к качеству выполнения масштабирования по времени могут быть повышены в некоторых ситуациях и могут быть понижены в других ситуациях, например, в зависимости от предшествующих операций масштабирования по времени, или любых других характеристик сигнала. Следовательно, значимость принятия решения, выполнять ли масштабирование по времени или нет, может быть дополнительно повышена.

В предпочтительном варианте осуществления преобразователь масштаба времени сконфигурирован для уменьшения переменного порогового значения, чтобы таким образом снизить требования к качеству в ответ на установление, что качество масштабирования по времени было недостаточным для одного или нескольких предыдущих блоков выборок. Путем уменьшения переменного порогового значения может предотвращаться опускание масштабирования по времени на протяженный период времени, поскольку это может приводить к работе с недогрузкой буфера или с перегрузкой буфера и, следовательно, будет более вредным, чем генерация некоторых артефактов, обусловленных масштабированием по времени. Таким образом, можно избежать проблем, которые будут вызываться чрезмерной задержкой масштабирования по времени.

В предпочтительном варианте осуществления преобразователь масштаба времени сконфигурирован для повышения переменного порогового значения, чтобы тем самым повысить требования к качеству в ответ на установление, что масштабирование по времени было применено к одному или нескольким предшествующим блокам выборок. Соответственно, может обеспечиваться, что последующие блоки выборок масштабируются по времени только, если может достигаться сравнительно высокий уровень качества (выше чем "нормальный" уровень качества). Напротив, масштабированию по времени последовательности последующих блоков выборок препятствуют, если масштабирование по времени не выполнит сравнительно высокие требования к качеству. Это уместно, поскольку применение масштабирования по времени ко множеству последующих блоков выборок обычно приводит к артефактам, если масштабирование по времени не выполняет сравнительно высокие требования к качеству (которые обычно выше чем требования "нормального" качества, применимые, если только одиночный блок выборок, а не непрерывная последовательность блоков выборок, подлежит масштабированию по времени).

В предпочтительном варианте осуществления преобразователь масштаба времени содержит первый счетчик с ограниченным интервалом значений для подсчета числа блоков выборок или числа кадров, которые были масштабированы по времени, поскольку было достигнуто соответственное требование к качеству масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени. Кроме того, преобразователь масштаба времени содержит второй счетчик с ограниченным интервалом значений для подсчета числа блоков выборок или числа кадров, которые не были масштабированы по времени, поскольку не было достигнуто соответственное требование к качеству масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени. Преобразователь масштаба времени сконфигурирован для вычисления переменного порогового значения в зависимости от значения первого счетчика и в зависимости от значения второго счетчика. Путем использования первого счетчика с ограниченным интервалом значений и второго счетчика с ограниченным интервалом значений, получают простой механизм для регулировки переменного порогового значения, который позволяет адаптировать переменное пороговое значение к соответственной ситуации, избегая при этом чрезмерно малых или чрезмерно больших значений порогового значения.

В предпочтительном варианте осуществления преобразователь масштаба времени сконфигурирован с возможностью добавлять значение, которое пропорционально значению первого счетчика, к начальному пороговому значению, и вычитать значение, которое пропорционально значению второго счетчика, из него, чтобы получать переменное пороговое значение. Путем использования такой концепции переменное пороговое значение можно получать весьма простым образом.

В предпочтительном варианте осуществления преобразователь масштаба времени сконфигурирован для выполнения масштабирования по времени входного аудиосигнала в зависимости от вычисления или оценивания качества масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени, причем вычисление или оценивание качества масштабированной по времени версии входного аудиосигнала содержит вычисление или оценивание артефактов в масштабированной по времени версии входного аудиосигнала, которые будут вызываться масштабированием по времени. Путем вычисления или оценивания артефактов в масштабированной по времени версии входного аудиосигнала, которые будут вызываться масштабированием по времени, может использоваться значимый критерий для вычисления или оценивания качества, поскольку артефакты обычно будут ухудшать впечатление прослушивания от человека-слушателя.

В предпочтительном варианте осуществления вычислительное оценивание (ожидаемого) качества масштабированной по времени версии входного аудиосигнала содержит вычисление или оценивание артефактов в масштабированной по времени версии входного аудиосигнала, которые будут вызываться операцией перекрытия-и-сложения последующих блоков выборок входного аудиосигнала. Было признано, что операция перекрытия-и-сложения может быть первичным источником артефактов при выполнении масштабирования по времени. Соответственно, было установлено, что эффективным подходом будет вычисление или оценивание артефактов масштабированной по времени версии входного аудиосигнала, которые будут вызываться операцией перекрытия-и-сложения последующих блоков выборок входного аудиосигнала.

В предпочтительном варианте осуществления преобразователь масштаба времени сконфигурирован, чтобы вычислять или оценивать (ожидаемое) качество масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени входного аудиосигнала, в зависимости от степени сходства последующих блоков выборок входного аудиосигнала. Было установлено, что масштабирование по времени может обычно выполняться с хорошим качеством, если последующие блоки или выборки входного аудиосигнала содержат сравнительно высокое подобие, и что искажения обычно генерируются масштабированием по времени, если последующие блоки выборок входного аудиосигнала содержат существенные различия.

В предпочтительном варианте осуществления преобразователь масштаба времени сконфигурирован, чтобы вычислять или оценивать, имеются ли слышимые артефакты в масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени входного аудиосигнала. Было установлено, что вычисление или оценивание слышимых артефактов обеспечивает информацию о качестве, которая хорошо адаптирована к впечатлению человека от прослушивания.

В предпочтительном варианте осуществления преобразователь масштаба времени сконфигурирован с возможностью отложить масштабирование по времени до последующего кадра или до последующего блока выборок, если вычисление или оценивание (ожидаемого) качества масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени, указывает недостаточное качество. Соответственно, является возможным выполнять масштабирование по времени в момент времени, который лучше подходит для масштабирования по времени тем, что генерируется меньше артефактов. Другими словами, путем гибкого выбора момента времени, в который выполняется масштабирование по времени, в зависимости от качества, достигаемого масштабированием по времени, слуховое восприятие масштабированной по времени версии входного аудиосигнала может быть улучшено. Кроме того, эта идея основывается на установлении факта, что небольшая задержка операции масштабирования по времени обычно не несет каких-либо существенных проблем.

В предпочтительном варианте осуществления преобразователь масштаба времени сконфигурирован с возможностью отсрочить масштабирование по времени до момента времени, когда масштабирование по времени является менее слышимым, если вычисление или оценивание (ожидаемого) качества масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени, указывает недостаточное качество. Соответственно, слуховое восприятие может быть улучшено избеганием слышимых искажений.

Осуществление согласно изобретению создает аудио декодер для обеспечения декодированного аудио контента на основе входного аудио контента. Аудио декодер содержит буфер джиттера, сконфигурированный для буферизации множества аудио кадров, представляющих блоки аудио выборок. Аудио декодер также содержит ядро (базовые средства) декодера, сконфигурированное, чтобы обеспечивать блоки аудио выборок на основе аудио кадров, принимаемых из буфера джиттера. Кроме того, аудио декодер содержит преобразователь масштаба времени на основе выборки, как в общих чертах предоставлено выше. Преобразователь масштаба времени на основе выборки сконфигурирован, чтобы обеспечивать масштабированные по времени блоки аудио выборок на основе блоков аудио выборок, обеспечиваемых ядром декодера. Этот аудио декодер основывается на идее, что преобразователь масштаба времени, который сконфигурирован для масштабирования по времени входного аудиосигнала в зависимости от вычисления или оценивания качества масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени, хорошо приспособлен для использования в аудио декодере, содержащем буфер джиттера и ядро декодера. Присутствие буфера джиттера позволяет, например, откладывать операцию масштабирования по времени, если вычисление или оценивание (ожидаемого) качества масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени, указывает, что будет получено плохое качество. Таким образом, преобразователь масштаба времени на основе выборки, который содержит механизм управления качеством, позволяет предотвращать, или, по меньшей мере, уменьшать слышимые артефакты в аудио декодере, содержащем буфер джиттера и ядро декодера.

В предпочтительном варианте осуществления аудио декодер дополнительно содержит управление буфером джиттера. Управление буфером джиттера сконфигурировано, чтобы обеспечивать управляющую информацию для преобразователя масштаба времени на основе выборки, причем управляющая информация указывает, должно ли масштабирование по времени на основе выборки выполняться или нет. Альтернативно, или в дополнение, управляющая информация может указывать требуемую величину изменения масштаба по времени. Соответственно, преобразователем времени на основе выборки можно управлять в зависимости от требований аудио декодера. Например, управление буфером джиттера может выполнять адаптивное к сигналу управление и может выбирать, должно ли масштабирование по времени на основе кадра или масштабирование по времени на основе выборки выполняться адаптивным к сигналу образом. Соответственно, имеется дополнительная степень гибкости. Однако механизм управления качеством преобразователя масштаба времени на основе выборки может, например, отклонять управляющую информацию, обеспечиваемую управлением буфера джиттера, так что масштабирование по времени на основе выборки отменяется (или отключается) даже в случае, в котором управляющая информация, обеспеченная управлением буфера джиттера, указывает, что должно выполняться масштабирование по времени на основе выборки. Таким образом, "интеллектуальный" преобразователь масштаба времени на основе выборки может отклонить управление буфером джиттера, поскольку преобразователь масштаба времени на основе выборки способен получать более подробную информацию о качестве, получаемом масштабированием по времени. Для заключения, преобразователь масштаба времени на основе выборки может направляться управляющей информацией, предоставляемой управлением буфера джиттера, но может тем не менее "отказаться" от масштабирования по времени, если качество будет по существу нарушаться последующей управляющей информацией, обеспечиваемой управлением буфера джиттера, каковое помогает гарантировать удовлетворительное качество звука.

Другое осуществление согласно изобретению создает способ для обеспечения масштабированной по времени версии входного аудиосигнала. Способ содержит вычисление или оценивание качества (например, ожидаемого качества) масштабированной по времени версии входного аудиосигнала, получаемой масштабированием по времени входного аудиосигнала. Способ дополнительно содержит выполнение масштабирования по времени входного аудиосигнала в зависимости от вычисления или оце

Преобразователь масштаба времени, аудио декодер, способ и компьютерная программа, использующие управление качеством

Патент 2662683