2659025 - Способы кодирования и декодирования информации

Способы кодирования и декодирования информации

Иллюстрации

Показать все

Изобретение относится к области кодирования/декодирования информации. Технический результат - повышение эффективности помехоустойчивого кодирования/декодирования информации за счет увеличения объема передачи/приема информации при уменьшении количества используемых элементов. При выполнении способа кодирования информации массив кодируемой информации разделяют на логически законченные фрагменты, каждому из которых ставят в соответствие элемент используемой для кодирования молекулярно-генетической системы; ко множеству элементов системы добавляют соответствующую индексирующую информацию, состоящую из i-информационных бит; к каждой кодовой комбинации информационных бит добавляют комбинацию из k-контрольных бит, определяемую в зависимости от комбинации i-информационных бит; каждую i+k битовую информацию в двоичной форме счисления записывают в виде мультиплета, состоящего из n-числа азотистых оснований или соответствующих им аминокислот и являющегося элементом молекулярно-генетической системы, вместе с кодируемой информацией записывают значение n, от которого зависит размер используемой для кодирования матрицы, а также информацию о выбранном способе трансформации матрицы и порядок ее прочтения. 2 н. и 33 з.п. ф-лы, 17 ил., 4 табл.

Реферат

Изобретения относятся к области биохимии, биофармакологии, биотехнологии, генной инженерии, а также практического программирования вложенных физико-биохимических процессов и технологий, а именно к способам кодирования всех видов информации (текстовых файлов, изображений, звуковых файлов) с использованием ДНК, РНК и аминокислотных последовательностей для последующего ее хранения, обработки, приема/передачи.

Известен способ кодирования текстовой информации на основе ДНК (патент № US 6,312,911, МПК C12Q 1/68, G06N 3/12, 2001 г.), который заключается в кодировании текста сообщения в последовательности ДНК и последующим извлечением сообщения с помощью молекулярно-генетической системы, каждый элемент которой состоит из трех различных азотистых оснований ДНК и представляет один алфавитно-цифровой символ. Так как ДНК имеет 4 основания (А - аденин, Т - тимин, С - цитозин, G - гуанин), то максимальное триплетное представление известной молекулярно-генетической системы будет в виде 64 уникальных символов, соответствующих числу сочетаний четырех азотистых оснований.

Известен способ кодирования всех видов информации (текстовых файлов, изображений или звуковых файлов) по патенту № US 2005/0053968 (МПК G06F 19/00, C12Q 1/68, G06N 3/12, G01N 33/48, G11B 20/00, G01N 33/50, G11C 13/02, 2005 г.) с использованием молекулярно-генетической системы, состоящей из различных сочетаний четырех азотистых оснований ДНК (G, А, С, Т), при этом каждое сочетание представляет собой уникальный символ. С помощью известного способа производят синтетическую ДНК-молекулу, которая включает в себя цифровую информацию и ключ шифрования. Синтетическую ДНК встраивают в ДНК носитель для хранения. В случае, когда количество ДНК является слишком большим, то информация может быть раздроблена на несколько сегментов. Способ, описанный в патенте, способен восстанавливать фрагментированные сегменты ДНК путем сопоставления праймера одного из сегментов с хвостовым праймером на одном из последующих сегментов.

Известные способы имеют ограниченную область действия, поскольку не могут быть использованы для эффективного кодирования большого объема информации и имеют низкую помехоустойчивость кодирования.

Из уровня техники известно избыточное кодирование цифровой информации помехоустойчивым кодом, заключающееся в том, что с целью повышения помехоустойчивости к информационным битам добавляется к проверочных бит, позволяющих обнаружить и (или) исправить возникающие в декодере из-за канала связи ошибки в информации. Известный способ помехоустойчивого кодирования с использованием проверочных бит описан, например, в патенте РФ №2408979 (МПК Н03М 13/19, 2011 г.).

Наиболее близким по технической сущности к заявляемому способу является способ кодирования информации, согласно которому массив кодируемой информации разделяют на дискретные элементы (символы), каждому выделенному символу ставят в соответствие, по крайней мере, один триплет, выстраивают уникальную ДНК-последовательность, которую разбивают на множество перекрывающихся ДНК-сегментов. Ко множеству ДНК-сегментов добавляют соответствующую индексирующую информацию, состоящую из i - информационных бит, представляя тем самым кодируемую информацию в машиночитаемую последовательность в двоичной форме счисления. (Патент № US 61/654,295, МПК G06F 19/00, 2013 г.).

Недостатком данного способа является сравнительно высокая его избыточность, поскольку для кодирования необходимо достаточно большое количество триплетов, что может привести к снижению эффективности кодирования и возникновению ошибок при кодировании, а также низкая информационная емкость, приходящая на каждое азотистое основание, которая приблизительно равна 1.83 битам.

Высокая емкость ДНК для хранения информации является в настоящее время предметом изучения свойств ДНК в целях использования в качестве носителя информации. Молекулы ДНК обеспечивают высокую плотность хранящейся информации, они долговечны и способны хранить информацию многие сотни лет в определенных для этого условиях (т.е. холодная, сухая и темная среда). С позиции теории обеспечения помехоустойчивости в технике цифровой связи и передачи дискретных сигналов генетическая информация обладает природной помехоустойчивостью. Однако остается нерешенной проблема, которая возникает при использовании известных способов кодирования и декодирования информации, - это искажение в процессе кодирования исходной информации из-за различных внешних факторов: дефекты синтеза ДНК, деградацию молекул ДНК во времени и ошибок построения последовательности. Поэтому, несмотря на предшествующие разработки, все еще существует необходимость в систематическом изучении и классифицировании всех специфических взаимодействий между последовательностями из смешанных азотистых оснований с целью определения условий эффективного и быстрого кодирования без помех большого объема информации.

При создании изобретений решалась задача сохранения больших информационных массивов без потерь данных с использованием минимального объема элементов материального носителя.

Технический результат, который будет получен при осуществлении предлагаемого решения, является повышение эффективности помехоустойчивого кодирования и декодирования информации за счет увеличения объема передачи и приема информации при уменьшении количества используемых для кодирования и декодирования элементов.

Указанный технический результат достигается способом кодирования информации, в котором массив кодируемой информации разделяют на логически законченные фрагменты, каждому из которых ставят в соответствие, по крайней мере, один элемент используемой для кодирования молекулярно-генетической системы; ко множеству элементов системы добавляют соответствующую индексирующую информацию, состоящую из i-информационных бит; к каждой кодовой комбинации информационных бит добавляют комбинацию из k-контрольных бит, определяемую в зависимости от комбинации i-информационных бит; при этом, согласно изобретению, каждую i+k битовую информацию в двоичной форме счисления записывают в виде мультиплета, состоящего из n-числа азотистых оснований или соответствующих им аминокислот и являющегося элементом молекулярно-генетической системы, состоящей из основы, выполненной в виде матрицы из четырех азотистых оснований , сгруппированных по количеству водородных связей, и по количеству конденсированных колец, содержащихся в структурах молекул азотистых оснований, которую предварительно формируют путем многократного тензорного возведения в квадрат каждой матрицы предыдущего поколения для образования матрицы следующего поколения; при этом бинарные индексы системы, формирующие i-информационные биты, соответствуют выбранной характеристике азотистых оснований, вместе с кодируемой информацией записывают значение n, от которого зависит размер используемой для кодирования матрицы, а также информацию о выбранном способе трансформации матрицы в последовательность и порядок ее прочтения.

При этом, согласно изобретению, кодируемую информацию выстраивают в машиночитаемую последовательность в двоичной форме исчисления, включающую бинарные индексы для каждого мультиплета.

При этом, согласно изобретению, кодируемую информацию выстраивают в последовательность азотистых оснований.

При этом, согласно изобретению, к каждой кодовой комбинации i-информационных бит добавляют комбинацию из m-управляющих бит, определяемую в зависимости от комбинации i и k бит.

При этом, согласно изобретению, по положению каждого мультиплета в матрице молекулярно-генетической системы оценивают рецессивный или доминантный признак соответствующего ему логически законченного фрагмента.

При этом, согласно изобретению, последовательность азотистых оснований разбивают на логически законченные фрагменты, в которых также закодирована информация о начале и конце информационного отрывка.

При этом, согласно изобретению, кодируемую информацию выстраивают в последовательность азотистых оснований для кодирования на уровне ДНК.

При этом, согласно изобретению, кодируемую информацию выстраивают в последовательность азотистых оснований для кодирования на уровне РНК.

При этом, согласно изобретению, кодируемую информацию выстраивают в последовательность аминокислот.

При этом, согласно изобретению, кодируемую информацию выстраивают в последовательность азотистых оснований для кодирования на уровне белков.

При этом, согласно изобретению, молекулярно-генетическая система имеет линейное матричное представление.

При этом, согласно изобретению, молекулярно-генетическая система имеет квадратичное матричное представление.

При этом, согласно изобретению, молекулярно-генетическая система имеет прямоугольное матричное представление.

При этом, согласно изобретению, молекулярно-генетическая система имеет круговое матричное представление.

При этом, согласно изобретению, молекулярно-генетическая система имеет объемное представление.

При этом, согласно изобретению, молекулярно-генетическая система имеет вид структурного дерева графов.

При этом, согласно изобретению, бинарные индексы молекулярно-генетической системы соответствуют выбранной характеристике азотистых оснований для ДНК.

При этом, согласно изобретению, бинарные индексы молекулярно-генетической системы соответствуют выбранной характеристике азотистых оснований для РНК.

При этом, согласно изобретению, бинарные индексы молекулярно-генетической системы соответствуют выбранной характеристике азотистых оснований для аминокислот.

При этом, согласно изобретению, бинарные индексы молекулярно-генетической системы соответствуют выбранной характеристике азотистых оснований, формирующих рецессивные и доминантные признаки на генном уровне.

При этом, согласно изобретению, синтетическую ДНК, сформированную из полученной последовательности азотистых оснований, содержащей кодируемую информацию, встраивают в носитель для хранения.

Указанный технический результат достигается способом декодирования информации, в котором машиночитаемую последовательность разбивают на части, состоящие из логически законченных фрагментов декодируемой информации, включающих комбинации из i-информационных бит и k-контрольных бит, ставя в соответствие каждому логически законченному фрагменту, по крайней мере, один мультиплет, состоящий из n-числа азотистых оснований или соответствующих им аминокислот и являющийся элементом используемой для декодирования молекулярно-генетической системы, при этом, согласно изобретению, молекулярно-генетическая система состоит из основы, выполненной в виде матрицы из четырех азотистых оснований , сгруппированных по количеству водородных связей, и по количеству конденсированных колец, содержащихся в структурах молекул азотистых оснований, которую предварительно формируют путем многократного тензорного возведения в квадрат каждой матрицы предыдущего поколения для образования матрицы следующего поколения; при этом бинарные индексы системы, формирующие i-информационные биты, соответствуют выбранной характеристике азотистых оснований, а индексы, формирующие k-контрольные биты, определяют в зависимости от комбинации i-информационных бит.

При этом, согласно изобретению, дискретные части машиночитаемой последовательности, состоящие из логически законченных фрагментов декодируемой информации, включают комбинации из m-управляющих бит, при этом индексы, формирующие m управляющие биты, определяют в зависимости от комбинации i-информационных бит.

При этом, согласно изобретению, молекулярно-генетическая система имеет линейное матричное представление.

При этом, согласно изобретению, молекулярно-генетическая система имеет круговое матричное представление.

При этом, согласно изобретению, молекулярно-генетическая система имеет объемное представление.

При этом, согласно изобретению, молекулярно-генетическая система имеет вид структурного дерева графов.

В молекулярной биологии центральная догма - это поток информации от ДНК через РНК от нуклеиновых кислот на белок. Переход генетической информации от ДНК к РНК и от РНК к аминокислотам, формирующим белковые комплексы, является универсальным для всех без исключения клеточных организмов, лежит в основе биосинтеза макромолекул. ДНК, РНК, аминокислоты и белки относятся к линейным полимерам, то есть каждый входящий в их состав мономер соединяется, как, правило, с двумя другими мономерами. Последовательность мономеров кодирует информацию, правила передачи которой описываются центральной догмой.

Воспроизводство молекул ДНК и синтеза молекул РНК осуществляется способом, при котором одна нить ДНК служит матрицей (образцом) для построения дочерней молекулы (матричный синтез). Такой способ обеспечивает копирование наследственной информации и реализацию ее в процессе аминокислотного (белкового) синтеза. Направление потока информации включает три типа матричных синтезов: синтез ДНК - репликация, синтез РНК - транскрипция, синтез белка - трансляция. Кроме того, существует матричный синтез, исправляющий ошибки в структуре ДНК (РНК), вариант ограниченной репликации (репарация), который восстанавливает первоначальную структуру ДНК (РНК). Матричная природа синтеза нуклеиновых кислот и белков обеспечивает высокую точность воспроизведения информации.

В настоящее время особое значение в техническом развитии имеет познание принципов помехоустойчивости генетического кода в связи проблемой обеспечения помехоустойчивости информационных систем. В случае кодирования с помощью последовательностей азотистых оснований ДНК (РНК), а также аминокислот, кодируемая информация будет представлять собой сложнейшую бинарную комбинацию, которая определяется расположением мультиплетов в системе. Декодирование такого представления информации требует сложного математического подхода. Используемая для кодирования и декодирования иерархическая система позволяет определить стабильность каждого мультиплета, общую его структуру молекул и многие другие параметры.

Молекулы белков, нуклеиновых кислот (ДНК, РНК) и полисахаридов, формирующие ткани, органы, внутриклеточный каркас (цитоскелет) и внеклеточный матрикс, мембранные каналы, рецепторы, а также молекулярные машины для синтеза, упаковки и утилизации белков и нуклеиновых кислот, относятся к биологическим нанообъектам. Размер белковых молекул колеблется от 1 до 1000 нм. Диаметр спирали ДНК составляет 2 нм, а ее длина может достигать нескольких сантиметров. Белковые комплексы, формирующие нити цитоскелета, имеют толщину 7-25 нм при длине до нескольких микрон. Указанная особенность позволяет сохранять большие объемы информации с использованием сравнительно небольшого объема материального носителя.

Набор четырех азотистых оснований обычно считается элементарным алфавитом генетического кода. Генетическая информация, передаваемая молекулами наследственности (ДНК и РНК), определяет первичное строение белков живого организма. Каждый кодируемый белок представляет собой цепь из 20-22 видов аминокислот. Последовательность аминокислот в белковой цепи определяется последовательностью триплетов (трехбуквенных «слов»). Триплетом (или кодоном) представляет собой комбинацию из трех последовательно расположенных азотистых оснований, расположенных на нити ДНК (или РНК).

Информация в компьютерах обычно хранится в виде матриц, а ее обработка в компьютерах ведется с помощью матриц унитарных 27 преобразований, прежде всего нормированных матриц Адамара, выступающих в роли логических устройств, которые выполняют различные действия при получении различных условий.

Предложенные к защите изобретения позволяют обнаружить структурные особенности генетического кода на базе математики матриц, построенного в виде предложенной молекулярно-генетической системы, представляющей собой иерархическую систему элементов генетического кода. При этом закономерности в предложенной системе, прослеживаемые по различным характеристикам азотистых оснований для ДНК, РНК, а также аминокислот, обеспечивают помехоустойчивость предложенной системы с точки зрения матрично-математических методов теории дискретных сигналов и цифровой техники. Причем данные закономерности прослеживаются также и на нижестоящих (атомарном и субатомарном) и вышестоящих (белковом, генном) уровнях. Кроме того, в данном подходе структуризации отсутствует необходимое различение ДНК и РНК уровней. Кроме того, структурирование возможно как с мажорными, так и с минорными азотистыми основаниями.

Кроме того, в используемой для кодирования/декодирования молекулярно-генетической системе прослеживается стройная и хорошо моделируемая математически фрактальная взаимосвязь на следующих уровнях:

ДНК ⎯ РНК ⎯ Аминокислоты ⎯ Белки ⎯ Генетические признаки

При этом на каждом структурном уровне рассмотрения молекулярно-генетической системы можно выявить четкие математические зависимости при подсчете атомарных и субатомарных составляющих азотистых оснований.

При этом, на структурном уровне имеется возможность цветового анализа молекулярно-генетической системы: черно-белая, построенная на основе индексирующей информации (1 - черный, 0 - белый), и цветные: фрактальная цветовая схема и схема, организованная по длине волн видимого спектра.

При этом, помимо квадратичной и круговой схем построения молекулярно-генетической системы, определяется линейное представление, прямоугольное представление, объемное (кубическое) представление и представление в виде дерева графов.

Заявленные изобретения поясняются иллюстрирующими материалами, где:

- на фиг. 1 изображено линейное матричное представление используемой для кодирования матрицы, сформированной из 64-х триплетов, для ДНК, РНК и аминокислот с соответствующей каждому элементу матрицы бинарной индексирующей информацией;

- на фиг. 2 - квадратичное матричное представление триплетной матрицы для ДНК, РНК и аминокислот;

- на фиг. 3 - прямоугольное матричное представление триплетной матрицы для ДНК, РНК и аминокислот;

- на фиг. 4 - круговое представление триплетной матрицы для ДНК, РНК и аминокислот;

- на фиг. 5, 5А - объемное (кубическое) представление триплетной матрицы для ДНК/РНК;

- на фиг. 6, 6А - представление триплетной матрицы для ДНК в виде структурного дерева графов;

- на фиг. 7 - изменение количества водородных связей в линейном представлении триплетной матрицы для ДНК;

- на фиг. 8 - изменение количества водородных связей в квадратичном представлении триплетной матрицы для ДНК/РНК;

- на фиг. 9 - изменение суммарного количества атомов углерода (С), водорода (Н), азота (N), и кислорода (О) для каждого азотистого основания в линейном представлении триплетной матрицы для ДНК;

- на фиг. 10 - изменение суммарного количества атомов углерода (С) для каждого азотистого основания ДНК в линейном представлении триплетной матрицы;

- на фиг. 11 - изменение суммарного количества атомов углерода (С) для каждого азотистого основания РНК в линейном представлении триплетной матрицы;

- на фиг. 12 - значение суммарного количества атомов кислорода (О) для каждого азотистого основания ДНК в линейном представлении триплетной матрицы;

- на фиг. 13 - значение суммарного количества атомов кислорода (О) для каждого азотистого основания РНК в линейном представлении триплетной матрицы;

- на фиг. 14 - сравнительный анализ мажорных и минорных азотистых оснований для ДНК и РНК;

- на фиг. 15 - таблица соотношений информационных (переменных) и контрольных (результирующих) значений логической операции сложение по модулю 2 в виде 64 триплетов ДНК (РНК);

- на фиг. 16 - таблица соотношений значений результирующих векторов и их триплетная интерпретация;

- на фиг. 17 - алфавит, составленный на основе молекулярно-генетической системы триплетов.

На практике могут быть разновидности цифровой, текстовой, символьной, графической и смешанной информации. Сущность изобретений заключается в преобразовании любого вида информации в последовательность кодовых комбинаций, состоящих из i - информационных бит с добавлением к каждой кодовой комбинации информационных бит для возможности восстановлении информации по кодовым комбинациям k - контрольных бит, комбинацию которых определяют в зависимости от комбинации i - информационных бит. При этом комбинацию из k - контрольных бит выбирают в соответствии с числовыми представлениями, которые либо совпадают с полной ортогональной системой функций Уолша, применяемой в помехоустойчивом кодировании для обработки дискретных сигналов, либо имеют константное значение.

Массив кодируемой информации разделяют на логически законченные фрагменты (символьный ряд, визуальный ряд, звуковой ряд, ряд биологических последовательностей на генетическом уровне, соматическом уровне), каждому из которых ставят в соответствие, по крайней мере, один элемент молекулярно-генетической системы, состоящий из n-числа азотистых оснований. Ко множеству элементов системы добавляют индексирующую информацию из i - информационный бит, соответствующую выбранной характеристике азотистых оснований для ДНК, РНК или аминокислот. На основании индексирующей информации формируют кодовую проверочную комбинацию из k - контрольных бит, например, комбинацию значений булевой функции сложения переменных значений по модулю 2, числовые представления которой совпадают с полной ортогональной системой функций Уолша. [И.В.Агафонова «Криптографические свойства нелинейных булевых функций», 2007 г., http://dha.spb.ru/PDF/cryptoBOOLEAN.pdf]. Например, количество соответствующих азотистых оснований для одного дискретного элемента кодируемой информации может быть равно 6-ти (X, Y, Z - кодовая комбинация элемента; X'Y'Z' - кодовая комбинация проверки). Используя Z-кодирование, кодируемую информацию представляют в виде машиночитаемой последовательности в двоичной (дискретной) форме счисления либо в виде уникальной нуклеотидной последовательности их n-числа мультиплетов. Вместе с кодируемой информацией записывают значение n и информацию о выбранном способе трансформации матрицы в последовательность. Благодаря фрактальности предложенной для кодирования молекулярно-генетической системы мультиплетная последовательность может быть выстроена для РНК, ДНК, аминокислот, белков.

ДНК и РНК включают в себя нуклеотиды, которые состоят из сахара, фосфатной группы и азотсодержащих оснований: цитозина (С), аденина (А), гуанина (G), тимина (T) для ДНК и урацила (U) для РНК. При этом азотсодержащие основания представляют собой специфические конструкции с особыми биохимическими характеристиками. Поскольку структура сахаро-фосфатного остова остается неизменной, характеристики пяти мажорных азотсодержащих оснований определяют положение нуклеотидов при построении основы молекулярно-генетической системы элементов, которая выполнена в виде квадратной матрицы F¹ размера 2×2.

, где T/U означает использование при построении системы тимина (для ДНК) или урацила (для РНК).

Основа из четырех азотсодержащих оснований для ДНК и четырех азотсодержащих оснований для РНК является носителем содержательной симметричной системы различительно-объединяющих признаков, которая разбивает четыре азотсодержащих основания различными способами на пары, эквивалентные по одному из этих признаков. Для ДНК основа (F¹) выстраивается с тимином (Т), для РНК - с урацилом (U).

Термин «молекулярно-генетическая система», используемый в данном контексте, означает комплекс структур и механизмов передачи наследственной информации (генетического материала), характерных для данного вида. [Арефьев В.А., Лисовенко Л.А. Англо-русский толковый словарь генетических терминов. 1995. 407 с.]. При этом система есть объект, целостность которого обеспечивается совокупностью связей и отношений между группами элементов, объединенных развернутыми в пространстве и во времени структурами.

Обоснование данного построения состоит в следующем.

Двойная спираль обычной ДНК состоит из двух взаимно перевитых полинуклеотидных цепей, азотистые основания которых попарно соединены водородными связями. Жесткость пространственной конфигурации ДНК в основном обеспечивается большим количеством водородных связей между противолежащими основаниями цепей, так что против аденина (А) одной цепи всегда находится тимин (Т) другой, против гуанина (G) - цитозин (С), поэтому одна нить по расположению азотистых оснований комплементарная (дополнительная) к другой нити. Аденин (А) одной цепи связан с тимином (Т) другой, а гуанин (G) с цитозином (С). РНК представляет собой одноцепочную молекулу, построенную таким же образом, как и одна из цепей ДНК. Нуклеотиды РНК похожи на нуклеотиды ДНК, хотя и не тождественны им. Три азотистых основания совершенно такие же, как в ДНК: аденин (А), гуанин (G) и цитозин (С). Однако вместо тимина (Т) в РНК присутствует близкое ему по строению азотистое основание - урацил (U).

В представленной основе (F¹) азотсодержащие основания построчно сгруппированы по количеству водородных связей: в первой строке матрицы - комплементарная пара с сильной водородной связью G - С, имеющая три водородные связи, во второй строке - комплементарная пара со слабой водородной связью А - Т(для ДНК)/и(для РНК), имеющая две водородные связи.

Во-вторых, особенность азотистых оснований заключается в том, что ни подразделяются на два типа: пуриновые - аденин (А), гуанин (G) и пиримидиновые - цитозин (С), тимин (Т) и урацил (U). Основу структуры молекул пуриновых и пиримидиновых оснований составляют два ароматических гетероциклических соединения - пиримидин и пурин. Молекула пурина состоит из двух конденсированных колец, а молекула пиримидина - из одного кольца. Следовательно, в представленной основе (F¹) азотсодержащие основания по столбцам сгруппированы по количеству конденсированных колец: в первом столбце матрицы - пуриновые основания, имеющие большее число колец в молекулярном строении, во втором столбце - пиримидиновые основания, имеющие меньшее число колец.

Таким образом, получаем основу (F¹) системы элементов, в которой азотистые основания разбиты на пары соответствующие их основным характеристикам: по горизонтали: в первой строке элементы с тремя водородными связями, а во второй - элементы с двумя водородными связями, а по вертикали в первом столбце пуриновые основания, во втором - пиримидиновые основания.

В этом разбиении на эквивалентные пары по конкретному признаку каждому азотистому основанию может быть добавлен индекс бинарной оппозиции: например, единицы - в случае сильного проявления признака, и нуля - в случае слабого его проявления. В случае разбиения на бинарные индексы, основанные на биохимических характеристиках азотсодержащих оснований, элементная основа (F¹) иллюстрируется следующим образом:

Размещение азотистых оснований в элементной основе и наглядно поясняет, что по первому признаку эквивалентными являются горизонтальные пары оснований G=C (три водородные связи, сильная позиция, соответствующая цифре 1) и A=T/U (две водородные связи, слабая позиция, цифра 0), по второму признаку - вертикальные пары G=A (два кольца в молекуле, сильная позиция, соответствующая цифре 1), C=T/U (одно кольцо в молекуле, слабая позиция, соответствующая цифре 0).

Молекулярно-генетическая система для кодирования сформирована путем тензорного (кронекеровского) произведения основы на саму себя. Так, например, матрица следующего поколения F² для ДНК размером 4×4 будет выглядеть следующим образом:

А матрица поколения F³ для ДНК размером 8×8 будет выглядеть:

Количество элементов матрицы обосновано количеством сочетаний триплетов из четырех азотистых оснований. Каждый из триплетов имеет свою индивидуальность, поскольку он выступает в качестве собственного значения матрицы и ему соответствует его собственный вектор этой матрицы. Например, каждый из трех триплетов ААС, АСА и САА завязан на свой собственный вектор, а потому в данном отношении эти триплеты существенно различны.

Таким образом, молекулярно-генетическая система сформирована в результате бесконечного количества повторов Fⁿ=F ⊗ F^n-1, где каждый квадрант матрицы F⁽ⁿ⁾ полностью воспроизводит матрицу F^(n-1) предыдущего поколения или предыдущей степени. Матрица каждого нового поколения содержит в себе в скрытом виде информацию обо всех предыдущих поколениях (о матрицах всех предыдущих степенях). А самая большая мультиплетная матрица F^(∞) матрица содержит информацию обо всех матрицах с более короткими мультиплетами. С возрастанием матричного порядка увеличивается количество сочетаний азотсодержащих оснований, которые определяют множество уникальных элементов структурированной системы, которое может быть бесконечным. Следовательно, с помощью предлагаемой системы элементов можно принимать, передавать, хранить и воспроизводить большой объем информации.

Чтобы иметь возможность обрабатывать информацию техническими средствами, та же система может быть сформирована в двоичной системе исчисления - из индексных значений по столбцам и строкам своих наборов, исходя из сочетаний пуриново-пиримидиновых оснований и количества водородных связей.

Например, в триплетной матрице для ДНК каждый триплет в двоичной системе будет представлен в виде гексаграмм, содержащих, например, 1 байт информации - по 6 бит в каждом байте:

Причем, построение каждого триплета в двоичной системе осуществляется с его нижнего азотистого основания, поскольку нижнее основание является элементом первоначальной матрицы F¹ размером 2×2, путем сочетания двоичного кода сначала по характеристике «количество водородных связей», а потом - по характеристике «пурин-пиримидин». К нижнему основанию крепится 5'-конец, в верхнем основании - 3'-конец. Замечено также, что движение электронов, также как и считывание идет снизу вверх - от 5' -Р04 (-) к 3' -ОН(+) концу.

Кроме того, описанная система элементов формирует признак: - «доминантный»/«рецессивный», что важно для передачи информации. На уровне ДНК и РНК доминантным (стабильным) является такое азотистое основание, которое присутствует как в ДНК, так и в РНК, а именно: G, С, А. Вместе с тем, рецессивным (изменяемым) является такое азотистое основание, которое встречается только или в ДНК (Т), или только в РНК (U). Среди четырех азотистых оснований тимин (Т) противопоставлен природой трем другим основаниям, поскольку при переходе от ДНК к РНК тимин (Т) заменяется другим азотистым основанием - урацилом (U) и является рецессивным. Поэтому с учетом указанного признака, представленная молекулярно-генетическая система подобна решетке Пеннета (1906 г.) для полигибридного скрещивания организмов, которая представляет законы Менделя наследования признаков при полигибридном скрещивании, подтверждающие наличие природного многоканального помехоустойчивого кодирования информации о наследовании в каждом организме. Эти решетки - графический метод определения генотипа по сочетанию мужских и женских гамет при скрещивании, предложенный английским биологом Р. Пеннетом (R. Punnett). Только в решетках Пеннета вместо собственных значений матриц и их комбинаций фигурируют аналогичные комбинации доминантных и рецессивных аллелей генов от родительских репродуктивных клеток - гамет. При этом в случае передачи информации доминирующие признаки кодируются более устойчивыми (стабильными) азотсодержащими основаниями.

Каждый триплет отмечен определенным цветом в зависимости от степени устойчивости азотсодержащих оснований: красным цветом (нижний индекс - 1) те триплеты, в которых только стабильные основания, не меняющиеся и для ДНК и для РНК; оранжевым цветом (нижний индекс - 2) триплеты, в которых только верхнее (дочернее) основание будет меняться, два нижних останутся стабильными; желтым цветом (нижний индекс - 3) те триплеты, у которых будет меняться среднее основания при стабильных нижнем и верхнем; зеленым цветом (нижний индекс - 4) триплеты, у которых только нижнее основание стабильно, а верхнее и среднее меняются; голубым цветом (нижний индекс - 5) те триплеты, у которых меняется нижнее (материнское) основание, при стабильных верхнем и среднем; синим цветом (нижний индекс - 6) триплеты с изменяемыми нижним и верхнем основаниями при стабильном среднем основании; фиолетовым (нижний индекс - 7) триплеты с нижним и средним изменяемым основанием и стабильным верхнем основанием; пурпурным (нижний индекс - 8) - со всеми изменяемыми основаниями.

Построенная решетка Пеннета визуально повторяет ковер Серпинского и иллюстрирует фрактальное построение элементов молекулярно-генетической системы, совпадающей с частью себя самой. Иными словами представленная система имеет ту же структуру, что и ее части. При этом матрица Серпинского продуцирует матрицу Адамара, определяющую признаки помехоустойчивого кодирования. Следовательно, элементные характеристики на всех жизненных уровнях определяют уникальность каждого элемента молекулярно-генетической системы, принцип построения которой обусловлен, например, функцией Уолша, активно применяемой для помехоустойчивого кодирования информации.

Использование фракталов - матриц, каждая часть которой отображает целое, - позволяет сформировать молекулярно-генетическую систему на различных жизненных уровнях, используя в качестве элементов матрицы помимо азотистых оснований атомы, субатомы, аминокислоты, белки, которые в свою очередь формируют (ткани, органы, строительный материал).

Информация от ДНК к РНК передается транспортной последовательностью азотсодержащих оснований, построенной по принципу их комплементарности относительно друг друга.

При многократном повторении операции Fⁿ=F ⊗ F^n-1 над матрицей азотистых оснований для РНК получаем идентичную по построению систему элементов, в которой основание тимин (Т) заменено на урацил (U) - также являющийся пиримидиновым основанием с двумя водородными связями:

Следовательно, двоичная система триплетов ДНК, представленная в виде гексаграмм, будет идентична для

Способы кодирования и декодирования информации

Патент 2659025