Спектроскопический фингерпринтинг сырья
Иллюстрации
Показать всеИзобретение относится к области медицины, а именно к способу отбора партий компонентов культивации, подлежащих применению при культивации клетки млекопитающего, экспрессирующей интересующий белок, когда при культивировании используют по меньшей мере два разных компонента, включающему следующие стадии: а) берут спектры разных партий первого компонента, полученные первым спектроскопическим способом, спектры второго компонента, полученные вторым отличным спектроскопическим способом, и выход интересующего белка из культивационного супернатанта, полученный при культивировании с использованием комбинаций данных разных партий первого и второго компонентов, б) идентифицируют связь слитых спектров этих двух различных спектроскопических методов после расчета счетов РСА спектров с выходом культивирования, в) берут спектр дополнительной партии первого компонента, полученный первым спектроскопическим способом, и спектр дополнительной партии второго компонента, полученный вторым спектроскопическим способом, г) выбирают комбинацию взятого первого компонента и взятого второго компонента, если предсказанный выход из культивационного супернатанта, основанный на связи слитых спектров после расчета счетов РСА спектров, идентифицированной в б), находится в пределах +/-10% среднего выхода, приведенного в а). Использование заявленного способа позволяет отобрать партии компонентов, подлежащих применению при культивировании клетки млекопитающего, экспрессирующей интересующий белок. 5 з.п. ф-лы, 11 табл., 21 ил., 1 пр.
Реферат
Здесь приведен способ оценки компонентов культивационного вещества по отношению к выходу продукта уже при их получении и до и без необходимости проведения тестового культивирования.
ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ
Рынок рекомбинантных биофармацевтических продуктов постоянно рос с начала 1980-х годов, когда генная инженерия сделала возможной экспрессию рекомбинантных белков в разных типах микроорганизмов, подобных бактериям, дрожжам или клеткам млекопитающих. С того времени данные белковые продукты использовали в широком спектре диагностических и фармацевтических применений.
Поскольку потребность в рекомбинантных белках возрастает, необходимость в высокоэффективных и надежных способах продукции является неизбежной. Одним из самых важных влияющих факторов для надежных и воспроизводимых способов продукции является состав исходных веществ, таких как культуральные среды. Большинство культуральных сред представляют собой сложные смеси, включающие, наряду с другими компонентами, неорганические соли, сахара, аминокислоты, витамины, органические кислоты и буферы. Во многих случаях для стимуляции роста клеток и продукции белка используется сложное, химически неопределенное сырье, подобное белковым гидролизатам растительного или бактериального происхождения.
Обычно сырье поставляется в виде порошковых смесей и затем растворяется в воде с образованием среды культивирования. Во многих случаях для химически неопределенных белковых гидролизатов и также для химически определенных смесей базальных сред можно наблюдать значительное варьирование от серии к серии, приводящее к большим вариациям выхода рекомбинантно продуцируемых терапевтических белков.
Методики быстрого спектроскопического «фингерпринтинга», подобные спектроскопиям в ближней и средней инфракрасной области, спектроскопии комбинационного рассеяния или 2D (2-мерной) флуоресцентной спектроскопии, являются относительно недорогими и хорошо подходящими для анализа сложных смесей. В данных способах генерируется очень большое количество многомерных данных, с которыми можно манипулировать лишь посредством хемометрических способов, подобных анализу главных компонент (PCA) или моделированию с использованием частных наименьших квадратов (PLS). Комбинацию сложных спектроскопических способов и хемометрики обычно используют при тестировании идентичности сырья или в качестве инструмента для классификации сырья.
Применение анализа главных компонент (РСА) и частных наименьших квадратов (PLS) для обработки и моделирования сложных данных было описано Næs, T., et al., (Næs, T., et al., NIR Publications, (2002)). В WO 2009/086083 приведен способ иерархической организации данных с использованием PLS. Анализатор и способ определения относительной важности фракций биологических смесей приведен в WO 2008/146059. В WO 2009/061326 приведена оценка хроматографических веществ.
В US 2009/0306932 приведен способ быстрой классификации для массивов многомерных данных. Проведение анализа спектральных данных для выбора модели калибровки приведено в ЕР 2128599. В US 5498875 приведена обработка сигнала для химического анализа образцов. Способ классификации материалов, используемых в науке, таких как силикатные материалы, полимерные материалы и/или наноматериалы, приведен в US 2008/0177481. В US 2010/0129857 приведены способы выделения и идентификации микроорганизмов.
КРАТКОЕ ИЗЛОЖЕНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ
Обнаружили, что эффективность способов продукции рекомбинантных белков можно предсказывать на основе комбинации спектров NIR (ближняя инфракрасная область) и 2D-флуоресцентных спектров компонентов сред, таких как белковые гидролизаты и/или препараты химически определенных сред, которые используются в качестве компонентов сложной среды культивирования.
Одним приведенным здесь аспектом является способ отбора партий или серий компонентов сред культивирования, подлежащих применению при культивировании клетки млекопитающего, экспрессирующей интересующий белок, когда при культивировании используются по меньшей мере два разных компонента, с использованием для такого отбора слитых спектральных данных двух разных спектроскопических методик.
В одном воплощении способ отбора серий культивационных компонентов, подлежащих применению при культивировании клетки млекопитающего, экспрессирующей интересующий белок, когда при культивировании используются по меньшей мере два разных культивационных компонента, включает следующие стадии:
а) берут спектры разных серий первого компонента, полученные первым спектроскопическим способом, спектры разных серий второго компонента, полученные вторым спектроскопическим способом, который отличается от первого спектроскопического способа, и выход интересующего белка из культивационного супернатанта, полученный при культивировании с использованием комбинаций данных разных серий первого и второго компонентов,
б) идентифицируют связь слитых спектров после расчета счетов РСА спектров с выходом культивации,
в) берут спектр дополнительной серии первого компонента, полученный первым спектроскопическим способом, и/или спектр дополнительной серии второго компонента, полученный вторым спектроскопическим способом, и
г) выбирают комбинацию предложенного первого компонента и предложенного второго компонента, если предсказанный выход из культивационного супернатанта, основанный на связи слитых спектров после расчета счетов РСА спектров, идентифицированной в б), находится в пределах +/- 10% среднего выхода, приведенного в а).
В одном воплощении способ отбора серий культивационных компонентов, подлежащих применению при культивировании клетки млекопитающего, экспрессирующей интересующий белок, когда при культивировании используются по меньшей мере два разных культивационных компонента, включает следующие стадии:
а) берут спектры разных серий первого компонента, полученные первым спектроскопическим способом, спектры разных серий второго компонента, полученные вторым спектроскопическим способом, который отличается от первого спектроскопического способа, и выход интересующего белка из культивационного супернатанта, полученный при культивировании с использованием комбинаций данных разных серий первого и второго компонентов,
б) обрабатывают спектры, фильтруют спектры, сглаживают спектры и преобразуют спектры в их первую производную,
в) идентифицируют картины в спектрах,
г) идентифицируют связь картин, идентифицированных в в) с выходом культивирования,
д) берут спектр дополнительной серии первого компонента, полученный первым спектроскопическим способом, и/или спектр дополнительной серии второго компонента, полученный вторым спектроскопическим способом,
е) обрабатывают спектры, фильтруют спектры, сглаживают спектры и преобразуют спектры в их первую производную,
ж) выбирают комбинацию предложенного первого компонента и предложенного второго компонента, если предсказанный выход из культивационного супернатанта, основанный на связи, идентифицированной в г), находится в пределах +/- 10% среднего выхода, приведенного в а).
В одном воплощении первый и второй спектроскопический способ выбраны из спектроскопии NIR, спектроскопии MIR (средняя инфракрасная область) и 2D-флуоресцентной спектроскопии.
В одном воплощении обработка спектров включает удаление областей поглощения воды и применение мультипликативной поправки на рассеяние, и/или фильтрование включает фильтрование Савицкого-Голэя.
В одном воплощении идентификация картин в спектрах осуществляется посредством анализа главных компонент. В одном воплощении анализ главных компонент представляет собой развернутый анализ главных компонент. В одном воплощении при разворачивании сохраняется информация о первом измерении (образце). В одном воплощении сглаживание Савицкого-Голэя осуществляется с использованием интервала из 19 точек и полинома 2-го порядка. В одном воплощении данные центрированы по среднему значению, и оптимальное число главных компонент выбирают с использованием способа перекрестной проверки с исключением.
В одном воплощении обработка включает исключение областей рассеяния и интерполяцию удаленных точек. В одном воплощении конечные спектры составлены по интервалу длин волн испускания от 290 нм до 594 нм и интервалу длин волн возбуждения от 230 нм до 575 нм.
В одном воплощении идентификация связи между спектрами, слитыми и сжатыми посредством счетов РСА, и выходом культивирования в момент отбора осуществляется посредством анализа частных наименьших квадратов.
В одном воплощении спектры NIR отбирают в интервале волнового числа от 4784 см-1 до 8936 см-1.
В одном воплощении спектральная размерность уменьшается от 1039 волновых чисел до 3 главных компонент.
В одном воплощении интересующий белок представляет собой антитело, или фрагмент антитела, или конъюгат антитела.
ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
Обнаружили, что эффективность способов продукции рекомбинантных белков можно предсказывать на основе объединенной информации, содержащейся в спектрах NIR и 2D-флуоресцентных спектрах компонентов сред, таких как белковые гидролизаты и/или препараты химически определенных сред, которые используют как компоненты сложной среды культивирования.
Здесь приведен способ, в котором спектры от двух разных (ортогональных) методик спектроскопии, после обработки для того, чтобы сделать их аддитивными, посредством уменьшения числа переменных до счетов анализа главных компонент (РСА), полученные на двух компонентах сред, используемых в ферментации рекомбинантных биофармацевтических препаратов, объединяют, и модели таких преобразованных спектров (входные данные) используют для предсказания выходов культивирований биофармацевтического продукта в момент сбора (данные на выходе), основываясь на смесях исследованных компонентов сред с варьированием от серии к серии в показателях разной эффективности ферментации.
Посредством применения разных (ортогональных) спектроскопий в комбинации со способами РСА (для обеспечения их аддитивности) и получения моделей процесса эффекта таких смесей сред культивирования на выходы главной ферментации в момент сбора устанавливается предсказывающая способность, которая обеспечивает отбор серий сред каждого сырья и/или приготовление смесей в виде препаратов, которые лучше всего служат целям процесса.
Разные серии индивидуальных компонентов, образующих полную среду культивации, слегка варьируют по их детальному составу, но все же находятся в пределах спецификации, данной изготовителем. В некоторых случаях возможно отслеживать эту изменчивость до единичных ингредиентов, но чаще всего изменчивость от серии к серии не может быть детектирована аналитическими способами. Для оценки влияния разных серий индивидуальных компонентов на выход продукта можно многократно проводить сравнительное культивирование той же самой линии клеток млекопитающего.
Здесь описаны 56 культивирований, в которых в ферментационной и подпиточной среде используются, соответственно, девять разных серий гидролизата соевого белка, две смеси двух разных серий гидролизата соевого белка, пять серий гидролизата рисового белка и шесть серий порошка химически определенной базальной среды.
Для оценки влияния разных серий гидролизата соевого белка относительно выхода продукта проводили сравнительные культивирования, в которых в ферментационных и подпиточных средах использовали одинаковые серии химически определенной базальной среды и гидролизата рисового белка. Результаты можно сгруппировать согласно разным использованным сериям гидролизата соевого белка. Эффективность разных серий оценивали на основе выхода продукта при аналогичных средних значениях инокуляционной плотности клеток (ICD) (Таблица 1)
Таблица 1 | |||||
партия | № серии гидролизата соевого белка | № серии химически определенной базальной среды | № серии гидролизата рисового белка | ICD | продукт в 330 ч [мг/л] |
D45KD11 | 1 | 1 | 1 | 5,7 | 1319 |
D45KD12 | 5,3 | 1234 | |||
D45KD13 | 5,6 | 1305 | |||
D45KD22 | 2 | 5,3 | 1023 | ||
D45KD23 | 5,1 | 1070 | |||
D45KD31 | 3 | 4,8 | 1008 | ||
D45KD32 | 4,9 | 991 | |||
D45KD33 | 5,3 | 978 |
Результаты, полученные для второго набора кульвитирований, перечислены в Таблице 2.
Таблица 2 | |||||
партия | № серии гидролизата соевого белка | № серии химически определенной базальной среды | № серии гидролизата рисового белка | ICD | продукт в 330 ч [мг/л] |
D52KD11 | 1 | 2 | 2 | 6,1 | 1434 |
D52KD12 | 5,0 | 1411 | |||
D52KD13 | 5,6 | 1459 | |||
D52KD21 | 4 | 5,0 | 1213 | ||
D52KD22 | 5,3 | 1243 | |||
D52KD23 | 5,4 | 1163 | |||
D55KD11 | 5 | 5,0 | 1409 | ||
D55KD12 | 5,4 | 1426 | |||
D55KD13 | 5,7 | 1430 | |||
D55KD21 | 2 | 6,8 | 1263 | ||
D55KD22 | 6,8 | 1256 | |||
D55KD23 | 6,8 | 1278 | |||
D55KD31 | 6 | 6,1 | 1269 | ||
D55KD32 | 6,1 | 1262 | |||
D55KD33 | 5,8 | 1265 |
Можно видеть, что разные серии индивидуальных компонентов приводят к разным выходам продукта. В данной серии культивирований также использовали разные средние значения ICD. Несмотря на низкие значения ICD, культивирования с использованием серии 1 и серии 5 давали значительно более высокие выходы продукта, чем культивирования, имеющие более высокие значения ICD (партия 3 и партия 6). Таким образом, разные серии гидролизата соевого белка приводят к разной эффективности продукции.
Аналогично можно оценивать влияние гидролизата рисового белка на эффективность процесса (Таблица 3).
Таблица 3 | |||||
партия | № серии гидролизата соевого белка | № серии химически определенной базальной среды | № серии гидролизата рисового белка | ICD | продукт в 330 ч [мг/л] |
D61KD11 | 3 | 3 | 2 | 5,9 | 1132 |
D61KD12 | 6,0 | 1085 | |||
D61KD13 | 5,3 | 1101 | |||
D61KD21 | 3 | 6,1 | 1062 | ||
D61KD22 | 6,1 | 1056 | |||
D61KD23 | 5,6 | 1043 |
Провели шесть культивирований, и их можно сгруппировать согласно разным сериям гидролизата рисового белка, использованным в каждом из них. Эффективность разных серий гидролизата рисового белка можно оценивать на основе среднего выхода продукта. Обе группы, т.е. серии гидролизата рисового белка, имеют аналогичные значения ICD.
Для анализа влияния химически определенной базальной среды на выход продукта, культивирования проводили с одинаковыми сериями гидролизата соевого белка и гидролизата рисового белка в препарате исходной ферментационной среды и подпиточных средах. Проводили три серии экспериментов (Таблицы 4, 5 и 6).
Первая серия включала шесть культивирований с серией 3 гидролизата соевого белка (как в Таблице 3) и серией 2 гидролизата рисового белка (как в Таблице 2) в ферментационных и подпиточных средах. Культивирования группировали согласно использованной серии химически определенной базальной среды. Эффективность разных серий химически определенной базальной среды оценивали на основе выхода продукта. Существует небольшое различие между двумя группами как по средней ICD, так и по среднему выходу продукта. При более низкой ICD можно получить меньшее образование продукта. Таким образом, серии химически определенной базальной среды имеют слабое влияние или не имеют влияния на выход продукта.
Таблица 4 | |||||
партия | № серии гидролизата соевого белка | № серии химически определенной базальной среды | № серии гидролизата рисового белка | ICD | продукт в 330 ч [мг/л] |
D55KD21 | 3 | 2 | 2 | 6,8 | 1263 |
D55KD22 | 6,8 | 1256 | |||
D55KD23 | 6,8 | 1278 | |||
D61KD11 | 3 | 5,9 | 1132 | ||
D61KD12 | 6,0 | 1085 | |||
D61KD13 | 5,3 | 1101 |
Вторая серия включала шесть культивирований с использованием в препарате исходных ферментационных сред и подпиточных средах серии 1 гидролизата соевого белка (как и в Таблице 2). Эксперименты группировали согласно используемой серии химически определенной базальной среды. Значимые различия ICD отсутствовали. Таким образом, различия в выходе продукта обусловлены различиями использованных серий химически определенной базальной среды.
Таблица 5 | ||||
партия | № серии гидролизата соевого белка | № серии химически определенной базальной среды | ICD | продукт в 330 ч [мг/л] |
D45KD11 | 1 | 1 | 5,7 | 1319 |
D45KD12 | 5,3 | 1234 | ||
D45KD13 | 5,6 | 1205 | ||
D52KD11 | 2 | 6,1 | 1434 | |
D52KD12 | 5,0 | 1411 | ||
D52KD13 | 5,6 | 1459 |
Третья серия включала пять культивирований с серией 2 гидролизата соевого белка в препарате исходных ферментационных сред и подпиточных средах. Эксперименты группировали согласно используемой серии химически определенной базальной среды. Существует различие между двумя группами как в использованной ICD, так и в полученной концентрации продукта.
Таблица 6 | ||||
партия | № серии гидролизата соевого белка | № серии химически определенной базальной среды | ICD | продукт в 330 ч [мг/л] |
D45KD22 | 2 | 1 | 5,3 | 1023 |
D45KD23 | 5,1 | 1070 | ||
D73KD11 | 4 | 4,9 | 1062 | |
D73KD12 | 4,3 | 1112 | ||
D73KD13 | 4,4 | 1121 |
Из приведенного выше можно увидеть, что существует потребность в характеризации серии сырья и потребность в предложении способа, в котором полученные данные можно использовать для предсказания того, какие серии сырья дают большие выходы продукта, без необходимости проведения экспериментов по ферментации.
Можно получить спектры NIR, MIR и 2D-флуоресценции всех серий трех разных компонентов сред культивирования. Затем можно провести спектральный анализ общепринятыми хемометрическими способами. Здесь приведен новый способ анализа спектральной информации, полученной из этих разных источников, и он может быть использован для целей предсказательного моделирования.
Спектры NIR серий сырья были получены в разные периоды времени в тройной повторности. Спектры NIR варьируют между повторностями для порошковых и грубых гетерогенных образцов. Такие выпадающие повторы можно устранять на основе их относительного положения в пространстве графика счетов РСА (Эвклидово расстояние).
Из всех приведенных измерений отбирали спектры NIR 18 партий гидролизата соевого белка, 12 партий гидролизата рисового белка и 14 партий химически определенной базальной среды. Спектры NIR получали от 4784 см-1 до 8936 см-1. Эта спектральная область не содержит области шума. Наблюдаемые сильные сдвиги исходного уровня обусловлены рассеянием света, ассоциированным с разными сериями сырья, имеющими различия в распределениях среднего размера частиц (гранулярности). Анализ необработанных спектров без коррекции исходного уровня позволяет сосредоточиться на различиях, вызванных, главным образом, физическими эффектами. Анализ РСА необработанных спектров проводили для каждого сырья раздельно.
На Фиг.1 показано распределение разных серий протестированных гидролизатов соевого белка на 2-мерном пространстве, построенном посредством РСА на основе исходных спектров NIR, охватывающем 94% дисперсии спектра NIR. Размерность спектра была уменьшена от 1039 волновых чисел до 3 значимых главных компонент. Серии, дающие высокий выход продукта, не могут быть различены на основе данного анализа от серий, дающих низкий выход продукта. Кроме того, гранулярность (как видно по разным исходным уровням спектров NIR, Фиг.2) и содержание влаги (согласно измерениям по Карлу Фишеру) образцов также отличаются, очень затрудняя кластеризацию партий согласно любому единичному свойству.
На Фиг.3 показано как распределяются протестированные серии гидролизата рисового белка на 2-мерном пространстве, построенном посредством РСА на основе исходных спектров NIR, охватывающем 92% дисперсии спектров NIR. Как и для гидролизата соевого белка, серии, дающие высокий выход продукта, не могут быть различены на основе одного данного анализа от серий, дающих низкий выход продукта. Вновь гранулярность и влажность образцов изменяются от серии к серии, влияя на кластеризацию.
На Фиг.4 показано распределение серий химически определенной базальной среды на 2-мерном пространстве, построенном посредством РСА на основе исходных спектров NIR, охватывающем 98% дисперсии спектров NIR. Как и для гидролизатов соевого и рисового белка, серии, дающие высокий выход продукта, не могут быть различены на основе одного этого анализа от серий, дающих низкий выход продукта.
Три проанализированных компонента сред культивации показывают значительную изменчивость от серии к серии в гранулярности и содержании влаги, как можно видеть по полученным спектрам NIR. Спектр NIR является очень чувствительным к этим двум факторам. Кроме того, оба данных фактора преобладают над меньшими, но все же значимыми различиями химического состава, которые могут присутствовать. Физическая информация должна быть удалена до анализа РСА путем предварительной обработкой спектров.
Вода очень сильно поглощает в области NIR, особенно в интервале от 6900 см-1 до 7150 см-1 и от 5160 см-1 до 5270 см-1. Эти области поглощения вызваны первым обертоном полосы валентных колебаний O-H и комбинацией полос валентных колебаний О-Н и изгибных колебаний О-Н соответственно. Области поглощения воды могут быть удалены. Кроме того, сдвиг исходного уровня может быть устранен применением мультипликативной поправки на рассеяние (MSC). Для того чтобы увеличить изменчивость между образцами, можно применить способ фильтрования и сглаживания Савицкого-Голэя, и спектры можно преобразовывать в их первую производную (интервал из 25 точек).
Анализ РСА проводили на ранее предварительно обработанных спектрах гидролизатов соевого белка (Фиг.5). Почти все серии от очень хорошо до хорошо работающих в показателях выхода процесса группировались на левой стороне графика РСА (отрицательные значения счета РС1). Наоборот, серия 4, которая, по-видимому, работает плохо, занимает пространство на правой стороне графика.
Анализ РСА проводили на ранее предварительно обработанных спектрах гидролизатов рисового белка (Фиг.6). Серии, дающие очень сходные выходы, кластеризовались вместе, показывая, таким образом, что РСА предварительно обработанных спектров является адекватным, и то, что уже имеется некоторая изменчивость от серии к серии, которая может быть отнесена к химическому составу данного компонента сырья, которая не связана с гранулярностью или уровнем влаги.
Анализ РСА предварительно обработанных спектров химически определенных базальных сред (Фиг.7) показывает, что, в общем, все серии от очень хорошо до хорошо работающих группируются на левой стороне графика РСА (отрицательные значения счета РС1). Наоборот, серия 3, которая, по-видимому, работает плохо, занимает пространство на правой стороне графика. Данные результаты являются сопоставимыми с результатами, полученными для серий гидролизатов белка.
Помимо спектров NIR можно проанализировать спектры возбуждения-испускания флуоресценции (ЕЕМ), полученные на разном водорастворимом сырье для ферментации. Можно создать трехмерный массив данных с длинами волн возбуждения по оси X, длинами волн испускания по оси Y и интенсивностью по оси Z. На Фиг.8 показан рельеф ЕЕМ флуоресценции образцов серий гидролизата соевого белка.
Были получены 2D-флуоресцентные спектры 19 серий гидролизата соевого белка, 12 серий гидролизата рисового белка и 14 серий химически определенной базальной среды. Спектры получали с использованием длин волн возбуждения от 200 нм до 600 нм с интервалами 5 нм и длинами волн испускания также от 200 нм до 600 нм с интервалами 2 нм, что давало всего 81 длину волны возбуждения и 201 - испускания.
Для того чтобы обеспечить предсказание выхода культивирования на основе анализа сырья, для каждого сырья можно генерировать трехмерный массив из индивидуальных матриц.
На типичный спектр ЕЕМ могут влиять эффекты рэлеевского и рамановского рассеяния, которые оказывают влияние на содержание информации флуоресцентного рельефа. Для преодоления рэлеевского эффекта можно использовать несколько стратегий и методик:
- обнуление длин волн испускания, меньших, чем длины волн возбуждения;
- вставка отсутствующих значений в область рассеяния;
- исключение области рассеяния и интерполяция удаленных точек;
или
- вычитание фонового спектра.
Обнаружили, что в приведенном здесь способе самым подходящим является исключение области рассеяния и интерполяция удаленных точек. Следовательно, можно использовать алгоритм EEMscat Matlab©. Данный алгоритм можно бесплатно загрузить на сайте во Всемирной паутине: httt://www.models.kvl.dk/source/EEM_correction/. Посредством этой процедуры можно полностью удалить рассеяние. Спектр также показывает отчетливый шум вдоль всей оси испускания при первой длине волны возбуждения. Данная область (от 200 нм до 225 нм) была исключена из спектра, как и неинформативные длины волн испускания (от 200 нм до 315 нм и от 596 нм до 600 нм) и длины волн возбуждения (от 580 нм до 600 нм). Полученный в результате спектр показан на Фиг.9.
Конечные спектры гидролизата соевого белка составлены из интервала длины волны испускания от 320 нм до 594 нм и интервала длины волны возбуждения от 230 нм до 575 нм, что приводит к массиву 19×138×70 элементов. Той же самой методике можно следовать для гидролизатов рисового белка и наборов данных для химически определенной базальной среды. Таким образом, конечные спектры гидролизата рисового белка состоят из интервала длины волны испускания и возбуждения от 290 нм до 594 нм и от 230 нм до 550 нм соответственно, что приводит к массиву 12×153×65 элементов. Конечные спектры химически определенной базальной среды состоят из интервала длины волны испускания от 290 нм до 594 нм и из интервала длины волны возбуждения от 230 нм до 550 нм, что приводит к массиву 14×162×60 элементов.
В заключение, предварительную обработку спектров ЕЕМ можно проводить для каждого набора данных по сырью для увеличения отношения сигнала к шуму. Таким образом, можно ясно увидеть различия между каждым сырьем: гидролизат соевого белка содержит от 2 до 3 флуорофоров, гидролизат рисового белка содержит 3 флуорофора, и химически определенная базальная среда содержит больше, чем 4 флуорофора.
Для того чтобы получить обзор изменчивости сырья от серии к серии, для каждого сырьевого компонента можно провести РСА развернутого массива флуоресцентных данных. Методику разворачивания можно применять в любом из трех измерений трехмерного массива данных. Для увеличения различий от серии к серии можно использовать сохраняющуюся при разворачивании информацию первого измерения (образцы). Этим способом флуоресцентные рельефы можно развернуть в необработанные спектры испускания один за другим (Фиг.10).
Размеры массива данных гидролизата соевого белка составляют 19×138×70 (серия × длина волны испускания × длина волны возбуждения). После стратегии разворачивания может быть получена двухмерная матрица размером 19×9960. На Фиг.11 показана малая часть полученных спектров для трех разных серий гидролизата соевого белка. При крайних значениях длины волны можно наблюдать шум.
Для преодоления данных отклонений можно использовать несколько стратегий. Обнаружили, что лучше всего подходит сглаживание Савицкого-Голэя с использованием интервала 19 точек и полинома 2-го порядка для удаления шума, а мультипликативная поправка на рассеяние (MSC) лучше всего подходит для устранения смещения базового уровня.
К предварительно обработанной матрице для гидролизата соевого белка применяли РСА развернутого спектра. Данные были центрированы по среднему значению, и оптимальное число главных компонент было выбрано с использованием способа перекрестной проверки с исключением. На Фиг.12 показан график счетов РСА РС1 (главная компонента 1) × РС2 (главная компонента 2), охватывающий 96% дисперсии, обнаруженной на всем развернутом рельефе ЕЕМ.
После разворачивания полученная в результате матрица для гидролизата рисового белка имела размер 12×9945. Применяли ту же самую предварительную обработку, которую использовали для гидролизата соевого белка. На Фиг.13 показан график счетов РСА РС1×РС2 с использованием трех главных компонент, охватывающих 98% дисперсии развернутого спектра ЕЕМ.
Размер матрицы развернутого спектра химически определенной базальной среды составлял 14×9600. Использовали ту же самую методику предварительной обработки спектров ЕЕМ, которую применяли к двум другим компонентам сред. На Фиг.14 показан график счетов РСА РС1×РС2 с использованием двух главных компонент, охватывающих больше, чем 92% общей дисперсии в развернутых спектрах ЕЕМ. Как и ранее в случае со спектрами NIR для тех же самых компонентов сред, обнаружили, что серии, дающие более высокие выходы, отделены от серий, дающих меньшие выходы на графиках счетов РСА развернутых спектров ЕЕМ.
Можно разработать PLS модель для предсказания выхода продукта в конце процесса на основе спектров NIR и/или флуоресценции, полученных для разных серий каждого компонента среды и/или их комбинаций. В алгоритме PLS задается блок X (предварительно обработанный спектр с выбором или без выбора переменной) и блок Y (параметр продукта) и находится корреляция между обоими путем обнаружения изменчивости в X, ответственной за изменения в Y (т.е. максимизация ковариации между блоками). Может быть определен основной набор, в который можно включить большинство разных серий сырья. Из повторных партий, имеющих ту же самую комбинацию серий, для калибровочного набора данных была выбрана партия, дающая наивысший выход продукта (Таблица 7).
Таблица 7 | ||
партия | № серии гидролизата соевого белка F/ZF | продукт в 330 ч [мг/л] |
D52KD13 | 1 | 1458 |
D52KD22 | 4 | 1232 |
D55KD13 | 5 | 1430 |
D55KD23 | 3 | 1257 |
D55KD31 | 6 | 1263 |
D73KD13 | 2 | 1120 |
D73KD33 | 7 | 1044 |
D79KD22 | 8 | 1162 |
Спектры NIR можно предварительно обработать, как описано ранее, для удаления влияния физических эффектов, возникающих из-за разных распределений размера частиц. Поскольку не использовали повторные спектры, в качестве стратегии внутренней проверки применяли способ перекрестной проверки с исключением.
Полученная модель была составлена только из двух LV (скрытая переменная), но был получен незначимый R2 0,139. График измерений по сравнению с предсказанием посредством перекрестной проверки представлен на Фиг.15.
PLS модель, в которой находится корреляция спектров NIR разных серий химически определенной базальной среды и выход продукта, можно построить с использованием калибровочного набора данных, как представлено в Таблице 8.
Таблица 8 | ||
партия | № серии химически определенной базальной среды F/ZF | продукт в 330 ч [мг/л] |
D45KD11 | 1 | 1314 |
D52KD13 | 2 | 1458 |
D61KD12 | 3 | 1134 |
D73KD21 | 4 | 1147 |
D79KD22 | 5 | 1162 |
Полученная модель была составлена лишь из двух LV, но вновь был получен незначимый R2 0,04 (Фиг.16).
Рассматривая не только один компонент среды, но два самых релевантных компонента, влияющих на выход, и также принимая во внимание то, что посредством каждого отличного использованного спектроскопического способа получается отличная химическая информация, можно использовать комбинированную стратегию между одинаковыми спектроскопическими характеристиками разных компонентов сред и также между отличными спектроскопическими характеристиками разных компонентов сред.
Критерии, использованные для выбора калибровочных и подтверждающих партий, были основаны на получении во время калибровки самого широкого возможного интервала (Таблица 9).
Таблица 9 | ||||
партия | № серии гидролизата соевого белка F/ZF | серия химически определенной базальной среды F/ZF | продукт в 330 ч [мг/л] | |
калибровка | D45KD11 | 1 | 1 | 1314 |
D45KD31 | 3 | 1 | 999 | |
D52KD13 | 1 | 2 | 1458 | |
D52KD22 | 4 | 2 | 1232 | |
D55KD13 | 5 | 2 | 1430 | |
D55KD31 | 6 | 2 | 1263 | |
D61KD12 | 3 | 3 | 1134 | |
D73KD13 | 2 | 4 | 1120 | |
D73KD33 | 7 | 4 | 1044 | |
D79KD22 | 8 | 5 | 1162 | |
проверка | D45KD23 | 2 | 1 | 1061 |
D55KD23 | 3 | 2 | 1257 | |
D73KD21 | 8 | 4 | 1147 |
Внешнюю проверку осуществляли с одной третью набора данных. Данные по калибровке и проверке (спектры NIR) предварительно обрабатывали так же, как описано ранее. Полученная предсказывающая модель основана на 3 LV, и полученный R2 достигал значимого значения 0,88.
Точность и долговременная надежность модели отражена в высоком R2 с малыми ошибками и калибровки, и проверки, с малым различием между RMSECV (среднеквадратичная ошибка перекрестной проверки) и RMSEP (среднеквадратичная ошибка предсказания) (Фиг.17). В приведенном выше случае ошибка предсказания была малой (RMSEP=36 мг/л) и не отличалась значительно от RMSECV (126 мг/л).
Таким образом, обнаружили, что может быть установлена корреляция между выходом продукта и спектроскопическими данными от разных соединений среды культивации, полученными комбинацией спектроскопической информации одинаковой природы (NIR) для двух (самых важных) сырьевых компонентов процесса или компонентов сред. Каждый спектр имеет 944 волновых числа, и полный калибровочный набор данных, включенный в модель, представлен 18880 переменными (10 образцов × 2 сырьевых компонента × 944 волновых числа после выбора переменных). Для того чтобы уменьшить требующуюся загрузку, проводили анализ РСА, основанный на спектрах, которые сперва сжимали посредством превращения содержащейся в них информации в несколько некоррелирующих переменных. Модель, полученная посредством этого, была проще и содержала только 2 скрытых переменных (LV), и был получен R2 0,81.
Разные спектроскопические способы фиксируют взаимодополняющую химическую информацию. Использование двух разных типов спектроскопической информации улучшало предсказывающее качество модели. Поэтому использовали флуоресцентные спектры гидролизата соевого белка и спектры NIR химически определенной базальной среды (Таблица 10).
Таблица 10 | ||||
партия | № серии гидролизата соевого белка F/ZF | № серии химически определенной базальной среды F/ZF | продукт в 330 ч [мг/л] | |
калибровка | D45KD11 | 1 | 1 | 1314 |
D45KD31 | 3 | 1 | 999 | |
D52KD13 | 1 | 2 | 1458 | |
D52KD22 | 4 | 2 | 1232 | |
D55KD13 | 5 | 2 | 1430 | |
D55KD31 | 6 | 2 | 1263 | |
D61KD12 | 3 | 3 | 1134 | |
D73KD13 | 2 | 4 | 1120 | |
D73KD33 | 7 | 4 | 1044 | |
D79KD22 | 8 | 5 | 1162 | |
проверка | D45KD23 | 2 | 1 | 1061 |
D55KD23 | 3 | 2 | 1257 | |
D73KD21 | 8 | 4 | 1147 |
Спектры флуоресценции и спектры NIR сжимали до нескольких главных компонент после предварительной обработки, как описано выше. Полученная модель имеет только 3 скрытых переменных, и был получен R2 0,90 (Фиг.18). Эта модель имеет лучшую эффективность по сравнению с предыдущими моделями и является более надежной, поскольку она не только имеет более высокое значение R2, но также имеет меньшие значения RMSECV и RMSEP (примерно 90 мг/л) с очень маленьким различием между ними.
Дополнительный тест провели для химически определенной базальной среды с использованием MIR вместо NIR. Использованные наборы да