文章

基于机器学习的生物过程优化、监测和控制系统综述

2023-12-15     来源:本站     点击次数:673

编者按

跟踪智慧实验室的理论研究发展状况、产业发展动态、主要设备供应商产品研发动态、国内外智慧实验室建设成果现状等信息内容。本文由中科院上海生命科学信息中心与曼森生物合作供稿。

本期“前沿技术”栏目,编译了 Partha Pratim Mondal 等发表在 Bioresource Technology 期刊上的综述论文《基于机器学习的生
物过程优化、监测和控制系统综述》(Review on machine learning-based bioprocess optimization, monitoring, and control systems),作者首先深入介绍了机器学习领域的基本理解,并讨论了其复杂性,以获得更全面的应用。随后概述了机器学习模型对控制生物过程操作所生成的庞大数据集的统计和逻辑分析的相关性。然后,批判性地讨论了生物过程行业不同子领域的当前知识、局限性和未来方面。此外,还讨论了采用混合方法将不同的建模策略、网络和集成传感器相结合以开发新的
数字生物技术的前景。

 

目录/CONTENT

01/前言

02/机器学习的基本概念

2.1 机器学习模型设计

2.2.生物过程开发中的机器学习

2.3.选择正确的机器学习方法的过程

03/机器学习算法

04/ML 在生物加工工业中的应用

4.1 生物燃料行业

4.2.生物制药行业

4.3.生物废水处理

05/研究需求和未来展望

06/结论

 

1.前言

在生物过程行业中观察到了这方面的重大发展,新的生物产品和生物工艺的产量成倍增加。这些发展主要与生物加工子领域相关,如生物制药/生物治疗生产、生物燃料生产和生物废水处理工艺,这些领域的需求从未如此之大。为了确保这些生物产品开发过程的商业经济性和可持续性, 必须在整个生产生命周期中同步规划和执行。生物技术行业正在经历数字化转型, 以克服这些限制,采用人工智能(AI)和机器学习(ML)等创新技术是相关生产过程自动化的首要任务。基于人工智能的 ML 技术开发、监控、控制和优化过程系统。它们能够有效地学习工艺参数和性能之间的复杂关系。ML 可以预测和影响关键工艺参数(CPP)和产品关键质量属性(CQA),控制工艺系统以应对参数偏差,并理解制造过程中的完整数据分析。

 

2.机器学习的基本概念
 

2.1 机器学习模型设计

在 21 世纪末,在开发计算机辅助系统设计、体系结构、计算机视觉和信号处理方面取得了许多进步。ML 被认为是一个研究领域,它允许计算机在最初编程后学习、自学、分析数据和估计,而不需要在每个阶段都进行明确的编程。ML 在生物过程行业中已经建立了重要的应用,其影响力展示了领域理解和创新,绕过了人工工作和预测。图 1a 展示了 ML 在生物过程系统中的使用、相关挑战、 优势和模型设计的图形视图。图 1b 描绘了用于生物废水的机器学习算法的典型图形工作流程。用于上采样、下采样、模型输入训练、验证、测试和机器学习类别(监督、半监督和非监督)的特征点代表了典型的 ML 模型工作流。ML 的领域及其与各种 ML 模型设计和数学方程的关系的综合视图见补充表。

因此,为了在自动化设计中处理来自参数数据和图像的未处理原始文件的挑战性方面,需要结合起来。深度学习(DL)方法用于此类任务,从而为微流体辅助和高通量生物工艺开发奠定了基础。DL 领域从未处理的输入中确定多层次、分层的特征。在同一条线上,深度神经网络(DNN)由一系列包含激活函数的层组成。使用 I/P-O/P(输入-输出)域将多个映射到一个,表示所需的输出类别,称为训练数据。处理测试数据集(看不见的数据)有助于建立和开发相关性模式。ML 与评估中给定数据的统计和经验模型相互关联。模型设计的第一部分,即输入层,确定了原位过程参数、外部生态系统条件和作为 ML 设计和神经网络模型输入的几个触发神经元(图 1c)。
 

图1 .(a)图形图像描述了挑战、优势和模型设计(b)生物废水ML算法的工作流程(改编自来源Sundui等人,2021年)ML模型设计的(c)工作流程图。


2.2.生物过程开发中的机器学习

ML 的意义不仅在于研究创新,还在于获得全球需求,这些技术正在预测机 械和动力学模型无法强调的内容。ML 方法更依赖于连续反馈(前馈和反向传播) 和基于传感器反馈的数据驱动。研究指导了 ML 设计在优化、控制和监测生物反 应器、识别色谱分析过程中的光谱误差、生物藻类过滤器柱水平调节、处理管道和集成过程中的故障检测中的应用。对混合建模的需求不断增长,其中数据驱动的响应与机械模型相结合。
 

2.3.选择正确的机器学习方法的过程

根据任务的性质,ML 规则是明确的,需要一个选择过程。第一步是选择 ML 学习的类型,即强化学习、有监督、半监督和无监督的学习方法(见补充材料)。在监督学习中,向算法提供一组“明确的正确答案”或因变量或 y 变量,以拓宽描述自变量和因变量之间关系的特征。变量之间的关系适合进行预测。监督方法为算法提供了最有说服力的统计数据,用于确定数据的一般形式和特征,这是一种实验策略。为了指示一组规则实现 y 变量目标,ML 包括一个“功绩授予功能”, 该功能选择最大化总体响应的路径。决定 w-v 比至关重要,其中 w 是输入的宽范围,v 是变量的多样性。更高的 w-v 比率是有益的。
然而,真正的成本取决于统计数据和使用情况。例如,如果自变量数据是不可识别的、几乎没有噪声并且高度指示模型试图遵循的特征,那么大于 5 的低 w-v 比可能就足够了。相反,如果数据收集量大且有噪声,则可能需要大于 50 的 w-v 比。建议创建几个模型, 并使用性能指标进行比较,如绝对误差、均方误差、相关系数和预测精度系数。Pearson 系数、p 检验、F 评分、混淆矩阵和 Cohenκ 等测试用于确定模型的性能是否优于估计预测。

 

03 机器学习算法
 

在目前的情况下,ML 在生物过程行业中的应用解决了不同建模技术所遵循的快节奏和特定领域的方法。许多最近应用于生物制药、生物燃料过程和软传感器集成控制的建模方法被用于 CPP/CQA 的实时估计。这些是基于实时估计和服务器设计的在线参数估计。此外,多变量数据分析——对过程分析技术(PAT)仪器测量的修改进行最终过程分析。多变量统计过程控制——用于产品状态监测和控制。潜在变量方法,如 PLS,可以为 PAT 仪器数据的多元回归提供更好的解决方案。递归划分算法(或“树”模型)通常用作均方根(RMSE)分析的分类模型。然而,文献中发现的大多数(>70%–数据未显示)应用报告了生物制药和生物燃料生产初期的模式识别(分类)应用。

 

04ML 在生物加工工业中的应用
 

ML 算法的使用越来越有规律,以加深对生物过程的理解。该领域的收缩性研究需要将生物化学工程和计算机科学联系起来。 
 

4.1 生物燃料行业 

为了在生物燃料行业取得重大进展,已经进行了广泛的研究。ML 建模被有意用于研究生物燃料生产中操作参数之间的非线性关系。这一特定研究领域的大量综述已经发表在公开文献中。主要集中在 ML 模型在优化、控制和监测生物柴油生产(生物氢、生物乙醇、沼气等)方面的适应性、灵活性和最新应用。
 

4.2.生物制药行业 

近年来,原子模拟已成为大型工业中生物制药过程开发、优化、控制和设计的宝贵工具。ML 技术的制定包括对药物的可行的普遍需求,以及向具有自动化监管的工业 5.0 的转变。ML 技术已经在解决生物制药制造的多个方面找到了基础。这些研究领域包括生物标志物识别、药物发现、蛋白质工程、药物再利用、 临床试验质量跟踪、实时错误处理和过程自动化。

4.3.生物废水处理 

废水处理对社区发展至关重要。目前,生物处理工艺是最有效、最可行的工艺。然而,由于生物系统的分支和不确定的时间间隔,生物废水处理在行业中具有挑战性。数学建模技术不仅给出了过程动力学的明确描述,而且提前为后续动作提供了提示。因此,必须设计一种有效而明确的废水处理算法,该算法可以预测瞬态操作条件,如管道泄漏引起的突然故障、生物反应器的操作故障、进料负载的突然变化和不正确的物理参数(即流速、pH 和温度),以做出现场智能决策。
 

05研究需求和未来展望
 

尽管在生物过程行业中实现 ML 已经进行了大量的研究和应用,但它仍处于早期开发和使用阶段。ML 在企业连续体中的成功应用在很大程度上取决于适当的存储和数据管理。此外,以下几点针对生物过程行业中实施 ML 的研究需求和需求:

(1)由于真实的现场数据集的可用性鲜为人知,生物过程中来自软离线传感器的反馈增加了不相关和琐碎信息的成本和交付支出。 

(2)利用现场传感器和算法开发基于网络的在线物理系统,以控制集成的生物并将其与历史数据联系起来。这些成为这种生物过程工业的原始来源投入。即使是生物过程建模系统也不能提供可信的结果。最近的调查表明,运行模拟和统计技术可以优化运营成本,提高运营效率。 

(3)基于神经网络的设计的出现和过程驱动技术的发展,从顺序过程到分层再到混合,都在不断发展。最近,基于模型的控制器被要求通过 ML 进行端到端神经网络生物过程建模。 

(4)单元操作的根本原因分析、分子相互作用和模型细化可以根据传感器反馈进行多种输入。这得益于基于混合模型和先进的深度学习架构,如卷积神经网络-递归神经网络和深度 CNN。这样的模型在优化和性能指标方面优于竞争对手。 

(5)在设计控制技术水平时,必须实现精度、准确性和鲁棒性。生物治疗开发人员可以从大规模生产的角度进行思考,并从流程开发的早期阶段就融入自动化概念。 

(6)软件、硬件和设计规范之间的标准化不足使自动化尝试变得复杂。 

(7)利益相关者和技术解决方案提供商应缩小生物制造领域的创新差距。生物治疗开发人员的职责是设计和开发新药,并建立一个链接,提供可以与 ML 集成的自动化解决方案。 
 

以下几点对 ML 算法在生物工艺行业的未来应用前景进行了评论: 
 

(1)需要对生物传感器进行深入研究,包括微流体传感器和微型传感器。高通量表型平台应使用物联网和生物燃料和生物制药行业的混合建模进行连接。 

(2)通过 ML 架构设计提供的自动化无线软传感器网络的使用,能够部署和开发分散的智能产品质量监控系统。 

(3)市场上需要一种低成本的无线传感器节点解决方案来经济地实现这一 新一代系统。基于物联网的模块化设计(图 2)表明,该系统具有在线和实时管理废水质量参数的功能。
 

 
图2生物工艺工业的观点、挑战和驱动力,强调使用基于ML的解决方案
 
(4)此外,物联网生态系统的可扩展性使其有可能扩展物联网平台的存储和处理能力以及传感器节点的数量。这些研究方法已被用作评估污水处理厂生化参数的初步步骤,并进一步推进了验证过程。

(5)物联网集成系统具有先进的功能,可在智能城市的配水系统中部署大规模传感器,使用户能够近实时地识别污染发生和负面趋势(图 3 )。
 

图3基于传感器的利用物联网)数据处理和系统架构对废水处理厂的远程监控。


(6)商业或公共机构监测和管理水质的责任将能够更快、更有效地应对问 题,减少有害影响,减少已发现的问题(即污染点和目标源)。基于 ML 的操作控制的未来使用旨在帮助研究人员和技术人员了解和分析 生物过程属性、操作周期中的实时参数估计、诊断偏差和分析遇到的错误。

 

文章来源:Mondal PP, Galodha A, Verma VK, et al. Review on machine learning-based bioprocess optimization, monitoring, and control systems. Bioresour Technol. 2023;370:128523. doi:10.1016/j.biortech.2022.128523

相关文章 更多 >