久久久久精品视频,亚洲精品一区二区手机,一区二区三区不人妻无码,久久午夜福利电影天堂,精品欧美一区二区在线观看,日本无码一区二区三区不卡 ,天天摸天天舔天天操,99久久99热777青草,国产精品一区二区久久精品

生物反應器規模放大:機器學習

2023-04-18 13:49:24

機器學習模型


有一系列機器學習方法可應用于模擬生物反應器放大的問題。表 2 列出了這些技術及其一般優缺點。


表2. 機器學習方法的一般優缺點。

微信圖片_20230418134946


人工神經網絡 (ANN) 是最有前途的機器學習技術之一,可應用于生物反應器規模縮放。總的來說,人工神經網絡對非線性復雜系統進行建模的能力使人工神經網絡成為增長最快的數據驅動生化系統建模方法之一。此外,ANN 模型可以同時預測多個響應變量,同時也可以將多個自變量引入輸入層。例如,可以構建 ANN 來預測生物反應器內的不同代謝物濃度。


ANN 是由輸入層(第一層)、輸出層(最后一層)和位于輸入層和輸出層之間的隱藏層組成的多層模型。人工神經網絡是高度特定于問題的,并且沒有通用的策略可用于構建網絡拓撲,主要是因為:


  • 雖然駐留在輸入和輸出層中的節點數由自變量和因變量的數量指定,但沒有一般規則來確定隱藏層的數量,且隱藏節點的數量根據問題的復雜性而變化。 

  • 在 ANN 架構中,節點可以完全或部分連接;

  • 傳遞函數種類繁多,例如線性函數、S形函數和雙曲正切函數,用于處理在隱藏層和輸出層中的每個節點的輸出值;

  • 有相當多的學習算法,例如 Levenberg-Marquardt、隨機梯度下降和自適應矩估計,可用于訓練模型;以及

  • 還有其它超參數和層操作,如信息失落、訓練迭代次數、批次大小和學習率需要確定


考慮到這一點,應該采用優化策略來調整網絡的超參數并確定其最佳拓撲。這個優化過程可能很耗時,特別是對于由高維數據集訓練的深度神經網絡。


ANN 模型定制的優點是這些模型非常靈活,可以用來捕獲各種系統中數據的底層結構,例如復雜的生化過程。此外,還開發了許多其它模型來模擬生物過程,其中包括遞歸神經網絡 (RNN)、卷積神經網絡 (CNN)、圖神經網絡 (GNN) 和徑向基神經網絡 (RBNN)。


人工神經網絡已成功用于細胞培養建模,包括蛋白質糖基化的預測、培養基成分的優化以及預測蛋白質聚集。此外,一些文獻報道了使用 ANN 來估計反應器流體動力學。Patel 和 Thibault (2009) 建立了一個前饋神經網絡來預測好氧發酵中的 kLa 值。作者試圖調和由不同理論方法確定的 kLa 數據,即動態方法、穩態方法、氧氣平衡法和二氧化碳氣體平衡法,而不是對通過這些方法獲得的 kLa 值進行平均。ANN 被證明比其它復雜的傳統數據協調算法更簡單。研究表明,人工神經網絡預測的 kLa 值比平均技術更精確,與傳統數據協調方法計算的值相當。


在另一項研究中,人工神經網絡被應用于預測不同的流體動力學和傳質參數,例如氣體滯留率、kLa 和氣泡直徑。包含 7,374 個數據點的大型數據集由反應器幾何形狀、物理化學特性和操作變量組成,用于訓練和測試開發的神經網絡。開發的人工神經網絡在預測方面是準確的,并提供了一個成功的經驗相關性替代方案。


遞歸神經網絡也已用于預測哺乳動物細胞生物反應器中的關鍵變量,包括單克隆抗體滴度、活細胞密度和活性,以及葡萄糖和乳酸濃度。RNN 提供的時間記憶不是傳統 ANN 的特征,這使得 RNN 成為強大的數據驅動工具,用于連續輸入數據,包括時間序列數據,例如代謝物濃度的時間過程變化。在這項研究中,創建了兩個 RNN 模型,分別命名為特定 RNN 和通用 RNN。特定的 RNN 是根據從用于生產單一抗體產品的大型生物反應器獲得的數據進行訓練的,而通用 RNN 是根據在小型生物反應器中生成的四種不同單克隆抗體產品的組合數據進行訓練的。這項研究的結果表明,這些模型在計算不同規模的細胞代謝物濃度方面具有適當的預測能力。根據特定過程的數據訓練的特定 RNN 比通用 RNN 具有更高的準確性,因為后者給出了偏離實驗值的細胞代謝物和細胞濃度的預測。這對于預測葡萄糖 (R2 = 0.83) 和乳酸濃度 (R2 = 0.95) 最為重要。特定過程中的代謝差異和改進的補液策略被認為是觀察到的差異的原因。


基于樹的模型也是一類高性能機器學習監督算法,可用于描述自變量和因變量之間的高度非線性關系,使其成為建模本質上是非線性的生物系統的潛在工具。基于樹的模型的其它突出優勢包括它們對缺失值和異常值的不敏感性、它們衡量特征重要性的能力、它們的可解釋性,以及它們在過度擬合和欠擬合時改進的穩健性。隨機森林是由多個并行決策樹組成的基于樹的集成。隨機森林可用于回歸和分類問題。隨機森林回歸工具由通過遞歸分區方法創建的去相關回歸樹組成。每棵樹都用于根據獨立采樣的隨機向量的值預測響應。隨機森林已被用作預測蛋白質結構的分類器算法,預測蛋白質-蛋白質/配體相互作用,生物反應器故障檢測和微生物網絡分析。隨機森林作為預測生物量和微生物或細胞代謝物的回歸工具的應用也在多項研究中進行了分析, 表明了它們在模擬不同規模生物反應器內代謝物濃度的潛力。


梯度提升方法也被認為是非常強大的基于樹的集成。這種方法對異常值具有穩健性。該技術還能夠自動合并預測變量之間的交互作用。與隨機森林模型不同,增強算法是一組順序決策樹,這些樹經過迭代訓練和增強,用于重新加權現有樹集合建模不佳的觀察結果。


極端梯度提升 (XGBoost) 是一種可擴展的樹提升算法,其僅需要最少的計算資源,具有良好的通用性和高可解釋性。XGBoost 已應用于許多系統,以識別生物分子反應坐標,預測革蘭氏陰性菌的抗菌素耐藥性,預測發酵產物并確定潛在的抗病毒藥物和抗病毒的中和抗體。


這些基于樹的算法的多功能性已經在蛋白質工程領域得到證實并且由于其可解釋性和特征選擇能力,預計它們將有相當大的潛力為復雜生物過程開發策略的未來數據驅動評估做出貢獻。


另一種流行的機器學習方法是支持向量機 (SVM) 分析,它可用于分類和回歸。SVM 模型是一種基于核的非參數數據驅動方法。核函數用于將原始輸入從原始特征空間轉換到更高維空間。SVM 算法中可以使用各種核函數,即線性函數、多項式函數、狄利克雷函數、徑向基函數和 S 形函數。與每個內核函數關聯的參數通過適當的性能優化方法進行調整。SVM 以其處理高維數據集的能力而聞名。它們在為不同系統建模時也具有內存效率和靈活性。


除了它們在生物學中廣泛用于預測蛋白質和酶功能、轉錄起始位點的鑒定和基因表達數據的分類之外,一些研究人員已經將 SVM 應用于生物反應器模型。SVM 算法也已用于預測不同規模的生物反應器性能。作者開發了基于內核的支持向量回歸和偏最小二乘回歸,以根據在不同規模下(包括 80 L、400 L、2,000 L 和12,000 L)的抗體終濃度和乳酸終濃度,分析CHO細胞培養性能。以 80 L 規模開發的模型預測 12,000 L 生產規模生物反應器性能的能力低于以 2,000 L 規模開發的模型的能力。與每種規模的單獨數據集相比,跨規模編譯數據并沒有提高預測準確性。這歸因于在較小規模(即 80 L 至 2,000 L)下獲得的噪聲數據。盡管如此,與本研究中同樣檢查的更簡單的 PLS 模型相比,SVM 模型在處理這些噪聲數據方面更加穩健,顯示了這種先進方法的優勢。


高斯過程算法是另一種非參數的、基于內核的機器學習技術,可應用于縮放生物反應器。這種方法在確定預測的置信區間方面具有明顯優勢。計算由平均值和方差表示的正態分布作為高斯過程模型的輸出。平均值被分配給最可能的預測值,而置信區間由方差確定。然而,對大型數據集使用高斯過程在計算上可能存在問題。研究人員已成功地將高斯過程應用于生物系統,以優化細胞培養基、估計生物量濃度、預測時間依賴性代謝物以及鑒定代謝途徑中的酶。


正則化方法在具有大量相關參數的生物系統的數據驅動分析中尤其可以發揮重要作用,因為這些方法同時考慮了模型擬合和特征選擇。如圖 4 所示,生物反應器中可能會出現不同變量之間的顯著相關性(稱為多重共線性),這使得這種縮放方法特別有吸引力。盡管多重共線性可能不會影響模型預測,但強多重共線性會導致對自變量對響應變量影響的嚴重誤導性解釋,以及不穩定和有偏見的統計分析。基于正則化技術的懲罰回歸模型的開發可以減輕這些多重共線性問題。為此,通過以下常用的正則化方法將懲罰項添加到誤差函數(也稱為損失函數)中:


  1. L1 正則化(也稱為 L1 范數和最小絕對收縮和選擇算子 (LASSO))將模型參數的絕對值之和合并到懲罰損失函數中。使用此正則化器,未使用的參數變為零;因此,通過消除對模型的預測能力沒有顯著影響的冗余特征來簡化模型。盡管如此,L1 范數無法識別協變量的正確選擇,而是從多個相關變量中隨機選擇一個變量。此外,當預測變量的數量遠大于觀測值的數量時,L1 范數無效。

  2. L2 正則化(也稱為 L2 范數和嶺正則化)將模型參數的平方值之和納入懲罰損失函數。與 L1 范數相比,L2 范數不排除任何特征,而是降低了最不重要特征的系數大小。因此,使用 L2 范數進行特征選擇受到限制。

  3. 彈性網絡正則化結合了 L1 和 L2 正則化方法。由于 L1- 和 L2-范數的優點都包含在彈性網絡正則化器中,因此它通常優于單獨的 L1- 和 L2-范數。2003 年提出彈性網的 Zou 和 Hastie 證明了當預測變量的數量遠大于觀測值的數量時彈性網的改進能力。


這些正則化方法已應用于代謝通量分析和蛋白質組學的特征選擇,以及提供細胞培養生物反應器的簡化表示。Severson等人 (2015) 利用帶有Monte Carlo采樣的彈性網來預測抗體生產過程的滴度和產品質量屬性。在 Badsha 等人 (2016) 的研究中,還開發了 LASSO 和彈性凈回歸模型,以將細胞生長、抗體產生、葡萄糖、乳酸、氨離子和谷氨酰胺濃度與 CHO 細胞的關鍵細胞內代謝物聯系起來。比較為每個模型輸出確定的重疊重要特征,作者指出了基于細胞代謝的模型輸出之間的可能關系,顯示了這些數據驅動方法在識別細胞代謝物之間合理關聯方面的潛在用途。

網站導航

聯系方式

  • 網址:
  • http://www.xsporto.com/
  • 郵箱:
  • womeishengwu@szwmbio.com
  • 地址:
  • 蘇州市張家港市鳳凰鎮鳳凰大道南側23號

掃碼關注

在線留言

您可以在此處留言您想要和我們說的話,我們會仔細查看的哦。

在此輸入您的留言內容

COPYRIGHT ? 蘇州沃美生物有限公司  版權所有    備案號:蘇ICP備2021054580號-1 技術支持:萬禾科技