編輯/綠蘿
深度學習(DL)幾乎顛覆了所有研究領域,包括藥物發現。這場革命很大程度上歸功于高度可并行化的圖形處理單元(GPU)的空前進步和支持 GPU 的算法的發展。
近日,來自不列顛哥倫比亞大學、北卡羅來納大學教堂山分校和英偉達的研究人員合作發表題為《The transformational role of GPU computing and deep learning in drug discovery》(GPU 計算和深度學習在藥物發現中的轉型作用)的綜述文章。
在綜述中,研究人員全面概述了 GPU 算法的歷史趨勢和最新進展,并討論了它們對發現新藥和藥物靶點的直接影響。還介紹了最先進的深度學習架構,這些架構已在早期藥物發現和隨后的先導優化階段得到實際應用,包括加速分子對接、評估脫靶效應和藥理性質的預測。最后,討論了 GPU 加速和深度學習模型對藥物發現領域全球民主化的影響,這可能導致對不斷擴大的化學領域的有效探索,以加速新藥的發現。
圖 1:計算機輔助藥物發現(CADD)工作流程。(GPU 加速器在藥物發現和開發過程的每個步驟中都有應用)
用于分子模擬的 GPU 計算和深度學習
GPU 加速來自海量數據并行性,這源于對數據的許多元素執行的類似獨立操作。在分子模擬中,數據并行性可以應用于原子勢能的獨立計算。類似地,DL 模型訓練涉及前向和后向傳遞,通常表示為易于并行化的矩陣變換(圖 2)。
圖 2:DL 架構在單 GPU 和多 GPU 環境中的并行化。
加速 GPU 上的分子動力學模擬
與基于中央處理器 (CPU) 的算法相比,過去十年中以 GPU 為中心的分子動力學代碼的發展導致模擬的計算成本降低了數百倍。GPU 不僅非常適合加速分子動力學模擬,而且還可以使用空間域分解很好地適應系統規模。因此,分子動力學模擬擴展到更廣泛的生物分子現象,接近病毒和細胞水平,更接近實驗時間尺度。最近的方法和算法進步使分子動力學模擬高達 2 × 10^9 個原子的分子組裝成為可能,總模擬時間為微秒甚至毫秒。
圖 3:可以用分子動力學模擬的生物系統復雜性的時間表。
自由能模擬代表了另一個受益于 GPU 開發進展的領域。諸如相對結合自由能計算、熱力學積分和自由能擾動等方法現在可以計算大量蛋白質-配體復合物的可靠結合親和力。
量子力學和 GPU
TeraChem 是第一個專門為 GPU 編寫的量子化學代碼;旌暇人阈g允許非常有效地計算庫侖和交換矩陣。TeraChem 的最新算法允許使用密度泛函理論 (DFT) 模擬整個蛋白質。
未來的百億億級超級計算機將在異構 CPU 和 GPU 環境中提供高水平的并行性。這種擴展需要開發新的混合算法,并且本質上是對科學代碼的完全重寫。這些新的發展現在正在作為 NWChemEx 軟件包的一部分實施。NWChemEx 將為系統提供執行量子力學和分子力學模擬的可能性,這些系統比那些可以通過理論方法的規范公式處理的系統大幾個數量級。
GPU 加速蛋白質結構測定
冷凍電鏡的高通量和自動化變得越來越重要,作為用于蛋白質結構確定的最先進的實驗技術,作為最先進的實驗技術用于蛋白質結構的確定,用于基于結構的藥物設計。
已經開發了基于 DL 的方法,例如 DEFMap 和 DeepPicker,以加速冷凍電鏡圖像的處理。
除了通過冷凍電鏡加速蛋白質結構的實驗表征之外,DeepMind 最近在蛋白質結構預測的關鍵評估 (CASP) 挑戰中使用 AlphaFold-2 方法取得的突破性成功,這暗示了 DL 算法對蛋白質的未來影響結構表征和可藥用蛋白質組的擴展。
CADD 中 DL 的出現
深度學習的發展,特別是在計算機視覺和語言處理方面的進步,重新喚起了 CADD 研究人員對神經網絡的興趣。
支持 GPU 的 DL 架構的出現,以及化學基因組學數據的激增,導致了有意義的支持 CADD 的臨床候選藥物發現。此外,人工智能 (AI) 驅動的公司(例如 BenevolentAI、Insilico Medicine 和 Exscientia 等)在增強藥物發現方面的成功。最近的成功案例表明,進一步推廣和應用由 GPU 計算支持的 AI 驅動方法可以極大地加速新藥和改進藥物的發現。
CADD 的 DL 架構
從在現有或合成可行的化學庫的虛擬篩選中找到應用的判別神經網絡,到最近啟發其在從頭藥物設計中使用的 DL 生成模型的成功,圖 4 描繪了常用的最先進的 DL 架構的一般方案。表 1 列舉了它們在 CADD 中的采用情況。
圖 4:幾種流行的神經網絡的架構。
表 1:最先進的 DL 類別及其在藥物發現中的應用。
使用 GPU 和 DL 擴大虛擬篩選
基于結構的虛擬篩選和基于配體的虛擬篩選旨在根據化合物與靶點的計算結合親和力對化合物進行排序,并將小分子之間的結構相似性分別推斷為功能等效性。隨著可購買配體庫的指數級增長,已經包含數百億個可合成分子,人們越來越關注通過對接計算的并行化或基于 DL 的加速來擴大傳統虛擬篩選操作的規模。
最近開發了許多基于結構的虛擬篩選方法,以有效篩選數十億條目的化學文庫。然而,計算成本仍然很高,對于無法訪問精英超級計算集群的藥物發現組織來說可能是令人望而卻步的。
另一方面,最近出現了基于結構的替代虛擬篩選平臺,利用 DL 預測和分子對接來促進從計算資源有限的大型庫中選擇活性化合物。與蠻力方法相比,這些基于 DL 的方法可能在使學術研究小組和中小型工業等能夠訪問化學空間方面發揮重要作用。
支持 GPU 的 DL 促進開放科學和藥物發現的民主化
DL 與 CADD 的整合極大地促進了藥物發現和開放科學工作的全球民主化。對 DL 模型的大型數據集日益增長的需求自然會鼓勵數據共享實踐,并要求更廣泛的開放數據政策。此外,云原生計算和面向微服務架構中的 GPU 加速可以使 CADD 方法免費且廣泛可用,有助于標準化計算模塊和工具、架構、平臺和用戶界面。
盡管這些新的支持 DL 的建模機會令人興奮,但 CADD 科學家需要對 DL 技術的預期影響保持謹慎。
開放科學工作受益于最近的端到端 DL 模型,這些模型可以使用 GPU 在藥物發現的所有階段實施。
由于法律的復雜性,機構之間共享專有數據繼續成為簡化藥物發現研究的瓶頸。聯合學習允許參與機構對其各自的非共享數據進行本地化訓練。然后將經過訓練的本地模型聚合在中央服務器中,以實現更廣泛的可訪問性。因此,聯邦學習通過在一定程度上緩解數據交換挑戰來支持民主化,盡管有效的模型聚合仍然是一個活躍的研究領域。
結論與展望
現代藥物發現受益于最近 DL 模型和 GPU 并行計算的爆炸式增長。在硬件進步的推動下,DL 在從虛擬篩選和 QSAR 分析到生成藥物設計的藥物發現問題上表現卓越。預計,功能日益強大的 GPU 架構的日益普及,以及高級 DL 策略和 GPU 加速算法的開發,將有助于使全球更廣泛的科學界能夠負擔得起和使用藥物發現。
DL 算法的另一個關鍵驅動因素是「大數據」的可用性。隨著基因測序和高通量篩選越來越容易,數據驅動的計算化學研究人員現在可以輕松獲得大量原始數據。然而,對監督學習方法至關重要的高質量標記數據的管理成本仍然很高。因此,深入探索集中、處理和標記良好的數據存儲庫的假定優勢仍然是一個開放的研究領域。
總體而言,藥物發現和機器學習領域的研究人員有效地合作識別 CADD 子問題和相應的 DL 工具。我們相信,未來幾年這些應用程序將得到微調和成熟,這種合作將進一步發展到生命科學的其他未開發領域。因此,聯邦學習和協作機器學習正獲得越來越多的關注,我們相信它們將成為民主化藥物發現革命的先驅。
人工智能×[ 生物 神經科學 數學 物理 材料 ]
「ScienceAI」關注人工智能與其他前沿技術及基礎科學的交叉研究與融合發展。
歡迎關注標星,并點擊右下角點贊和在看。