Guo Tiannan from Westlake University: Disrupting traditional experiments, promoting the three major data pillars and closed-loop learning of AI virtual cells

生物谷
2025.03.30 02:40
portai
I'm PortAI, I can summarize articles.

西湖大學的郭天南教授探討了人工智能虛擬細胞(AIVC)的發展,強調其在生物醫學研究中的潛力。AIVC 結合了多模態數據與 AI 技術,能夠創建更復雜的細胞功能模型,可能在未來通過高通量模擬替代傳統實驗。儘管前景廣闊,但仍需解決如何選擇合適的 “培養基” 和優先虛擬培養的細胞類型等關鍵問題,以充分發揮其在藥物開發和疾病研究中的應用。

細胞是生命的基本單位,對於理解健康、衰老和疾病至關重要,也是藥物開發和合成生物學的重要工具。然而,基於細胞的實驗資源消耗大且易變,這導致了生物醫學研究中的可重複性問題。

雖然首個碳基細胞是經過數十億年的進化才出現的,但首個硅基細胞的開發如今為科學界帶來了變革性的機遇。大約在 2000 年提出了虛擬細胞(virtual cell)或數字細胞(digital cell)的概念,最初依賴傳統的低通量生化實驗來量化特定生物過程中所涉及物質的時空變化。這些早期模型採用微分方程和隨機模擬來模擬特定的細胞過程。開創性的全細胞虛擬模型,例如針對支原體、大腸桿菌和釀酒酵母的模型,主要基於先驗知識。然而,它們缺乏精心設計的匹配擾動組學數據和時空成像數據。儘管這些早期模型具有開創性意義,但它們在全面捕捉活細胞的動態特性和複雜性方面存在侷限性,這凸顯了對更全面的數據整合和先進建模方法的需求。

高通量技術和人工智能(AI)的最新進展為更復雜的虛擬細胞模擬鋪平了道路。

2024 年 12 月,斯坦福大學 Stephen Quake 教授等人在 Cell 期刊發文,提出了人工智能虛擬細胞(AIVC)的概念【1】,該概念將人工智能與多模態數據相結合,以創建細胞功能的綜合計算模型。這些人工智能虛擬細胞有望實現精確且可擴展的計算機模擬實驗,有可能通過高通量模擬在某些情況下補充甚至取代傳統實驗,從而徹底改變生物醫學研究。

儘管人工智能虛擬細胞(AIVC)前景廣闊,但仍有一些關鍵問題懸而未決。正如細胞培養基滋養生物細胞一樣,什麼樣的 “培養基” 才是培育這些數字實體的理想之選?我們應當優先對哪些細胞類型進行虛擬培養?

解決這些問題對於充分發揮人工智能虛擬細胞(AIVC)在藥物開發、疾病建模和基礎生物學研究中的潛力至關重要。在我們即將邁入細胞建模這一新時代之際,科學界應當攜手合作,為人工智能虛擬細胞(AIVC)的開發和驗證制定標準及最佳實踐。

2025 年 3 月 25 日,西湖大學郭天南研究員在 Cell Research 期刊發表了題為:Grow AI virtual cells: three data pillars and closed-loop learning 的社論。

該文章提出,人工智能虛擬細胞(AIVC)的演進和發展依賴於三個關鍵的數據支柱——先驗知識(priori knowledge)、靜態架構(static architecture)和動態狀態(dynamic states),這些數據支柱與深度學習算法(deep learning algorithms)相結合,構成了 AIVC 發展的基礎。

此示意圖展示了發展 AIVC 的三大關鍵支柱:先驗知識、靜態架構和動態狀態。這些數據通過人工智能算法進行整合,以模擬細胞行為(例如大腸桿菌、酵母和各種細胞系等模式生物的模型),還展示了使用閉環主動學習系統的 AIVC 的發展演變。在這個先進的框架中,計算預測引導自動化實驗,尤其側重於擾動組學。

想象一下,在計算機中培育一個 “虛擬細胞”,它能模擬真實細胞的生長、代謝甚至癌變過程,幫助科學家預測藥物效果、解析疾病機制。這個看似科幻的場景隨着人工智能(AI)的發展,正在變為現實。

傳統細胞實驗的困境:成本與不確定性的雙重挑戰

細胞是生命的基本單位,但傳統實驗面臨兩大難題:

資源消耗大:單次實驗需數週時間,且需要昂貴的試劑和精密儀器;

可重複性低:實驗受環境波動、操作差異影響,全球科研界正面臨 “可重複性危機”。

AI 虛擬細胞:邁向硅基生命之路

從 2000 年首個 “虛擬細胞/數字細胞” 概念到如今的人工智能虛擬細胞(AIVC),郭天南團隊提出了構建細胞 “數字孿生” 的三大核心支柱:

1、先驗知識:海量文獻的 “智能熔爐”

整合百年生物醫學研究成果,包括 2.4 億篇論文,以及 3D 分子結構數據庫,這些人類已有的知識如同 “細胞百科全書”,為 AI 提供基礎細胞生物學規律,就像 ChatGPT 學習了人類的所有文本,讓 AIVC 吸收所有細胞知識。

2、靜態架構:納米級細胞 “全景地圖”

融合冷凍電鏡、超分辨顯微鏡、空間組學技術,繪製細胞器、蛋白網絡的精確三維結構,分辨率達 5-10 納米。

3、動態狀態:捕捉生命的每一幀變化

追蹤細胞發育、癌變等過程的分子動態;利用擾動技術(例如基因編輯、藥物刺激)生成大量數據,訓練 AI 預測細胞行為。

技術突破:當多組學遇上深度學習

郭天南團隊進一步提出了 “閉環學習” 框架:

1、數據融合:Transformer 模型整合文本、影像、蛋白質組數據;

2、動態推演:Diffusion 模型模擬細胞狀態變遷,預測藥物干預效果;

3、自我進化:每次虛擬實驗結果反哺模型優化,形成迭代升級。

未來應用:從精準醫療到合成生物學

1、藥物開發:虛擬篩選抗癌藥組合,縮短研發週期;

2、疾病解密:模擬阿爾茨海默病蛋白異常聚集過程;

3、細胞工廠:設計高效生產胰島素的人工細胞。

結論與展望

在現代生物醫學研究的數字培養皿中創建和培育人工智能虛擬細胞(AIVC)時,我們必須仔細考慮滋養其生長的 “養分”。文章中提出的先驗知識、靜態架構和動態狀態這三大數據支柱構成了這些計算機模擬實體的必要 “培養基”。其中,基於擾動的組學數據——轉錄組學、蛋白質組學和代謝組學——成為關鍵的 “生長因子”。

為了高效生成如此豐富的擾動數據,作者設想了閉環主動學習系統將成為下一個進化步驟。這些系統受自主化學實驗室的啓發,將無縫整合人工智能驅動的預測與機器人實驗。就像一位技藝嫺熟的園丁,它們將識別知識空白,設計有針對性的實驗,並不斷深化我們對細胞複雜性的理解。從靜態模型到適應性、自我優化的人工智能虛擬細胞的旅程,有望徹底改變藥物發現、疾病建模和基礎生物學研究。作者還提出了這一旅程中的低垂果實——創建並培育一個虛擬酵母細胞或許是一個可行的選擇。

當我們站在這一令人興奮的前沿之際,科學界的協同努力對於充分發揮人工智能虛擬細胞的潛力以及推動計算機模擬生命科學的未來至關重要。