10月9日,中山大學醫學院施莽教授團隊與阿裏雲李兆融團隊在《細胞》(Cell)雜誌上發表論文,報告了180個超群、超過16萬種全球RNA病毒的發現。這是迄今為止規模最大的RNA病毒研究,大幅擴展了全球RNA病毒的多樣性。該研究將人工智能技術應用於病毒鑒定,發現了傳統方法未能發現的病毒“暗物質”,探索了病毒學研究的新路徑。
傳統病毒發現方法遇瓶頸人工智能突破“已知”探“未知”
病毒是地球生態係統的重要組成部分,也與人類的健康密切相關。但是,目前已知的病毒種類仍十分有限,用更高效、更精準的方法發現和鑒定新病毒,一直是病毒學研究的基礎工作。
最早,人們通過分離培養病毒,在顯微鏡下觀察確認病毒的存在。隨著生命組學的發展,科學家們能夠利用測序技術,比較未知病毒和已知病毒核酸序列的相似性,識別和鑒定新病毒。這種方法十分依賴對病毒的既有認知。
然而,RNA病毒是一種高度分化、種類繁多且容易變異的病毒,尤其在麵對缺乏同源性或同源性極低的“暗物質病毒”時,這種序列同源性比對的方法很容易失靈。
使用人工智能對全球病毒圈深度挖掘並分類
人工智能技術的引入使突破“已知”尋找“未知”成為可能。研究中,團隊采用的核心算法LucaProt是一種能夠深度學習的Transformer模型,在大量學習病毒和非病毒基因組序列後,可以自主形成一套關於病毒的判斷標準,從而在大量的RNA測序數據集中挖掘出病毒序列。在測試中,LucaProt表現出極高的準確性和特異性,假陽性率為0.014%,假陰性率為1.72%。在與其他病毒挖掘工具的對比中,它也在處理較長序列的方麵展現出優勢。
“人工智能的算法模型能夠挖掘出我們之前忽略或根本不知道的病毒,這種能力在疾病防控和新病原的快速識別中尤為重要。特別是在疫情暴發時,人工智能的速度和精度可以幫助科學家更快地鎖定潛在病原體。”施莽說。
發現大量全新RNA病毒刷新全球病毒圈認知
利用LucaProt,研究團隊對來自全球生物環境樣本的10,487份RNA測序數據進行病毒挖掘,發現了超過51萬條病毒基因組,代表超過16萬個潛在病毒種及180個RNA病毒超群(相當於門或綱的分類級別),使RNA病毒超群數量擴容約9倍。其中23個超群無法通過序列同源方法識別,被稱為病毒圈的“暗物質”。
“這些病毒不僅指感染人類的病原體,還包括廣泛存在於環境中的、感染各類生物的病毒。各種動物、植物、單細胞原生生物、真菌、細菌和古菌都可能感染病毒。深入了解環境中的病毒,有助於我們更好地理解整個生態係統的運作機製。”論文第一作者侯新博士介紹,“此外,我們還可以利用這種方法發現與人類疾病密切相關的病毒,用於新發傳染病的監測和預警。”
依靠數據挖掘出來的新病毒,是否會停留在數字層麵?通過對新發現病毒的分析,科學家們對病毒圈的認知也在不斷深化。
新發現病毒的遺傳多樣性(黃色部分)
在這項研究中,團隊報告了迄今最長的RNA病毒基因組,長度達到47,250個核苷酸;發現了超出以往認知的基因組結構,展現出RNA病毒基因組進化的靈活性;識別到多種病毒功能蛋白,特別是與細菌相關的功能蛋白,進一步表明還有更多類型的RNA噬菌體亟待探索。
研究指出,新發現的病毒分布在地球的各類生態環境中。總體上,落葉層、濕地、淡水和廢水環境的病毒多樣性最高。然而,在南極底泥、深海熱泉、活性汙泥和鹽堿灘等極端環境中,RNA病毒的多樣性和豐度並不低,甚至在深海熱泉的高溫環境中,仍有RNA病毒在活躍複製。
“這項研究中,病毒的發現運用了人工智能的技術,但分類仍基於現有的體係進行。麵對遠源的新病毒,現有的分類體係已經顯得力不從心。未來,這一體係在門、綱等更深層次的分類上,可能會有大規模的調整。”施莽說,“我們的研究展示了病毒多樣性的深度,但廣度仍有待更多樣本的補充。病毒的多樣性遠超人類想象,我們目前所看到的仍是冰山一角。”
人工智能技術廣泛應用或助力破解更多科研難題
LucaProt雖然是一個專門為RNA病毒發現設計的模型,但它同時融合了對蛋白質序列和隱含結構信息識別的功能,也可用於蛋白質功能的鑒定。在論文中,研究團隊開源了LucaProt模型,並通過在線網站分享給全球科學家。
“這個框架正在逐步成為該領域的前沿工具,也開始被應用到其他類型的蛋白質鑒定和功能發現任務上。”阿裏雲生物計算總監李兆融表示,人工智能正在逐步改變科學家解決包括病毒學在內的各類科學問題的方式。
中國工程院院士、中國疾控中心傳染病溯源預警與智能決策全國重點實驗室主任徐建國院士表示,LucaProt的成功標誌著人工智能算法在病毒發現方麵的重大突破。未來,人工智能方法有望成為微生物學領域的主要工具,並可應用於病毒對人類致病性的預測。
上海生物信息技術研究中心主任、廣州國家實驗室李亦學研究員認為,LucaProt能夠從序列和空間結構兩個水平上,融合提取RNA病毒基因組序列的長程相關信息和組成特征,能夠先驗地識別數據中RNA病毒組成的模式和特征,這是傳統的基於同源分析的進化分析方法難以企及的。因此可以看到,人工智能在解決生物學科學問題中具有更廣泛的應用潛力。
施莽介紹,這項研究與阿裏雲飛天實驗室的AI4S-生物計算團隊合作開展,他們專注於生物序列的基礎模型研究。中山大學團隊負責病毒學方麵的問題,而阿裏雲團隊則專注於人工智能模型的開發和計算。“雙方經常互相拜訪,一起坐下來討論問題,幫助彼此理解對方不熟悉的領域。”施莽說,“我們希望繼續通過跨領域、緊密的科研合作,充分利用雲計算和人工智能的優勢,解決生命科學領域的重要問題。”
① 凡本站注明“稿件來源:beplay2网页登录”的所有文字、圖片和音視頻稿件,版權均屬本網所有,任何媒體、網站或個人未經本網協議授權不得轉載、鏈接、轉貼或以其他方式複製發表。已經本站協議授權的媒體、網站,在下載使用時必須注明“稿件來源:beplay2网页登录”,違者本站將依法追究責任。
② 本站注明稿件來源為其他媒體的文/圖等稿件均為轉載稿,本站轉載出於非商業性的教育和科研之目的,並不意味著讚同其觀點或證實其內容的真實性。如轉載稿涉及版權等問題,請作者在兩周內速來電或來函聯係。