近期,上海科技大學信息科學與技術學院鄭杰課題組與合作者在《自然·通訊》(Nature Communications)發表了題為“Benchmarking Machine Learning Methods for Synthetic Lethality Prediction in Cancer”的研究論文。文章通過設計多個場景系統性比較了12種最新的機器學習方法在合成致死(Synthetic Lethality, SL)抗癌藥物靶點預測中的表現。該研究為科學家提供了詳盡的指南,幫助他們選擇最適合的SL預測工具,從而推動精準抗癌藥物的研發。
圖1 文章標題
合成致死(SL)是一種基因之間的遺傳相互作用關系,即當兩個基因同時發生突變或擾動時會導致細胞死亡,而單個基因被擾動并不會產生這一效果。這一特性使SL成為一種有潛力的癌癥治療策略,因為通過靶向癌癥特異性突變基因的合成致死伙伴基因,可以殺死癌細胞而不影響健康細胞的生存。盡管SL現象已經被發現超過一個世紀,但其實際應用仍然面臨挑戰,尤其是在快速、精準地識別與癌癥相關的SL基因對(SL gene pairs)方面。
為了加速實驗篩選并降低其成本,近年來,越來越多的研究人員應用機器學習技術來預測SL基因對。這些方法通過使用大量生物學數據,快速篩選出潛在的SL相互作用關系,以縮小實驗驗證的范圍。然而,盡管已經提出了多種機器學習模型和算法,它們在不同情境下的性能缺乏系統性評估,這給研究人員在實際應用中選擇合適的人工智能工具帶來了困擾。
為填補這一空白,信息學院鄭杰團隊與合作者系統性地評估了12種最新的機器學習方法,涵蓋了從傳統機器學習到深度學習的多種算法。研究人員首先收集并建立了一個基準測試數據集,設計了多個不同的實驗場景,包括3種數據劃分方式,4種正負樣本比例和3種負樣本采樣方法,從而評估這些模型在多種場景組合下的分類和排序候選SL基因對的能力(圖2)。通過對比各種模型,研究團隊發現,數據質量的提升,比如負樣本的優化,對所有方法的表現均有顯著提升。
圖2 基準研究的數據集構建以及場景設計
在所有評估的方法中,SLMGAE(SL prediction with Multi-view Graph Auto-Encoder)算法表現總體最佳。然而,當在面對更加復雜的實際應用時這些方法均存在一定的局限性。特別是在“冷啟動”測試中——即當模型在從未見過的新數據集上進行測試時,所有方法的表現均有所下降。此外,對于特定癌癥背景下(例如細胞系特異性的SL預測任務),模型的預測準確度和泛化能力也有待進一步提升。
這些基準測試的結果不僅為科學家提供了選擇SL預測方法的實用指南,還揭示了當前機器學習方法在實際應用中的瓶頸和不足。這為未來研究開發更加精準、可靠的SL基因對預測工具提供了寶貴的參考,為合成致死抗癌藥物領域的研究人員提供了重要的數字資源和見解,從而有助于加速癌癥靶向治療的發展。
上海科技大學信息學院與臨港實驗室聯合培養的2022級博士研究生馮藝苗(鄭杰課題組)為該論文第一作者,新加坡科學技術研究局生物信息學研究所助理研究員龍亞輝,上海科技大學信息學院研究員李權,信息學院兩位碩士研究生王鶴、歐陽陽(李權課題組)參與了本課題的研究。上海科技大學信息學院研究生毛偉帆、岳臻、陶思宇和楊揚為本工作的完成提供了幫助。上海科技大學圖信中心和寧夏西云算力科技有限公司為本工作提供了算力支持。該工作最初依托于CS286 (AI for Science & Engineering)的課程項目。新加坡科學技術研究局信息通訊研究所首席科學家吳敏和上海科技大學信息學院研究員鄭杰為論文共同通訊作者。上海科技大學為第一完成單位。