——習(xí)近平總書(shū)記在致中國(guó)科學(xué)院建院70周年賀信中作出的“兩加快一努力”重要指示要求
——中國(guó)科學(xué)院辦院方針
語(yǔ)音播報(bào)
隨著單細(xì)胞和空間組學(xué)技術(shù)的快速發(fā)展,公開(kāi)可共享數(shù)據(jù)量已突破億級(jí)大關(guān)。然而,技術(shù)平臺(tái)產(chǎn)生的差異、復(fù)雜疾病狀態(tài)、跨物種研究帶來(lái)的批次效應(yīng)和離群細(xì)胞等,對(duì)數(shù)據(jù)解讀構(gòu)成挑戰(zhàn)。面對(duì)動(dòng)輒百萬(wàn)規(guī)模的離群細(xì)胞,傳統(tǒng)的“先聚類(lèi)、后注釋”分析方法難以快速、精準(zhǔn)且可解釋地將這些“身份不明”的細(xì)胞映射到參考細(xì)胞圖譜上,進(jìn)而制約單細(xì)胞數(shù)據(jù)在跨大規(guī)模人群隊(duì)列研究、多模態(tài)信息整合以及物種間保守性探索等領(lǐng)域的應(yīng)用潛力。因此,亟需高效實(shí)現(xiàn)細(xì)胞的數(shù)字化表征、整合與解析。
針對(duì)上述問(wèn)題,中國(guó)科學(xué)院北京基因組研究所(國(guó)家生物信息中心)研究員蔣嵐團(tuán)隊(duì)聯(lián)合新加坡國(guó)立大學(xué)教授劉鈿渤、加拿大麥吉爾大學(xué)教授李岳,研發(fā)了一款高效、泛化且可解釋的有監(jiān)督細(xì)胞表征和解析模型——CellMemory。該模型受全局工作空間理論啟發(fā),對(duì)傳統(tǒng)Transformer架構(gòu)進(jìn)行改造,即植入低維記憶空間并通過(guò)Cross-Attention機(jī)制將高維基因特征壓縮、競(jìng)爭(zhēng)及廣播。研究顯示,該模型可提高計(jì)算效率3至5倍,并顯著增強(qiáng)模型泛化能力,無(wú)需預(yù)訓(xùn)練即可實(shí)現(xiàn)單細(xì)胞數(shù)據(jù)跨平臺(tái)與物種整合。同時(shí),記憶空間可為CellMemory帶來(lái)分層式“可讀窗口”。其中,L1 (Gene Level)為面對(duì)特定細(xì)胞,研究可知單個(gè)基因?qū)δ繕?biāo)細(xì)胞表征的貢獻(xiàn)分?jǐn)?shù);L2(Gene Program Level)為模型在記憶空間中,自動(dòng)歸納協(xié)調(diào)的共表達(dá)/共調(diào)控模式。多層可解釋性為理解模型決策邏輯與探索表型關(guān)聯(lián)細(xì)胞狀態(tài)提供了可靠解決方案,即“高準(zhǔn)確性 + 強(qiáng)可解釋性”。
進(jìn)一步,研究人員將CellMemory與3個(gè)單細(xì)胞基礎(chǔ)大模型、16個(gè)任務(wù)專(zhuān)用模型在1500萬(wàn)細(xì)胞上進(jìn)行比較?;鶞?zhǔn)評(píng)測(cè)結(jié)果顯示,CellMemory在人群尺度的單細(xì)胞數(shù)據(jù)整合、超高分辨率細(xì)胞狀態(tài)注釋等任務(wù)中均取得了State-of-the-Art級(jí)別的表現(xiàn)。同時(shí),面對(duì)59張共含400萬(wàn)細(xì)胞、338個(gè)細(xì)胞亞群的MERFISH小鼠腦空間組學(xué)切片,與基于傳統(tǒng)transformer架構(gòu)預(yù)訓(xùn)練的單細(xì)胞基礎(chǔ)大模型相比,CellMemory在95%的空間切片上展現(xiàn)領(lǐng)先的注釋表現(xiàn),準(zhǔn)確率較傳統(tǒng)機(jī)器學(xué)習(xí)方法提升30%,證明了CellMemory較好的泛化能力。
當(dāng)前,將疾病細(xì)胞與健康細(xì)胞比對(duì)存在挑戰(zhàn)。得益于準(zhǔn)確與可解釋的細(xì)胞表征,研究人員利用CellMemory在多個(gè)癌癥隊(duì)列單細(xì)胞圖譜中解析疾病復(fù)雜性。例如,在肺腺癌隊(duì)列中,該模型基于參考圖譜定位到MSLN+?CAPN8+的肺泡2型過(guò)渡態(tài)細(xì)胞,并觀測(cè)到其顯著的拷貝數(shù)變異,提示肺腺癌或利用肺泡2型細(xì)胞可塑性獲得侵襲能力。同時(shí),在混合表型急性白血病、髓母細(xì)胞瘤等數(shù)據(jù)中,該模型基于健康參考圖譜,揭示了不同患者潛在的異質(zhì)性起源,為耐藥和預(yù)后研究提供了高分辨率數(shù)據(jù)解析基礎(chǔ),展示出CellMemory在離群細(xì)胞推斷場(chǎng)景中較好的表征能力。
從“序列搜索”到“亞群搜索”,參考映射正在重塑單細(xì)胞數(shù)據(jù)分析的技術(shù)范式。得益于較好的泛化能力與高效的計(jì)算效率,CellMemory有望成為覆蓋病理、時(shí)空及物種等多維度細(xì)胞參考圖譜建設(shè)與臨床精準(zhǔn)診療的關(guān)鍵引擎。
近日,相關(guān)研究成果以CellMemory: hierarchical interpretation of out-of-distribution cells using bottlenecked transformer為題,發(fā)表在《基因組生物學(xué)》(Genome Biology)上。研究工作得到科學(xué)技術(shù)部、中國(guó)科學(xué)院等的支持。
論文鏈接?
CellMemory模型架構(gòu)與應(yīng)用場(chǎng)景
© 1996 - 中國(guó)科學(xué)院 版權(quán)所有 京ICP備05002857號(hào)-1 京公網(wǎng)安備110402500047號(hào) 網(wǎng)站標(biāo)識(shí)碼bm48000002
地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864
電話(huà): 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)
© 1996 - 中國(guó)科學(xué)院 版權(quán)所有 京ICP備05002857號(hào)-1 京公網(wǎng)安備110402500047號(hào) 網(wǎng)站標(biāo)識(shí)碼bm48000002
地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864
電話(huà): 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)
© 1996 - 中國(guó)科學(xué)院 版權(quán)所有
京ICP備05002857號(hào)-1京公網(wǎng)安備110402500047號(hào)
網(wǎng)站標(biāo)識(shí)碼bm48000002
地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864
電話(huà):86 10 68597114(總機(jī))
86 10 68597289(總值班室)