在醫(yī)學(xué)領(lǐng)域,精準(zhǔn)診斷和治療決策一直是醫(yī)生和患者關(guān)注的焦點(diǎn)。然而,面對海量的多模態(tài)數(shù)據(jù),傳統(tǒng)方法往往力不從心。人工智能(AI)技術(shù)的崛起,正為這一難題帶來革命性解決方案。本期文章聚焦于新的研究成果——MUSK模型,通過整合病理圖像和臨床文本數(shù)據(jù),不僅實現(xiàn)了跨模態(tài)檢索、視覺問答等復(fù)雜任務(wù),還在分子標(biāo)志物預(yù)測、癌癥預(yù)后和免疫治療反應(yīng)預(yù)測中展現(xiàn)了卓越性能。MUSK的出現(xiàn),標(biāo)志著AI在精準(zhǔn)腫瘤學(xué)領(lǐng)域的應(yīng)用邁出了關(guān)鍵一步。通過本文,您將深入了解AI如何改變醫(yī)學(xué)的未來,以及它如何為患者帶來更精準(zhǔn)、更個性化的治療選擇。
一. 研究背景
臨床決策依賴多模態(tài)數(shù)據(jù),如臨床記錄和病理特征,但現(xiàn)有方法在整合這些數(shù)據(jù)方面存在局限。人工智能(AI)在整合多模態(tài)數(shù)據(jù)方面潛力巨大,但高質(zhì)量標(biāo)注數(shù)據(jù)集稀缺,阻礙了模型發(fā)展;A(chǔ)模型通過大規(guī)模預(yù)訓(xùn)練,可在無需額外訓(xùn)練的情況下應(yīng)用于多種任務(wù),為醫(yī)學(xué)AI開辟了新方向。然而,現(xiàn)有視覺-語言基礎(chǔ)模型在病理學(xué)領(lǐng)域面臨數(shù)據(jù)規(guī)模不足和任務(wù)復(fù)雜度有限的挑戰(zhàn)。
為此,本研究提出基于多模態(tài)統(tǒng)一掩碼建模變換器(MUSK)的視覺-語言基礎(chǔ)模型。MUSK利用大規(guī)模未標(biāo)注病理圖像和文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,并進(jìn)一步對齊圖像-文本對特征,旨在解決現(xiàn)有模型的局限性。通過廣泛任務(wù)評估,MUSK在跨模態(tài)檢索、視覺問答、圖像分類、分子標(biāo)志物預(yù)測及臨床結(jié)果預(yù)測中展現(xiàn)了卓越性能,為精準(zhǔn)腫瘤學(xué)和多模態(tài)AI應(yīng)用提供了新工具。
二. 文章詳情
文章題目:A vision–language foundation model for precision oncology
中文題目:用于精準(zhǔn)腫瘤學(xué)的視覺-語言基礎(chǔ)模型
發(fā)表時間:2025.02
期刊名稱:Nature
影響因子:50.5
DOI:10.1038/s41586-024-08378-w
三. 研究結(jié)果
1. MUSK模型預(yù)訓(xùn)練
本研究開發(fā)了基于多模態(tài)Transformer架構(gòu)的視覺-語言基礎(chǔ)模型,作為網(wǎng)絡(luò)骨干。模型預(yù)訓(xùn)練分為兩個連續(xù)階段。首先,MUSK在5000萬張病理圖像和10億個病理相關(guān)文本標(biāo)記上進(jìn)行預(yù)訓(xùn)練。這些圖像來源于11,577名患者的約33,000張全切片組織病理學(xué)掃描結(jié)果,涵蓋了33種腫瘤類型。借鑒BEiT3架構(gòu),MUSK模型由共享的自注意力模塊以及針對視覺和語言輸入的獨(dú)立專家模塊組成;預(yù)訓(xùn)練通過掩碼建模實現(xiàn)。其次,MUSK在來自QUILT-1M模型的一百萬張圖像-文本對上進(jìn)行了預(yù)訓(xùn)練,采用對比學(xué)習(xí)方法以實現(xiàn)多模態(tài)對齊。