Data Driven Research: 組織細胞群體的深度解析
——神奇的質(zhì)譜流式技術(shù)
質(zhì)譜流式是單細胞分析技術(shù)的一大突破,目前應(yīng)用于血液、免疫、干細胞以及腫瘤等諸多研究領(lǐng)域。它創(chuàng)造性地使用了金屬元素做為抗體的標簽,利用ICP質(zhì)譜實現(xiàn)了單細胞多參數(shù)的檢測。金屬標簽具有極低的背景信號以及很好的標簽化學(xué)穩(wěn)定,結(jié)合ICP檢測器的超高信號分辨能力,保證了質(zhì)譜流式可以獲得高質(zhì)量的數(shù)據(jù)。由于檢測通道數(shù)量已經(jīng)達到幾十個,質(zhì)譜流式的數(shù)據(jù)中包含很大的信息量。
那么利用質(zhì)譜流式平臺獲得的數(shù)據(jù),我們究竟可以從中得到哪些信息呢?有該如何充分利用這些數(shù)據(jù)結(jié)果進行分析,提高單次實驗的效率呢?事實上,不同的數(shù)據(jù)分析方法賦予了質(zhì)譜流式不同的功能。這里,本文將就目前常見的一些數(shù)據(jù)分析方法及結(jié)果類型為大家進行簡要的總結(jié)概述。
一、系統(tǒng)展示組織亞群構(gòu)成以及功能、狀態(tài)信息——Data Visualization
質(zhì)譜流式數(shù)據(jù)包含所有被測細胞方方面面的信息,是地地道道的高維數(shù)據(jù);這種數(shù)據(jù)的復(fù)雜性實際上是組織細胞本身異質(zhì)性的忠實寫照。獲得這些數(shù)據(jù)后,科研人員首先想了解的其實就是組織的亞群構(gòu)成情況。雖然數(shù)據(jù)中已經(jīng)包含這樣的信息,但是仍然需要經(jīng)過加工處理才能轉(zhuǎn)變?yōu)橹庇^、易懂的圖表,這一過程就是數(shù)據(jù)的可視化。
SPADE是一種常用的數(shù)據(jù)可視化方法。它首先將表型類似的細胞聚成小群,然后依照各小群的表型相似度進行聚類分析,最后得到一個樹形圖。SPADE樹形圖上每個節(jié)點(Node)都是由一群表型相似的細胞構(gòu)成的,節(jié)點相對位置不同也體現(xiàn)了其表型的差異。因此,SPADE樹形圖直觀展示出了組織細胞的亞群構(gòu)成。
圖一中展示的是不同時期的小鼠黑色素瘤中浸潤的免疫細胞SPADE圖譜,可以明顯的看出單核細胞比例明顯增大。
圖一、小鼠黑色素瘤浸潤淋巴細胞的亞群組成(利用32個表面標志分子進行SPADE分析圖譜,數(shù)據(jù)來源:Salmon et al., 2016, Immunity 44, 924–938)
降維分析是另一類經(jīng)常使用的數(shù)據(jù)處理方法,在盡可能保持信息不丟失的基礎(chǔ)上,將多維信息壓縮到二維;這樣就可以用二維散點圖來展示高維數(shù)據(jù)的結(jié)構(gòu)了。常見的方法有viSNE、PCA等。
圖二是根據(jù)16個胞外標志蛋白表達數(shù)據(jù),對外周血白細胞進行viSNE分群結(jié)果?梢钥闯,在viSNE圖譜中,幾個主要免疫亞群各自聚群。同樣,我們也可以以“熱圖”的方式展示不同刺激條件下pSTAT5在各個亞群中的變化情況。(Adeeb H et al, 2015)
圖二、通過16個Marker對人外周血免疫細胞的viSNE分析圖譜(數(shù)據(jù)來源:Adeeb H. Rahman,Cytometry Part A,Volume 89, Issue 6,2016)
除了SPADE和viSNE以外,數(shù)據(jù)可視化的方法還有很多,例如PCA、Scaffold Map FLOW-MAP等等;
二、比手工設(shè)門更精細的自動分群——Automated population identification
上述方法可以對在已有知識背景的前提下對已知表型的亞群進行直觀數(shù)據(jù)分析,展示復(fù)雜的群體構(gòu)成。而當關(guān)鍵亞群的表型是未知的,則需要一類可以充分挖掘質(zhì)譜流式數(shù)據(jù)的自動分群方法。這種計算機自主的亞群分析方法叫做“DensVM”。
小鼠髓系細胞具有復(fù)雜的細胞組成,新加坡SIgN的研究人源利用質(zhì)譜流式對不同組織來源的髓系細胞進行了檢測,圖三其viSNE分析結(jié)果。圖中用不同顏色標記的是由計算機自動識別出的28個細胞亞群。B圖中熱圖分析表明,這些亞群都具有不同的蛋白表達模式。很明顯,相比圖中手工識別的亞群(藍色線框),這種計算機自動的分群方法要細致很多。例如,僅僅在Neutrophils(中性粒細胞)的藍色線框內(nèi)就識別出了5個表型不同的亞群。
圖三、小鼠不同組織中髓系細胞的組成(A viSNE圖譜;B 計算機識別的各個亞群的表型分析;數(shù)據(jù)來源Nat Immunol. 2014 Dec;15(12))
類似功能的分析方法還有很多,Accense、PhenoGraph等都是在質(zhì)譜流式中經(jīng)常使用的亞群分群方法。它們能夠幫助我們識別在生理或病理情況下起到重要作用的細胞亞群、稀有亞群以及未知亞群。
三、精細解析細胞成熟、分化、去編程等動態(tài)過程——Cell development modelling
除了可以靜態(tài)的分析組織細胞的亞群構(gòu)成,質(zhì)譜流式還可以對細胞分化、去編程等復(fù)雜的動態(tài)變化過程進行精細的分析。
我們以B細胞的在骨髓中的成熟過程為例說明該問題。我們知道,B細胞是在骨髓中發(fā)育成熟的,在骨髓樣本中存在從造血干細胞(HSC)到Immature Naïve B之間各分化階段的細胞;一般情況下,這些分化階段沒有絕對的界限,期間也存在大量的過渡狀態(tài)的細胞,這就是B分化過程的連續(xù)性。
因此理論上講,只要我們能檢測足夠多的骨髓細胞,就可以測得足夠多的中間過渡狀態(tài)的細胞,根據(jù)細胞表型的漸變我們就可以將這些細胞排列起來。這就是Wanderlust的分析基本思想,它讓我們從單個骨髓樣本獲得細胞分化的動態(tài)信息。
圖四、Wanderlust分析展示的人B細胞在骨髓中成熟過程
(數(shù)據(jù)來源:Sean C. Bendall等,Cell 157, 714–725)
Wanderlust會根據(jù)每個細胞排列的位置賦予給細胞一個Wanderlust值,其大小就反映了分化程度:0代表起點(造血干細胞),1代表終點(Immature Naïve B),該數(shù)值越小說明細胞越原始;
有了這個工具,我們可以觀察B細胞分化過程中任意一個蛋白的表達變化,這些信息可以幫助我們找到分化過程中一些重要的事件。
對于一些in vitro的實驗體系,我們可以利用更簡單的方法觀察細胞表型的變化過程。只需要將不同時間點的質(zhì)譜流式數(shù)據(jù)放在做降維分析,得到的圖譜就反映了細胞表型隨時間的變化。圖五中的Flow-MAP圖譜中反映的是MEF細胞經(jīng)過體外誘導(dǎo)成iPSC的全過程。顏色代表樣本處理的時間長短,沿著由藍色-黃色-紅色的“時間軸”,我們可以看到MEF的去編程過程中細胞表型的變化過程。
圖五、對MEF細胞的去編程過程的Flow-MAP分析
(數(shù)據(jù)來源:Eli R. Zunder等,Cell Stem Cell 16, 323–337)
四、量化分析信號通路分子之間的相互作用關(guān)系
質(zhì)譜流式在信號通路的磷酸化蛋白的檢測中表現(xiàn)卓越。一方面,它可以檢測更多地信號通路分子,另一方面,相對于熒光基團,其抗體帶有的金屬標簽穩(wěn)定性有很大提升。我們知道,信號通路蛋白之間有比較復(fù)雜的相互作用關(guān)系,質(zhì)譜流式可以將這種關(guān)系進行量化比較。
這里要用到的是一個名為DREVI的分析方法,它可以幫助我們從單細胞數(shù)據(jù)中提取出兩個信號通路蛋白之間的“函數(shù)關(guān)系”,并用一系列參數(shù)對這種關(guān)系進行量化。下圖I,II展示的是在不同的刺激條件下pCD3ζ和pSLP76之間的關(guān)系曲線。我們可以很容易看出,在第二種刺激條件下,較低的pCD3ζ水平就可以啟動SLP76磷酸化,同時pSLP76也可以達到更高的水平。
圖六、DREVI分析可以直觀展示不同刺激條件下信號通路狀態(tài)的改變
(數(shù)據(jù)來源:SmitaKrishnaswamy等,Science. 2014 November 28; 346(6213))
五、尋找具有臨床指導(dǎo)意義的Bio-Marker
在比較貼近臨床的研究中,我們往往需要對一系列病人樣本和正常樣本進行比較,找出病人樣本特征。一般情況下,很難從整體蛋白表達水平找到具有統(tǒng)計學(xué)意義的差別,因為臨床樣本具有很大的異質(zhì)性,比較有規(guī)律性、代表性的差別往往只存在于少數(shù)亞群中。前文提到,質(zhì)譜流式可以將樣本精細的分成很多亞群,因此它可以很方便的對這些亞群中相關(guān)蛋白的表達數(shù)據(jù)進行對比、相關(guān)性等統(tǒng)計學(xué)分析。
斯坦福大學(xué)的研究人員用質(zhì)譜流式檢測了多發(fā)性骨髓瘤病例和正常人外周血細胞39個蛋白的表達。為了尋找兩組樣本之間存在顯著差異的Bio-Marker,他們引入了Citrus分析。首先通過其中的24個表面Marker聚類分成幾十個亞群,然后通過對比各亞群中14個蛋白的表達,最終發(fā)現(xiàn)了圖中所示的兩個B細胞相關(guān)亞群(Cluster A 和Cluster B),在這兩個亞群中,CD27在多發(fā)性骨髓瘤病人組的表達量要明顯高于正常人。這一差異有希望做為該類疾病的一個BioMarker用于疾病的診斷。
圖七、通過Citrus 分析識別出多發(fā)性骨髓瘤的特征性亞群
(數(shù)據(jù)來源:Leo Hansmann等,Cancer Immunol Res; 3(6) June 2015)
小結(jié):數(shù)據(jù)驅(qū)動的研究方式,不斷降低的技術(shù)門檻
可以看出,質(zhì)譜流式數(shù)據(jù)分析具有很大的靈活性,研究者可以根據(jù)實驗設(shè)計以及實驗?zāi)康牡牟煌,選擇幾種適合的分析方法結(jié)合使用,有效挖掘出需要的信息。這種研究方式也被稱為數(shù)據(jù)驅(qū)動的研究(Data Driven Research)。
經(jīng)過了幾年的發(fā)展,質(zhì)譜流式數(shù)據(jù)分析方法已經(jīng)漸成體系。隨著一些基于云的在線分析系統(tǒng)的出現(xiàn),數(shù)據(jù)分析的技術(shù)門檻也大大降低。例如Cytobank,可以支持SPADE、viSNE以及Citrus等多種數(shù)據(jù)分析方法,軟件界面也非常友好,研究人員只需要將數(shù)據(jù)上傳到服務(wù)器,設(shè)定少數(shù)幾個參數(shù)就可以完成這些分析。這也為質(zhì)譜流式技術(shù)的普及創(chuàng)造了有利條件。