生物信息學早已不再局限于基因組學領域了,后基因組學越來越受到關注,并且這幾年“多組學”的也研究越來越多。其中,代謝組學是相對比較年輕的一門學科,“代謝組”(metabolome)的概念于1998第一次被提出?;蚪M學和轉錄組學是生物信息的上游,更多的體現的是生物活動的內在本質因素,而代謝組學是生物信息的最下游,體現的是生物活動的表型結果。代謝組學分為靶向代謝組學和非靶向代謝組學,本文將結合本人的經驗和所學,綜述非靶向代謝組學的數據分析方法。


概述

什么是“代謝組學”(metabolomics)呢?

首先,我們得明確什么叫“代謝物”(metabolite)。維基百科的定義:A metabolite is the intermediate end product of metabolism. The term metabolite is usually restricted to small molecules. 百度百科的定義:代謝物亦稱中間代謝物,是指通過代謝過程產生或消耗的物質,生物大分子不包括在內。

目前METLIN數據庫中的標準代謝物分子總共超過200,000 種;一般非靶向代謝組學使用質譜儀能檢測到人體血液中的代謝信號峰大約接近10,000個。由此可知,代謝組學的特征維度是比較大的。

其次,我們了解下什么叫“代謝組”(metabolome)。維基百科的定義:The metabolome refers to the complete set of small-molecule chemicals found within a biological sample. The biological sample can be a cell, a cellular organelle, an organ, a tissue, a tissue extract, a biofluid or an entire organism. 百度百科的定義:代謝組是指生物體內源性代謝物質的動態整體。而傳統的代謝概念既包括生物合成,也包括生物分解,因此理論上代謝物應包括核酸、蛋白質、脂類生物大分子以及其他小分子代謝物質。但為了有別于基因組、轉錄組和蛋白質組,代謝組目前只涉及相對分子質量約小于1000的小分子代謝物質。

那么“代謝組學”(metabolomics)怎么定義呢? 百度百科的解釋是:代謝組學是效仿基因組學和蛋白質組學的研究思想,對生物體內所有代謝物進行定量分析,并尋找代謝物與生理病理變化的相對關系的研究方式,是系統生物學的組成部分。注意,代謝組學還有個英文寫法是“metabonomics”,這兩個寫法都是可以的,但其實這兩個詞的側重點有些區別,此處不深究,感興趣的童鞋可以自行查找資料了解。

代謝組學從研究特點上可分為非靶向代謝組學和靶向代謝組學。非靶向代謝組學無偏向地檢測樣本中所有能檢測到的代謝物分子,是通過生信方法進行差異分析和通路分析,尋找生物標志物,初步建立模型或代謝物Panel的組學方法。而靶向代謝則是針對特定的代謝物進行檢測,由于其使用標準品,因此可以實現代謝物的絕對定量(非靶向代謝組學只能相對定量)。

用于代謝組學研究的樣本,主要包括:組織、血液、尿液等,其他如生物體液、分泌物或排泄物也常用于代謝組學研究。

數據采集的方法上來看,主要分為:核磁共振(NMR)、氣質聯用(GC-MS)及液質聯用(LC-MS)。NMR的靈敏度最低,LC-MS的靈敏度最高(可以檢測到更多的代謝物)。采集的數據經過處理,可轉化成各個代謝信號峰的相對含量值表(常使用XCMS等工具進行處理)。

總的來說,完整的代謝組學研究,應包括實驗設計、樣本處理、數據采集、數據分析這幾個部分,本文僅介紹非靶向代謝組學的數據分析部分(注:本人接觸的是血標本的LC-MS數據)。

 

數據預處理

采集的數據經過處理,可轉化成各個信號峰的相對含量值表,這個表一般形式為:每一行代表一個信號(可由RT[保留時間]和m/z[質荷比]確定一個信號峰)在各個樣本中的相對含量,也就是說,每一列代表每個樣本中各個信號的性對含量(前幾列除外,表示各信號的RT、m/z等信息)。每個信號可用RT值和m/z值組合進行命名。

對于得到的這個表,我們常常進行如下3個預處理操作:信號峰注釋、標準化校正、質控。

信號峰的注釋??梢詫ν凰胤?、加合物峰進行注釋,甚至可以初步鑒定部分信號峰所對應的代謝物名稱。

標準化校正??煞譃榕蝺刃U团伍g校正。需要校正是因為儀器不穩定等情況,可能使信號峰的相對含量出現誤差。校正的方法有幾種,目前一般首選基于QC樣本的標準化方法,即:將所要采集的所有樣本取等量混合起來,組成QC樣本,然后在采集數據的時候,每隔一定數量的樣品,插放一份QC樣本。因為QC樣本都是一樣的,因此可以用QC樣本來反映數據采集過程中信號的偏移規律。校正的工具,目前主要推薦中科院ZhuLab開源的MetNormalizer(朱正江研究員的博士生申小濤師兄開發)。

質控。對每個信號峰的QC樣本求RSD(相對標準偏差),通常需舍棄RSD超過30%的信號峰(數據質量太差)。


統計分析

單變量分析

二分類問題的單變量分析主要分為:Wilcoxon秩和檢驗(或 t檢驗)和 Fold Change分析。多分類問題可能需要ANOVA等方法。常用的可視化方法為 Volcano Plot (火山圖),可初步篩選出同時滿足Wilcoxon檢驗統計學差異和Fold Change倍數差異的信號峰。單變量分析很簡單,但常常很有效。

值得注意的一點是,單變量統計學檢驗,其p值的閾值設定,嚴格來說不應該設定為0.05,需要進行FDR校正(高維數據進行多次假設檢驗,容易產生大量的假陽性)。但作為初篩,許多研究往往卡得比較松。

單變量分析中,采用中位數還是平均數來代表一個組的值呢?比如計算FC時,是用兩組的中位數計算FC還是用均數去計算FC呢,以及統計學檢驗使用t檢驗還是選擇wilcoxon檢驗呢?一般來說,如果數據分布是正態分布,則用均數,否則用中位數。

慎用FC值(個人觀點):隨便使用FC值去篩選變量,很可能導致重要變量被篩出局,舉個栗子:

代謝物X在A組15個病例中的峰值分別是:92,95,95,96,96,97,98,100,101,101,101,102,102,103,103,中位數或平均數大致為100;

代謝物X在B組15個病例中的峰值分別是:106,107,108,108,108,108,109,110,111,112,112,112,113,113,115,中位數或平均數大致為110。

代謝物X的FC值(B/A)為1.1。若此時設定FC值以1.2作為界值,X將被排除出模型;然而X可能是一個很好的biomarker,無辜出局。

那么,何時用FC值呢?FC值方法有個特點:FC值越接近1的變量,成為好的biomarker的概率越低。也就是說,噪音變量特別多的時候,采用FC值去排除噪音變量的效率很高。亦即信噪比很低時,FC很管用。所以在特征特別多的任務中,初篩變量的第一步會用FC爽一爽。但若建模效果不理想,有可能是初篩時排除了有效的特征,這個時候應該回過頭來放寬界值甚至去除FC標準。

P值是否也需要注意?相對來說,初篩時p值還算靠譜,寬松時可以不進行FDR校正,卡在0.05也還OK。剛剛說的FC值法,實際上觸發了假陰性的情況,那么p值其實也有類似情況,當選用非參數檢驗時,假陰性率會上升。因此慎用非參數檢驗方法。同樣的道理,若初篩后發現建模效果不理想,可以回過頭來放寬界值甚至選擇統計學檢驗效能更強的方法。 


多元統計分析

多變量分析之前,需要對變量進行標準化(包括中心化和尺度化),尺度化的方法主要有以下兩種。

Auto scaling:自動標度化,也叫UV scaling(univariate scaling,單變量標準化),也就是中心化后除以該變量的標準差,也叫Z-score標準化。

Pareto scaling:柏拉圖標準化,一般寫成Par標準化,與UV scaling的不同之處就是對標準差開根號。

一般用的較多的是Z-score標準化。

多元統計分析非常重要的一步是降維。提到降維,很多人的反應便是PCA、LASSO、PLS等方法。代謝組學中較多使用PLS(偏最小二乘法),因為信號峰之間的相關性較高,LASSO降維不僅會將意義較小的變量剔除,也會將相關性較高(共線性)的變量中剔除多余的。一般代謝組學需要探索代謝物之間的互作與研究結局變量的關系,因此PLS更受歡迎。當然,根據研究目的的不同(比如單純為了找顯著價值的互相獨立的biomarker),也可以使用LASSO等方法降維。而PCA作為無監督的方法,在代謝組學中主要僅用于質控或尋找天然的分組。

此處對PLS進行簡略介紹(詳細介紹可參考博客:偏最小二乘法 Partial Least Squares)。

PLS作為監督學習的一種方法,不僅對自變量x成分進行了映射處理,還對結局變量y進行逐步殘差擬合。除了PLS,還有其加強算法——OPLS,區分能力略微更強,可視化效果略微更好。

PLS/OPLS的得分圖類似于PCA的得分圖,但是PLS/OPLS還可對每個變量(特征)求一個VIP值(Variable Importance in Projection),反應的是每個變量對模型解釋的貢獻度,VIP越大的變量越重要。

除了VIP值,還可以求最終模型中各變量的系數(又稱PLS-BETA值)和Corr.Coeffs,以及二者對應的p值。

可綜合VIP值和Corr.Coeffs值篩選變量(V-Plot),或者綜合PLS-BETA值和Corr.Coeffs值篩選變量(S-Plot)。

評價(O)PLS-DA 模型擬合效果使用R2X、R2Y和Q2Y這三個指標,這些指標越接近1 表示PLS-DA 模型擬合數據效果越好。其中,R2X 和R2Y 分別表示PLSDA分類模型所能夠解釋X 和Y 矩陣信息的百分比,Q2Y 則為通過交叉驗證計算得出,用以評價PLS-DA模型的預測能力,Q2Y 越大代表模型預測效果較好。

PCA分析中R2X >0.4為好;PLS-DA 和 OPLS-DA分析中,R2X 這個參數不重要了,主要是R2Y 和Q2,這兩個值>0.5 為好,越接近1越好。OPLS-DA中Q2(cum),是指建模后模型的預測能力,以大于0.5為宜,越接近1越好,cum 表示累積的意思。     

對于PLS/OPLS,我們常常需進行 permutation test(置換檢驗)(勿與交叉檢驗混淆),以確定模型是否過擬合。一般需檢驗模型的Q2值和R2值(Q2)。對于Q2,要求置換檢驗結果的在y軸上的截距小于0,方可認為模型沒有過擬合。置換檢驗的基本原理:將真實分類結果(標簽)屏蔽,重新隨機賦予分類結果(標簽),再進行建模。如果真實建模的Q2和隨機標簽建模的Q2接近,則說明模型過擬合。具體原理請參考其他資料。置換檢驗可視化的圖,橫坐標表示的是置換后的標簽與真實標簽的相關性(有多少比例的樣本未打亂重新賦予標簽)。

進行降維后,除了使用PLS/OPLS多元分析方法可以繼續進行多元統計建模外,還可使用SVM、RandomFores、ANN等方法進行建模。另外,最終最好使用Logistic回歸建立具備臨床(或生物學)解釋意義的模型。

另外,瑞典查爾默斯理工大學的施琳大神前不久發表在bioinformatics上的一篇文章,介紹了一個用于多元統計分析的方法,并開發了一個R包MUVR。


物質鑒定

對于質譜儀測定的代謝物,有公共數據庫可以根據m/z等信息進行鑒定,如HMDB,MassBank,METLIN等。

有時候需要先對兩批數據中取交集,這個時候可以根據m/z值和RT值進行確定,比如同時滿足容差條件:m/z在5ppm內,RT在50內。之后還可根據二級譜圖(MS-MS)的信息,進一步確定。

關于ppm,舉個栗子(摘自:代謝組學研究中需要了解的質譜知識丨質量精度):

C6H12O6理論精確分子量為180.0634

如果測得分子量為180.0631,則誤差為

180.0631-180.0634=-0.0003Da=-0.3mDa

(180.0631-180.0634)/180.0634=1.67e-6 即 1.67ppm


網絡分析

包括富集分析(Enrichment analysis)和通路分析(Pathway analysis)。通路分析中添加了通路的拓撲分析,輸出通路在整體網絡中的重要性(impact),重要性越大,可能意味著在整個通路中的地位越核心,那么從impact值也可以反映出來。


轉自網絡