廣州市黃埔區(qū)學(xué)大道攬月路廣州企業(yè)孵化器B座402
電話:020-85625352
手機:18102256923、18102253682
Email:servers@gzscbio.com
Fax:020-85625352
QQ:386244141
項目名稱:(RNA-seq)轉(zhuǎn)錄組測序及分析報告
所屬分類:生物信息學(xué)分析-報告解讀
聯(lián)系電話:020-85625352
QQ:386244141
Email:servers@gzscbio.com
技術(shù)服務(wù)描述
轉(zhuǎn)錄組測序及分析報告
生信部
2021年03月19日
項目信息
合同編號:xx-xx-202x-xx-xx
客戶姓名:xxx
客戶單位:xxxxxx
1. 分析流程
1.1. 建庫測序流程
??從RNA樣品提取到最終數(shù)據(jù)獲得,樣品檢測、建庫、測序等每一環(huán)節(jié)都會直接影響數(shù)據(jù)的數(shù)量和質(zhì)量,從而影響后續(xù)數(shù)據(jù)分析的結(jié)果。為從源頭保證測序數(shù)據(jù)準確可靠,在數(shù)據(jù)的所有生產(chǎn)環(huán)節(jié)都嚴格把關(guān),從根源上確保高質(zhì)量數(shù)據(jù)的產(chǎn)出。建庫測序的流程:
Total RNA 樣本檢測
RNA 富集
雙鏈cDNA合成
末端修復(fù)、加A和接頭
片段選擇和 PCR 擴增
文庫質(zhì)檢
Illumina測序
1.2. 信息分析流程
??RNA-seq的核心是基因表達差異的顯著性分析,使用統(tǒng)計學(xué)方法,比較兩個條件或多個條件下的基因表達差異,從中找出與條件相關(guān)的特異性基因,然后進一步分析這些特異性基因的生物學(xué)意義,分析過程包括質(zhì)控、比對、定量、差異顯著性分析、功能富集等環(huán)節(jié)。信息分析流程如下圖所示:
2. 信息分析
2.1. 測序數(shù)據(jù)質(zhì)量控制
對原始測序數(shù)據(jù)及去除接頭后的可用數(shù)據(jù)進行質(zhì)量評估。測序數(shù)據(jù)一般為雙端測序,因此,每個測序樣本會有兩個測序結(jié)果。
評估的具體內(nèi)容見:
RawData-fastqc 文件鏈接: /result/qc/qc_rawdata/*.html
CleanData-fastqc 文件鏈接: /result/qc/qc_cleandata/*.html
Fastqc 格式補充說明: /result/qc/qc_Supplement.html
2.2. 參考基因組比對
??測序片段(fragments)是mRNA隨機打斷的,為了確定這些一段由哪些基因轉(zhuǎn)錄來,需要將質(zhì)控后的clean reads比對到參考基因組上。使用HISAT2軟件將Clean Reads與參考基因組進行快速精確的比對,獲取Reads在參考基因組上的定位信息[4]。HISAT2軟件官方手冊。
??如果參考基因組組裝的較為完善,而且所測物種與參考基因組一致,且相關(guān)實驗不存在污染,那么實驗所產(chǎn)生的測序reads成功比對到基因組的比例會高于70% (Total Mapped Reads or Fragments)。本項目所用參考基因組為 hg38 ,下載鏈接:Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz,基因組結(jié)構(gòu)注釋文件:Homo_sapiens.GRCh38.90.gtf.gz。
結(jié)果文件:
各個樣本的比對情況統(tǒng)計文件:
/result/map_stat/*.flagstat.txt
2.3. 定量分析
2.3.1. 基因表達定量
??我們對每個樣本分別進行基因表達水平的定量分析,再合并得到所有樣本的表達矩陣,第一列為基因的ID,其余列為各樣本的原始read count值,seqname列之后為該基因注釋信息。
表格說明:
表頭 | 說明 |
---|---|
Geneid | 基因名 |
Samples_name* | 樣本的表達矩陣原始read count值 |
... | 同上 |
seqname | 基因所在的染色體名稱 |
start | 基因所在染色體的起始位置 |
end | 基因所在染色體的終止位置 |
strand | 基因所在染色體的正負鏈信息 |
ENSEMBL | 基因名稱ENSEMBL |
SYMBOL | 基因名稱SYMBOL |
biotype | 基因注釋中對應(yīng)的biotype |
description | 基因功能描述 |
結(jié)果文件:
原始表達矩陣及注釋結(jié)果:
result/Quant/gene_counts.xls
2.3.2. 樣本間相關(guān)性
??生物學(xué)重復(fù)通常是任何生物學(xué)實驗所必須的,目前主流期刊也基本要求生物學(xué)重復(fù)。生物學(xué)重復(fù)主要有兩個用途:一個是證明所涉及的生物學(xué)實驗操作不是偶然,而是可重復(fù)的。另一個是為了確保后續(xù)的差異基因分析得到更可靠的結(jié)果。樣品間基因表達水平相關(guān)性是檢驗實驗可靠性和樣本選擇是否合理的重要指標。相關(guān)系數(shù)越接近1,表明樣品之間表達模式的相似度越高。Encode計劃建議皮爾遜相關(guān)系數(shù)的平方(R2)大于0.92(理想的取樣和實驗條件下)。具體的項目操作中,我們要求生物學(xué)重復(fù)樣品間R2至少要大于0.8,否則需要對樣品做出合適的解釋,或者重新進行實驗。根據(jù)各樣本所有基因的表達值計算組內(nèi)及組間樣本的相關(guān)性系數(shù),繪制成熱圖,可直觀顯示組間樣本差異及組內(nèi)樣本重復(fù)情況。樣本間相關(guān)性系數(shù)越高,其表達模式越為接近,樣本相關(guān)性熱圖如下圖所示。
圖 1 樣本間相關(guān)性熱圖
圖中橫縱坐標為各樣本相關(guān)系數(shù)的平方
結(jié)果文件:
樣本間相關(guān)性熱圖結(jié)果:Quant/cor_pheatmap*
2.3.3. 主成分分析
??主成分分析(PCA)也常用來評估組間差異及組內(nèi)樣本重復(fù)情況,PCA采用線性代數(shù)的計算方法,對數(shù)以萬計的基因變量進行降維及主成分提取。我們對所有樣本的基因表達值進行PCA分析,如下圖所示。理想條件下,PCA圖中,組間樣本應(yīng)該分散,組內(nèi)樣本應(yīng)該聚在一起。
圖 2 主成分分析結(jié)果圖
圖中橫坐標為第一主成分,縱坐標為第二主成分
結(jié)果文件:
主成分分析結(jié)果:Quant/pca*
2.4. 差異分析
??基因表達定量完成后,需要對其表達數(shù)據(jù)進行統(tǒng)計學(xué)分析,篩選樣本在不同狀態(tài)下表達水平顯著差異的基因。差異分析主要分為三個步驟。
首先對原始的readcount進行標準化(normalization),主要是對測序深度的校正。
然后統(tǒng)計學(xué)模型進行假設(shè)檢驗概率(pvalue)的計算
最后進行多重假設(shè)檢驗校正,得到FDR值(錯誤發(fā)現(xiàn)率,padj是其常見形式)[1-2]。
??針對不同的實驗情況,我們選用合適的軟件進行基因表達差異顯著性分析,具體如下表所示。
表1 表達差異分析所用軟件及差異基因篩選標準
類型 | 軟件 | 標準化方法 | pvalue計算模型 | FDR計算方法 | 差異基因篩選標準 |
---|---|---|---|---|---|
有生物學(xué)重復(fù) | DESeq2(Anders et al, 2014) | DESeq | 負二項分布 | BH | |log2(FoldChange)| > 0 & padj < 0.05 |
無生物學(xué)重復(fù) | edgeR(Robinson et al, 2010) | TMM | 負二項分布 | BH | |log2(FoldChange)| > 1 & padj < 0.05 |
??若按照以上標準篩選得到的差異基因過少(低于100),很有可能導(dǎo)致后面的功能富集分析沒有顯著性結(jié)果,所以,我們會根據(jù)項目的具體情況,適當?shù)亟档秃Y選差異基因的閾值標準。若項目實驗只關(guān)注某幾個基因的表達情況(如基因敲除),不在意富集結(jié)果,從下面的差異分析表格中篩選關(guān)注的那幾個基因即可。
??一般來說,如果一個基因在兩組樣品中的表達量差異達到兩倍以上,我們認為這樣的基因是具有表達差異的。為了判斷兩個樣品之間的表達量差異究竟是由于各種誤差導(dǎo)致的還是本質(zhì)差異,我們需要對所有基因在這兩個樣本中的表達量數(shù)據(jù)進行假設(shè)檢驗。而轉(zhuǎn)錄組分析是針對成千上萬個基因進行的,這樣會導(dǎo)致假陽性的累積,基因數(shù)目越多,假設(shè)檢驗的假陽性累積程度會越高,所以引入padj對假設(shè)檢驗的P-value進行校正,從而控制假陽性的比例[3]。
??差異基因的篩選標準是非常重要的,我們給出的標準|log2(FoldChange)| > 1 & padj< 0.05是常用的經(jīng)驗值,在實際項目中可以根據(jù)情況靈活選擇。例如,差異倍數(shù)可以選擇1.5倍,也可以選擇3倍,padj常用的閾值包括0.01、0.05、0.1等。若按照以上標準篩選得到的差異基因過少,很有可能導(dǎo)致后?的功能富集分析沒有顯著性結(jié)果。若項目實驗只關(guān)注某幾個基因的表達情況(如基因敲除),不在意富集結(jié)果,從下面的差異分析表格中篩選關(guān)注的那幾個基因即可。反之,如果得到的差異基因數(shù)目過多,不利于后續(xù)目標基因的篩選,這個時候可使用更嚴格的閾值標準進行篩選,則可以使用更嚴格的閾值標準進行篩選。
2.4.1. 差異基因的篩選
??通過Deseq2進行差異分析,我們通常采用 |log2FC|>1 & padj < 0.05 進行差異基因的篩選,隨后對差異基因進行注釋,得到包含注釋信息的差異基因列表。
結(jié)果文件:
差異基因列表及相關(guān)注釋信息(篩選結(jié)果):result/Enrichment/Allgene_anno.xls
差異基因列表及相關(guān)注釋信息(總的結(jié)果):result/Enrichment/Allgene_anno_ALL.xls
Differential/Allgene_anno*.xls表頭
Differential/Allgene_anno*.xls表頭
Differential/Allgene_anno*.xls表頭
Differential/Allgene_anno*.xls表頭
Differential/Allgene_anno*.xls表頭
Differential/Allgene_anno*.xls表頭
Differential/Allgene_anno*.xls表頭