廣州市黃埔區(qū)學(xué)大道攬月路廣州企業(yè)孵化器B座402
電話:020-85625352
手機:18102256923、18102253682
Email:servers@gzscbio.com
Fax:020-85625352
QQ:386244141
項目名稱:circRNA測序與分析報告
所屬分類:生物信息學(xué)分析-報告解讀
聯(lián)系電話:020-85625352
QQ:386244141
Email:servers@gzscbio.com
技術(shù)服務(wù)描述
circRNA測序與分析報告
1. CircRNA背景及分析流程簡介
1.1. 背景簡介
??環(huán)形RNA是一類在真核生物中廣泛存在的具有特殊環(huán)狀結(jié)構(gòu)的非編碼RNA分子。已有文獻(xiàn)表明,在生物體內(nèi),環(huán)形RNA有著miRNA海綿、RBP海綿以及翻譯短肽等多項功能,在許多生物學(xué)過程中發(fā)揮著重要作用。 目前研究表明,大部分環(huán)形RNA來源于蛋白編碼基因的外顯子區(qū)域。在pre-mRNA剪接的過程中,除典型的內(nèi)含子剪接事件外,還可能會發(fā)生5’端到3’端的反向剪接事件,從而形成環(huán)形RNA。因此,剪接產(chǎn)物中環(huán)形RNA所占比例是環(huán)形RNA分析的重要指標(biāo)之一,具有高成環(huán)比例的環(huán)形RNA分子,可能具有更加重要的生物學(xué)功能。 同時,同一基因內(nèi)部也可能產(chǎn)生多種不同的環(huán)形RNA,基因內(nèi)對環(huán)形RNA產(chǎn)生位點的使用偏好,也在一定程度上反映了轉(zhuǎn)錄過程對環(huán)形RNA產(chǎn)生的調(diào)控。因此,環(huán)形RNA轉(zhuǎn)錄本水平的準(zhǔn)確定量,是目前環(huán)形RNA分析的重要基礎(chǔ)。
??為了解決該問題,趙方慶團(tuán)隊開發(fā)了一個新的環(huán)形RNA分析算法。根據(jù)已有工具鑒定出的環(huán)形RNA成環(huán)位點信息,研究人員重構(gòu)了具有反向剪接特征的環(huán)形RNA參考序列,簡化了復(fù)雜的反向剪接位點比對問題,并結(jié)合測序讀段比對到參考基因組和環(huán)形序列的結(jié)果,篩選出了高置信度的來自環(huán)形RNA的讀段,解決了目前環(huán)形RNA識別和定量方法中準(zhǔn)確度低和假陽性率高的問題。作者在模擬數(shù)據(jù)和真實轉(zhuǎn)錄組數(shù)據(jù)中,對多種常用環(huán)形RNA識別軟件的表現(xiàn)進(jìn)行了綜合評估,發(fā)現(xiàn)該研究中開發(fā)的方法在環(huán)形RNA表達(dá)量和成環(huán)比例的計算中,均取得了最佳的結(jié)果。
1.2. 分析流程
??將下機測序數(shù)據(jù)進(jìn)行質(zhì)控,去除接頭及各類低質(zhì)量序列。隨后借助于CIRIquant,使用Hisat2與參考基因組比對,Stringtie進(jìn)行基因水平定量;同時使用bwa-men與參考基因組比對,進(jìn)行circRNA的鑒定,構(gòu)建circRNA參考序列;將構(gòu)建的circRNA序列作為參考基因組使用Hisat2再次進(jìn)行比對,篩選出高置信度的來自環(huán)形RNA的reads;統(tǒng)計circRNA的表達(dá)情況,并注釋circRNA信息。通過對circRNA差異分析,篩選出具有顯著差異的circRNA所對相應(yīng)的基因進(jìn)行后續(xù)富集分析。 circRNA信息分析簡易流程如下所示。
2. 分析結(jié)果
2.1. 測序數(shù)據(jù)質(zhì)量控制
??對原始測序數(shù)據(jù)及去除接頭后的可用數(shù)據(jù)進(jìn)行質(zhì)量評估。測序數(shù)據(jù)一般為雙端測序,因此,每個測序樣本會有兩個測序結(jié)果。
評估的具體內(nèi)容:
文件路徑 | 文件說明 |
---|---|
result/01.QC/qc_rawdata/*.html | RawData-fastqc 文件鏈接 |
result/01.QC/qc_cleandata/*.html | CleanData-fastqc 文件鏈接 |
result/01.QC/qc_Supplement.html | Fastqc 格式補充說明 |
2.2. CIRIquant分析
2.2.1. CIRIquant分析結(jié)果文件
1 . 比對結(jié)果文件:
結(jié)果路徑 | 結(jié)果說明 |
---|---|
result/02.CIRIquant/1.mapping/*.flagstat.txt | 各個樣本的比對情況統(tǒng)計 |
result/02.CIRIquant/1.mapping/*.bw | 與hg38基因組比對的bw結(jié)果 |
以上結(jié)果位于文件夾:result/02.CIRIquant/1.mapping/
2 . CIRIquant鑒定結(jié)果文件:
結(jié)果路徑 | 結(jié)果說明 |
---|---|
result/02.CIRIquant/2.circRNA_detection/*.gtf | CIRIquant鑒定circRNA的gtf文件 |
result/02.CIRIquant/2.circRNA_detection/*.bed | CIRIquant鑒定circRNA的bed文件 |
以上結(jié)果位于文件夾:result/02.CIRIquant/2.circRNA_detection/
3 . CIRIquant鑒定結(jié)果的統(tǒng)計結(jié)果文件:
結(jié)果路徑 | 結(jié)果說明 |
---|---|
result/03.circRNA_info/1.circRNA_annotation/*csv | 鑒定的circRNA的注釋信息表 |
result/03.circRNA_info/2.circRNA_length/* | 鑒定的circRNA的長度分布圖 |
result/03.circRNA_info/3.circRNA_karyotype/* | 鑒定的circRNA的染色體分布圖 |
result/03.circRNA_info/4.circRNA_type/* | 鑒定的circRNA的類型統(tǒng)計圖 |
以上結(jié)果位于文件夾:result/03.circRNA_info
以上統(tǒng)計圖的可視化文件:result/03.circRNA_info/view.html
表頭說明: (result/03.circRNA_info/1.circRNA_annotation/*csv
鑒定的circRNA的注釋信息表)
表頭 | 說明 |
---|---|
seqnames | 染色體名稱 |
start | circRNA的起始位置 |
end | circRNA的終止位置 |
width | circRNA長度 |
strand | circRNA位于參考序列的正鏈(+)或負(fù)鏈(-)上 |
source | 注釋來源,CIRIquant |
type | 注釋信息的類型,circRNA |
score | circRNA的CPM值 |
circ_id | circRNA名稱 |
circ_type | circRNA類型,如exon / intron / intergenic / antisense |
bsj | 反向拼接位點 (back-spliced junction) 的reads數(shù)量 |
fsj | 可變剪切位點 (forward-spliced junction) 的reads數(shù)量 |
junc_ratio | 環(huán)狀NA與線性RNA的比值,計算方法為 2 * bsj / ( 2 * bsj + fsj) |
gene_id | host gene的ensemble id。'NA' 表示沒有host gene,說明該circRNA的類型為 'intergenic' |
gene_name | host gene的HGNC symbol。'NA'同上 |
gene_type | host gene的類型。'NA'同上 |
2.2.2. 參考基因組比對
??測序片段(fragments)是隨機打斷的,為了確定這些一段由哪些基因轉(zhuǎn)錄來,需要將質(zhì)控后的clean reads比對到參考基因組上。使用HISAT2軟件將Clean Reads與參考基因組進(jìn)行快速精確的比對,獲取Reads在參考基因組上的定位信息[4]。HISAT2軟件官方手冊。
??如果參考基因組組裝的較為完善,而且所測物種與參考基因組一致,且相關(guān)實驗不存在污染,那么實驗所產(chǎn)生的測序reads成功比對到基因組的比例會高于70% (Total Mapped Reads or Fragments)。本項目所用參考基因組為 hg38。
2.2.3. circRNA 預(yù)測及鑒定
?? 使用CIRIquant鑒定 circRNA ,并預(yù)測 circRNA 的表達(dá)。目前發(fā)現(xiàn)的circRNAs主要來源于基因外顯子exon,但還有其他類型,比如來源于內(nèi)含子intron、基因間intergenic、反義鏈antisense。為了更進(jìn)一步了解鑒定得到的circRNA詳細(xì)信息,隨后進(jìn)行circRNA類型,circRNA 的長度分布,circRNA 的染色體分布分別進(jìn)行分析,統(tǒng)計分析圖如下。
result/03.circRNA_info/2.circRNA_length/Demo-input.png | result/03.circRNA_info/2.circRNA_length/Demo-target.png |
result/03.circRNA_info/3.circRNA_karyotype/Demo-input.png | result/03.circRNA_info/3.circRNA_karyotype/Demo-target.png |
result/03.circRNA_info/4.circRNA_type/Demo-input_barplot.png | result/03.circRNA_info/4.circRNA_type/Demo-target_barplot.png |
result/03.circRNA_info/4.circRNA_type/Demo-input_pie.png | result/03.circRNA_info/4.circRNA_type/Demo-target_pie.png |
2.3. circRNA 差異分析
??對于無重復(fù)樣本,使用CIRIquant的CIRI_DE工具鑒定差異表達(dá)的circRNA。輸出的 DE_score 綜合了倍數(shù)變化和p值,從而提供了一種有效的方法來對差異表達(dá)的circRNA排名。此處我們篩選 |DE_score| > 1
作為顯著差異表達(dá)結(jié)果。
2.3.1. 差異分析結(jié)果文件
文件路徑 | 說明 |
---|---|
result/04.DE/targetVSinput_deg_ALL.xls | circRNA差異分析結(jié)果(所有結(jié)果) |
result/04.DE/targetVSinput_deg_all-diff.xls | circRNA差異分析結(jié)果(篩選 |DE_score| > 1 后) |
result/04.DE/targetVSinput_deg_all-diff.bed | circRNA差異分析結(jié)果的bed文件(篩選 |DE_score| > 1 后) |
result/04.DE/targetVSinput_deg_up.xls | 僅上調(diào)circRNA差異分析結(jié)果(篩選 DE_score > 1 后) |
result/04.DE/targetVSinput_deg_down.xls | 僅下調(diào)circRNA差異分析結(jié)果(篩選 DE_score < -1 后) |
result/04.DE/diff-gene-types_count.txt | 所有差異circRNA的host gene的類型統(tǒng)計 |
以上結(jié)果位于文件夾:result/04.DE/
表頭說明: (result/04.DE/targetVSinput_deg*.xls
差異分析結(jié)果文件)
表頭 | 說明 |
---|---|
circRNA_ID | circRNA名稱 |
Case_BSJ | Case組 反向拼接位點 (back-spliced junction) 的reads數(shù)量 |
Case_FSJ | Case組 可變剪切位點 (forward-spliced junction) 的reads數(shù)量 |
Case_Ratio | Case組 環(huán)狀NA與線性RNA的比值,計算方法為 2 * bsj / ( 2 * bsj + fsj) |
Ctrl_BSJ | Ctrl組 反向拼接位點 (back-spliced junction) 的reads數(shù)量 |
Ctrl_FSJ | Ctrl組 可變剪切位點 (forward-spliced junction) 的reads數(shù)量 |
Ctrl_Ratio | Ctrl組 環(huán)狀NA與線性RNA的比值,計算方法為 2 * bsj / ( 2 * bsj + fsj) |
DE_score | 差異表達(dá)分?jǐn)?shù)(differential expression score) |
DS_score | 差異剪切分?jǐn)?shù)(differential splicing score) |
change | 標(biāo)注信息,'UP'表示顯著上調(diào),'DOWN'表示顯著下調(diào),'NOT'為表達(dá)沒有顯著變化。 |
circ_type | 同上。circRNA類型,如exon / intron / intergenic / antisense |
gene_id | 同上。host gene的ensemble id。'NA' 表示沒有host gene,說明該circRNA的類型為 'intergenic' |
gene_name | 同上。host gene的HGNC symbol。'NA'同上 |
gene_type | 同上。host gene的類型。'NA'同上 |
2.3.2. 差異circRNA的基因組可視化
??可將比對結(jié)果bw文件、CIRIquant鑒定得到的circRNA的bed文件、以及差異circRNA分析結(jié)果同時放入IGV查看,如:
2.4. 差異circRNA宿主基因富集分析
??我們將差異circRNA的宿主基因,挑選出僅為 protein coding 的基因,用這些基因進(jìn)行后續(xù)富集分析。
??我們根據(jù)基因表達(dá)量分析得到差異基因之后,必須進(jìn)一步落到基因的功能上來。對于差異分析而言,往往涉及到成千上萬個基因,這會使分析變得很復(fù)雜。解決思路是將一個基因列表分成多個部分,從而減少分析的復(fù)雜度。為了解決怎么分成不同類,通常會對基因功能進(jìn)行富集分析, 期望發(fā)現(xiàn)在生物學(xué)過程中起關(guān)鍵作用的生物通路, 從而揭示和理解生物學(xué)過程的基本分子機制。功能富集分析可以將成百上千個基因、蛋白或者其他分子分到不同的通路中,以減少分析的復(fù)雜度。另外,在兩種不同實驗條件下,激活的通路顯然比簡單的基因或蛋白列表更有說服力?;蚬δ芨患治鍪紫纫獦?gòu)建基因集( gene set,如 GO 和 KEGG 數(shù)據(jù)庫等),也就是基因組注釋信息進(jìn)行分類。然后再把我們的目標(biāo)基因集(差異基因集或者其他基因集)映射到背景基因集上,注意區(qū)分注釋與富集。
??我們采用 clusterProfiler 軟件對差異基因集進(jìn)行 GO 功能富集分析, KEGG 通路富集分析等。富集分析基于超幾何分布原理,其中差異基因集為差異顯著分析所得差異基因并注釋到 GO 或 KEGG 數(shù)據(jù)庫的基因集,背景基因集為所有進(jìn)行差異顯著分析的基因并注釋到 GO 或 KEGG 數(shù)據(jù)庫的基因集。富集分析結(jié)果是對每個差異比較組合的所有差異基因集、上調(diào)差異基因集、下調(diào)差異基因集進(jìn)行富集。本報告中展示的表格是選取某一個比較組合的富集分析結(jié)果,圖片是部分富集分析結(jié)果。
圖 5 基因富集分析原理圖
2.4.1. 富集分析結(jié)果文件
結(jié)果路徑 | 結(jié)果說明 |
---|---|
GO富集分析結(jié)果 | |
result/05.Enrichment/*/gene.ego_all-p.adjust1.00.csv | GO富集結(jié)果列表(所有結(jié)果) |
result/05.Enrichment/*/gene.ego_all-p.adjust0.05.csv | GO富集結(jié)果列表(按p.adj<0.05篩選后) |
result/05.Enrichment/*/gene.ego_ALL.csv | GO富集結(jié)果列表(MF、BP、CC所有結(jié)果) |
result/05.Enrichment/*/gene.GO-*-barplot.p* | GO富集分析柱狀圖 |
result/05.Enrichment/*/gene.GO-*-dotplot.p* | GO富集分析散點圖 |
result/05.Enrichment/*/gene.GO-*-DAG.p* | GO富集分析DAG圖 |
KEGG富集分析結(jié)果 | |
result/05.Enrichment/*/gene.KEGG.csv | KEGG富集結(jié)果列表(所有) |
result/05.Enrichment/*/gene.KEGG_significant.csv | KEGG富集結(jié)果列表(按p.adj<0.05篩選后) |
result/05.Enrichment/*/gene.KEGG-*-barplot.p* | KEGG富集分析柱狀圖 |
result/05.Enrichment/*/gene.KEGG-*-dotplot.p* | KEGG富集分析散點圖 |
以上結(jié)果位于文件夾:result/05.Enrichment/
網(wǎng)頁預(yù)覽圖:
表頭說明: (result/05.Enrichment/*/gene.ego_*.csv
GO富集結(jié)果列表)
ID | 對應(yīng)GO數(shù)據(jù)庫中的ID |
---|---|
ONTOLOGY | 分子功能(Molecular Function),生物過程(biological process)和細(xì)胞組成(cellular component) |
Description | GO的描述 |
GeneRatio | 對應(yīng)GO 差異基因數(shù) / 能夠?qū)?yīng)到GO數(shù)據(jù)庫中同類型的差異基因數(shù) |
BgRatio | 對應(yīng)GO包含對應(yīng)物種的基因數(shù) / GO數(shù)據(jù)庫中包含對應(yīng)物種的基因數(shù) |
pvalue | 富集分析得到的p-value |
p.adjust | 校正后的p-value |
qvalue | 富集分析得到的qvalue |
geneID | 富集基因列表 |
Count | 富集基因數(shù)目 |
表頭說明: (result/05.Enrichment/*/gene.KEGG*.csv
KEGG富集結(jié)果列表)
ID | 對應(yīng)PATHWAY數(shù)據(jù)庫中的ID |
---|---|
Description | PATHWAY的描述 |
GeneRatio | 對應(yīng)PATHWAY 差異基因數(shù) / 能夠?qū)?yīng)到PATHWAY數(shù)據(jù)庫中的差異基因數(shù) |
BgRatio | 對應(yīng)PATHWAY包含對應(yīng)物種的基因數(shù) / PATHWAY數(shù)據(jù)庫中包含對應(yīng)物種的基因數(shù) |
pvalue | 富集分析得到的p-value |
p.adjust | 校正后的p-value |
qvalue | 富集分析得到的qvalue |
geneID | 富集基因列表 |
Count | 富集基因數(shù)目 |
2.4.2. GO功能富集分析
?? GO(Gene Ontology) 是描述基因功能的綜合性數(shù)據(jù)庫,可分為生物過程( biological process )和細(xì)胞組成( cellular component )分子功能( Molecular Function )三個部分。 GO 功能富集以 padj 小于 0.05 作為為顯著性富集的閾值,富集結(jié)果見結(jié)果文件。
??從 GO 富集分析結(jié)果中,選取最顯著的 30 個 Term 繪制柱狀圖進(jìn)行展示,若不足 30 個,則繪制所有 Term ,按生物過程、細(xì)胞組分和分子功能三大類別及差異基因上下調(diào)分類畫的柱狀圖。
??有向無環(huán)圖 (Directed Acyclic Graph,DAG) 為差異基因 GO 富集分析結(jié)果的圖形化展示方式。圖中,分支代表包含關(guān)系,從上至下所定義的功能范圍越來越小,選取每個差異比較組合的 GO 富集結(jié)果最顯著性前 5 位的 GO Term 作為有向無環(huán)圖的主節(jié)點,并通過包含關(guān)系,將相關(guān)聯(lián)的 GO Term 一起展示,顏色的深淺代表富集程度。我們的項目中分別繪制生物過程、分子功能和細(xì)胞組分的 DAG 圖。
圖 6 GO富集分析柱狀圖
圖中縱坐標(biāo)為GO Term,橫坐標(biāo)為GO Term富集的顯著性水平,數(shù)值越高越顯著
圖 7 GO富集分析散點圖
圖中橫坐標(biāo)為注釋到GO Term上的差異基因數(shù)與差異基因總數(shù)的比值,縱坐標(biāo)為GO Term
圖 8 GO富集分析DAG圖
每個節(jié)點代表一個GO術(shù)語,方框代表的是富集程度為TOP5的GO,顏色的深淺代表富集程度,顏色越深就表示富集程度越高,每個節(jié)點上展示了該TERM的名稱及富集分析的padj
2.4.3. KEGG通路富集分析
?? KEGG(Kyoto Encyclopedia of Genes and Genomes) 是整合了基因組、化學(xué)和系統(tǒng)功能信息的綜合性數(shù)據(jù)庫。 KEGG 通路富集以 padj 小于 0.05 作為顯著性富集的閾值,富集結(jié)果見結(jié)果文件。
??從 KEGG 富集結(jié)果中,選取最顯著的 20 個 KEGG 通路繪制柱狀圖進(jìn)行展示,若不足 20 個,則繪制所有通路,如下圖所示。圖中橫坐標(biāo)為通路富集的顯著性水平,數(shù)值越高越顯著,縱坐標(biāo)為 KEGG 通路。
??從 KEGG 富集結(jié)果中,選取最顯著的 20個KEGG 通路繪制散點圖進(jìn)行展示,若不足 20 個,則繪制所有通路,如下圖所示。圖中橫坐標(biāo)為注釋到 KEGG 通路上的差異基因數(shù)與差異基因總數(shù)的比值,縱坐標(biāo)為 KEGG 通路,點的大小代表注釋到 KEGG 通路上的基因數(shù),顏色從紅到紫代表富集的顯著性大小。
圖 9 KEGG富集分析柱狀圖
圖中橫坐標(biāo)為通路富集的顯著性水平,數(shù)值越高越顯著,縱坐標(biāo)為KEGG通路。
圖 10 KEGG富集散點圖
圖中橫坐標(biāo)為注釋到KEGG通路上的差異基因數(shù)與差異基因總數(shù)的比值,縱坐標(biāo)為KEGG通路