廣州市黃埔區(qū)學(xué)大道攬?jiān)侣窂V州企業(yè)孵化器B座402
電話:020-85625352
手機(jī):18102256923、18102253682
Email:servers@gzscbio.com
Fax:020-85625352
QQ:386244141
項(xiàng)目名稱:circRNA測(cè)序及分析報(bào)告
所屬分類:生物信息學(xué)分析-報(bào)告解讀
聯(lián)系電話:020-85625352
QQ:386244141
Email:servers@gzscbio.com
技術(shù)服務(wù)描述
circRNA測(cè)序及分析報(bào)告
生信部
2020年12月29日
1. CircRNA背景及分析流程簡(jiǎn)介
1.1. 背景簡(jiǎn)介
??環(huán)形RNA是一類在真核生物中廣泛存在的具有特殊環(huán)狀結(jié)構(gòu)的非編碼RNA分子。已有文獻(xiàn)表明,在生物體內(nèi),環(huán)形RNA有著miRNA海綿、RBP海綿以及翻譯短肽等多項(xiàng)功能,在許多生物學(xué)過(guò)程中發(fā)揮著重要作用。 目前研究表明,大部分環(huán)形RNA來(lái)源于蛋白編碼基因的外顯子區(qū)域。在pre-mRNA剪接的過(guò)程中,除典型的內(nèi)含子剪接事件外,還可能會(huì)發(fā)生5’端到3’端的反向剪接事件,從而形成環(huán)形RNA。因此,剪接產(chǎn)物中環(huán)形RNA所占比例是環(huán)形RNA分析的重要指標(biāo)之一,具有高成環(huán)比例的環(huán)形RNA分子,可能具有更加重要的生物學(xué)功能。 同時(shí),同一基因內(nèi)部也可能產(chǎn)生多種不同的環(huán)形RNA,基因內(nèi)對(duì)環(huán)形RNA產(chǎn)生位點(diǎn)的使用偏好,也在一定程度上反映了轉(zhuǎn)錄過(guò)程對(duì)環(huán)形RNA產(chǎn)生的調(diào)控。因此,環(huán)形RNA轉(zhuǎn)錄本水平的準(zhǔn)確定量,是目前環(huán)形RNA分析的重要基礎(chǔ)。
??為了解決該問(wèn)題,趙方慶團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)新的環(huán)形RNA分析算法。根據(jù)已有工具鑒定出的環(huán)形RNA成環(huán)位點(diǎn)信息,研究人員重構(gòu)了具有反向剪接特征的環(huán)形RNA參考序列,簡(jiǎn)化了復(fù)雜的反向剪接位點(diǎn)比對(duì)問(wèn)題,并結(jié)合測(cè)序讀段比對(duì)到參考基因組和環(huán)形序列的結(jié)果,篩選出了高置信度的來(lái)自環(huán)形RNA的讀段,解決了目前環(huán)形RNA識(shí)別和定量方法中準(zhǔn)確度低和假陽(yáng)性率高的問(wèn)題。作者在模擬數(shù)據(jù)和真實(shí)轉(zhuǎn)錄組數(shù)據(jù)中,對(duì)多種常用環(huán)形RNA識(shí)別軟件的表現(xiàn)進(jìn)行了綜合評(píng)估,發(fā)現(xiàn)該研究中開(kāi)發(fā)的方法在環(huán)形RNA表達(dá)量和成環(huán)比例的計(jì)算中,均取得了最佳的結(jié)果。
1.2. 分析流程
??將下機(jī)測(cè)序數(shù)據(jù)進(jìn)行質(zhì)控,去除接頭及各類低質(zhì)量序列。隨后借助于CIRIquant,使用Hisat2與參考基因組比對(duì),Stringtie進(jìn)行基因水平定量;同時(shí)使用bwa-men與參考基因組比對(duì),進(jìn)行circRNA的鑒定,構(gòu)建circRNA參考序列;將構(gòu)建的circRNA序列作為參考基因組使用Hisat2再次進(jìn)行比對(duì),篩選出高置信度的來(lái)自環(huán)形RNA的reads;統(tǒng)計(jì)circRNA的表達(dá)情況,并注釋circRNA信息。通過(guò)對(duì)circRNA差異分析,篩選出具有顯著差異的circRNA所對(duì)相應(yīng)的基因進(jìn)行后續(xù)富集分析。 circRNA信息分析簡(jiǎn)易流程如下所示。
2. 分析結(jié)果
2.1. 測(cè)序數(shù)據(jù)質(zhì)量控制
??對(duì)原始測(cè)序數(shù)據(jù)及去除接頭后的可用數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估。測(cè)序數(shù)據(jù)一般為雙端測(cè)序,因此,每個(gè)測(cè)序樣本會(huì)有兩個(gè)測(cè)序結(jié)果。
評(píng)估的具體內(nèi)容:
文件路徑 | 文件說(shuō)明 |
---|---|
result/01.QC/qc_rawdata/*.html | RawData-fastqc 文件鏈接 |
result/01.QC/qc_cleandata/*.html | CleanData-fastqc 文件鏈接 |
result/01.QC/qc_Supplement.html | Fastqc 格式補(bǔ)充說(shuō)明 |
2.2. CIRIquant分析
2.2.1. CIRIquant分析結(jié)果文件
1 . 比對(duì)結(jié)果文件:
結(jié)果路徑 | 結(jié)果說(shuō)明 |
---|---|
result/02.CIRIquant/1.mapping/*.flagstat.txt | 各個(gè)樣本的比對(duì)情況統(tǒng)計(jì) |
result/02.CIRIquant/1.mapping/*.bw | 與hg38基因組比對(duì)的bw結(jié)果 |
以上結(jié)果位于文件夾:result/02.CIRIquant/1.mapping/
2 . CIRIquant鑒定結(jié)果文件:
結(jié)果路徑 | 結(jié)果說(shuō)明 |
---|---|
result/02.CIRIquant/2.circRNA_detection/*.gtf | CIRIquant鑒定circRNA的gtf文件 |
result/02.CIRIquant/2.circRNA_detection/*.bed | CIRIquant鑒定circRNA的bed文件 |
以上結(jié)果位于文件夾:result/02.CIRIquant/2.circRNA_detection/
3 . CIRIquant鑒定結(jié)果的統(tǒng)計(jì)結(jié)果文件:
結(jié)果路徑 | 結(jié)果說(shuō)明 |
---|---|
result/03.circRNA_info/1.circRNA_annotation/*csv | 鑒定的circRNA的注釋信息表 |
result/03.circRNA_info/2.circRNA_length/* | 鑒定的circRNA的長(zhǎng)度分布圖 |
result/03.circRNA_info/3.circRNA_karyotype/* | 鑒定的circRNA的染色體分布圖 |
result/03.circRNA_info/4.circRNA_type/* | 鑒定的circRNA的類型統(tǒng)計(jì)圖 |
以上結(jié)果位于文件夾:result/03.circRNA_info
以上統(tǒng)計(jì)圖的可視化文件:result/03.circRNA_info/view.html
表頭說(shuō)明: (result/03.circRNA_info/1.circRNA_annotation/*csv
鑒定的circRNA的注釋信息表)
表頭 | 說(shuō)明 |
---|---|
seqnames | 染色體名稱 |
start | circRNA的起始位置 |
end | circRNA的終止位置 |
width | circRNA長(zhǎng)度 |
strand | circRNA位于參考序列的正鏈(+)或負(fù)鏈(-)上 |
source | 注釋來(lái)源,CIRIquant |
type | 注釋信息的類型,circRNA |
score | circRNA的CPM值 |
circ_id | circRNA名稱 |
circ_type | circRNA類型,如exon / intron / intergenic / antisense |
bsj | 反向拼接位點(diǎn) (back-spliced junction) 的reads數(shù)量 |
fsj | 可變剪切位點(diǎn) (forward-spliced junction) 的reads數(shù)量 |
junc_ratio | 環(huán)狀NA與線性RNA的比值,計(jì)算方法為 2 * bsj / ( 2 * bsj + fsj) |
gene_id | host gene的ensemble id。'NA' 表示沒(méi)有host gene,說(shuō)明該circRNA的類型為 'intergenic' |
gene_name | host gene的HGNC symbol。'NA'同上 |
gene_type | host gene的類型。'NA'同上 |
2.2.2. 參考基因組比對(duì)
??測(cè)序片段(fragments)是隨機(jī)打斷的,為了確定這些一段由哪些基因轉(zhuǎn)錄來(lái),需要將質(zhì)控后的clean reads比對(duì)到參考基因組上。使用HISAT2軟件將Clean Reads與參考基因組進(jìn)行快速精確的比對(duì),獲取Reads在參考基因組上的定位信息[4]。HISAT2軟件官方手冊(cè)。
??如果參考基因組組裝的較為完善,而且所測(cè)物種與參考基因組一致,且相關(guān)實(shí)驗(yàn)不存在污染,那么實(shí)驗(yàn)所產(chǎn)生的測(cè)序reads成功比對(duì)到基因組的比例會(huì)高于70% (Total Mapped Reads or Fragments)。本項(xiàng)目所用參考基因組為 hg38。
2.2.3. circRNA 預(yù)測(cè)及鑒定
?? 使用CIRIquant鑒定 circRNA ,并預(yù)測(cè) circRNA 的表達(dá)。目前發(fā)現(xiàn)的circRNAs主要來(lái)源于基因外顯子exon,但還有其他類型,比如來(lái)源于內(nèi)含子intron、基因間intergenic、反義鏈antisense。為了更進(jìn)一步了解鑒定得到的circRNA詳細(xì)信息,隨后進(jìn)行circRNA類型,circRNA 的長(zhǎng)度分布,circRNA 的染色體分布分別進(jìn)行分析,統(tǒng)計(jì)分析圖如下。
result/03.circRNA_info/2.circRNA_length/DYQ-HCT116-input.png | result/03.circRNA_info/2.circRNA_length/DYQ-HCT116-target.png |
result/03.circRNA_info/3.circRNA_karyotype/DYQ-HCT116-input.png | result/03.circRNA_info/3.circRNA_karyotype/DYQ-HCT116-target.png |
result/03.circRNA_info/4.circRNA_type/DYQ-HCT116-input_barplot.png | result/03.circRNA_info/4.circRNA_type/DYQ-HCT116-target_barplot.png |
result/03.circRNA_info/4.circRNA_type/DYQ-HCT116-input_pie.png | result/03.circRNA_info/4.circRNA_type/DYQ-HCT116-target_pie.png |
2.3. circRNA 差異分析
??對(duì)于無(wú)重復(fù)樣本,使用CIRIquant的CIRI_DE工具鑒定差異表達(dá)的circRNA。輸出的 DE_score 綜合了倍數(shù)變化和p值,從而提供了一種有效的方法來(lái)對(duì)差異表達(dá)的circRNA排名。此處我們篩選 |DE_score| > 1
作為顯著差異表達(dá)結(jié)果。
2.3.1. 差異分析結(jié)果文件
文件路徑 | 說(shuō)明 |
---|---|
result/04.DE/targetVSinput_deg_ALL.xls | circRNA差異分析結(jié)果(所有結(jié)果) |
result/04.DE/targetVSinput_deg_all-diff.xls | circRNA差異分析結(jié)果(篩選 |DE_score| > 1 后) |
result/04.DE/targetVSinput_deg_all-diff.bed | circRNA差異分析結(jié)果的bed文件(篩選 |DE_score| > 1 后) |
result/04.DE/targetVSinput_deg_up.xls | 僅上調(diào)circRNA差異分析結(jié)果(篩選 DE_score > 1 后) |
result/04.DE/targetVSinput_deg_down.xls | 僅下調(diào)circRNA差異分析結(jié)果(篩選 DE_score < -1 后) |
result/04.DE/diff-gene-types_count.txt | 所有差異circRNA的host gene的類型統(tǒng)計(jì) |
以上結(jié)果位于文件夾:result/04.DE/
表頭說(shuō)明: (result/04.DE/targetVSinput_deg*.xls
差異分析結(jié)果文件)
表頭 | 說(shuō)明 |
---|---|
circRNA_ID | circRNA名稱 |
Case_BSJ | Case組 反向拼接位點(diǎn) (back-spliced junction) 的reads數(shù)量 |
Case_FSJ | Case組 可變剪切位點(diǎn) (forward-spliced junction) 的reads數(shù)量 |
Case_Ratio | Case組 環(huán)狀NA與線性RNA的比值,計(jì)算方法為 2 * bsj / ( 2 * bsj + fsj) |
Ctrl_BSJ | Ctrl組 反向拼接位點(diǎn) (back-spliced junction) 的reads數(shù)量 |
Ctrl_FSJ | Ctrl組 可變剪切位點(diǎn) (forward-spliced junction) 的reads數(shù)量 |
Ctrl_Ratio | Ctrl組 環(huán)狀NA與線性RNA的比值,計(jì)算方法為 2 * bsj / ( 2 * bsj + fsj) |
DE_score | 差異表達(dá)分?jǐn)?shù)(differential expression score) |
DS_score | 差異剪切分?jǐn)?shù)(differential splicing score) |
change | 標(biāo)注信息,'UP'表示顯著上調(diào),'DOWN'表示顯著下調(diào),'NOT'為表達(dá)沒(méi)有顯著變化。 |
circ_type | 同上。circRNA類型,如exon / intron / intergenic / antisense |
gene_id | 同上。host gene的ensemble id。'NA' 表示沒(méi)有host gene,說(shuō)明該circRNA的類型為 'intergenic' |
gene_name | 同上。host gene的HGNC symbol。'NA'同上 |
gene_type | 同上。host gene的類型。'NA'同上 |
2.3.2. 差異circRNA的基因組可視化
??可將比對(duì)結(jié)果bw文件、CIRIquant鑒定得到的circRNA的bed文件、以及差異circRNA分析結(jié)果同時(shí)放入IGV查看,如:
2.4. 差異circRNA宿主基因富集分析
??我們將差異circRNA的宿主基因,挑選出僅為 protein coding 的基因,用這些基因進(jìn)行后續(xù)富集分析。
??我們根據(jù)基因表達(dá)量分析得到差異基因之后,必須進(jìn)一步落到基因的功能上來(lái)。對(duì)于差異分析而言,往往涉及到成千上萬(wàn)個(gè)基因,這會(huì)使分析變得很復(fù)雜。解決思路是將一個(gè)基因列表分成多個(gè)部分,從而減少分析的復(fù)雜度。為了解決怎么分成不同類,通常會(huì)對(duì)基因功能進(jìn)行富集分析, 期望發(fā)現(xiàn)在生物學(xué)過(guò)程中起關(guān)鍵作用的生物通路, 從而揭示和理解生物學(xué)過(guò)程的基本分子機(jī)制。功能富集分析可以將成百上千個(gè)基因、蛋白或者其他分子分到不同的通路中,以減少分析的復(fù)雜度。另外,在兩種不同實(shí)驗(yàn)條件下,激活的通路顯然比簡(jiǎn)單的基因或蛋白列表更有說(shuō)服力?;蚬δ芨患治鍪紫纫獦?gòu)建基因集( gene set,如 GO 和 KEGG 數(shù)據(jù)庫(kù)等),也就是基因組注釋信息進(jìn)行分類。然后再把我們的目標(biāo)基因集(差異基因集或者其他基因集)映射到背景基因集上,注意區(qū)分注釋與富集。
??我們采用 clusterProfiler 軟件對(duì)差異基因集進(jìn)行 GO 功能富集分析, KEGG 通路富集分析等。富集分析基于超幾何分布原理,其中差異基因集為差異顯著分析所得差異基因并注釋到 GO 或 KEGG 數(shù)據(jù)庫(kù)的基因集,背景基因集為所有進(jìn)行差異顯著分析的基因并注釋到 GO 或 KEGG 數(shù)據(jù)庫(kù)的基因集。富集分析結(jié)果是對(duì)每個(gè)差異比較組合的所有差異基因集、上調(diào)差異基因集、下調(diào)差異基因集進(jìn)行富集。本報(bào)告中展示的表格是選取某一個(gè)比較組合的富集分析結(jié)果,圖片是部分富集分析結(jié)果。
圖 5 基因富集分析原理圖
2.4.1. 富集分析結(jié)果文件
結(jié)果路徑 | 結(jié)果說(shuō)明 |
---|---|
GO富集分析結(jié)果 | |
result/05.Enrichment/*/gene.ego_all-p.adjust1.00.csv | GO富集結(jié)果列表(所有結(jié)果) |
result/05.Enrichment/*/gene.ego_all-p.adjust0.05.csv | GO富集結(jié)果列表(按p.adj<0.05篩選后) |
result/05.Enrichment/*/gene.ego_ALL.csv | GO富集結(jié)果列表(MF、BP、CC所有結(jié)果) |
result/05.Enrichment/*/gene.GO-*-barplot.p* | GO富集分析柱狀圖 |
result/05.Enrichment/*/gene.GO-*-dotplot.p* | GO富集分析散點(diǎn)圖 |
result/05.Enrichment/*/gene.GO-*-DAG.p* | GO富集分析DAG圖 |
KEGG富集分析結(jié)果 | |
result/05.Enrichment/*/gene.KEGG.csv | KEGG富集結(jié)果列表(所有) |
result/05.Enrichment/*/gene.KEGG_significant.csv | KEGG富集結(jié)果列表(按p.adj<0.05篩選后) |
result/05.Enrichment/*/gene.KEGG-*-barplot.p* | KEGG富集分析柱狀圖 |
result/05.Enrichment/*/gene.KEGG-*-dotplot.p* | KEGG富集分析散點(diǎn)圖 |
以上結(jié)果位于文件夾:result/05.Enrichment/
網(wǎng)頁(yè)預(yù)覽圖:
表頭說(shuō)明: (result/05.Enrichment/*/gene.ego_*.csv
GO富集結(jié)果列表)
ID | 對(duì)應(yīng)GO數(shù)據(jù)庫(kù)中的ID |
---|---|
ONTOLOGY | 分子功能(Molecular Function),生物過(guò)程(biological process)和細(xì)胞組成(cellular component) |
Description | GO的描述 |
GeneRatio | 對(duì)應(yīng)GO 差異基因數(shù) / 能夠?qū)?yīng)到GO數(shù)據(jù)庫(kù)中同類型的差異基因數(shù) |
BgRatio | 對(duì)應(yīng)GO包含對(duì)應(yīng)物種的基因數(shù) / GO數(shù)據(jù)庫(kù)中包含對(duì)應(yīng)物種的基因數(shù) |
pvalue | 富集分析得到的p-value |
p.adjust | 校正后的p-value |
qvalue | 富集分析得到的qvalue |
geneID | 富集基因列表 |
Count | 富集基因數(shù)目 |
表頭說(shuō)明: (result/05.Enrichment/*/gene.KEGG*.csv
KEGG富集結(jié)果列表)
ID | 對(duì)應(yīng)PATHWAY數(shù)據(jù)庫(kù)中的ID |
---|---|
Description | PATHWAY的描述 |
GeneRatio | 對(duì)應(yīng)PATHWAY 差異基因數(shù) / 能夠?qū)?yīng)到PATHWAY數(shù)據(jù)庫(kù)中的差異基因數(shù) |
BgRatio | 對(duì)應(yīng)PATHWAY包含對(duì)應(yīng)物種的基因數(shù) / PATHWAY數(shù)據(jù)庫(kù)中包含對(duì)應(yīng)物種的基因數(shù) |
pvalue | 富集分析得到的p-value |
p.adjust | 校正后的p-value |
qvalue | 富集分析得到的qvalue |
geneID | 富集基因列表 |
Count | 富集基因數(shù)目 |
2.4.2. GO功能富集分析
?? GO(Gene Ontology) 是描述基因功能的綜合性數(shù)據(jù)庫(kù),可分為生物過(guò)程( biological process )和細(xì)胞組成( cellular component )分子功能( Molecular Function )三個(gè)部分。 GO 功能富集以 padj 小于 0.05 作為為顯著性富集的閾值,富集結(jié)果見(jiàn)結(jié)果文件。
??從 GO 富集分析結(jié)果中,選取最顯著的 30 個(gè) Term 繪制柱狀圖進(jìn)行展示,若不足 30 個(gè),則繪制所有 Term ,按生物過(guò)程、細(xì)胞組分和分子功能三大類別及差異基因上下調(diào)分類畫的柱狀圖。
??有向無(wú)環(huán)圖 (Directed Acyclic Graph,DAG) 為差異基因 GO 富集分析結(jié)果的圖形化展示方式。圖中,分支代表包含關(guān)系,從上至下所定義的功能范圍越來(lái)越小,選取每個(gè)差異比較組合的 GO 富集結(jié)果最顯著性前 5 位的 GO Term 作為有向無(wú)環(huán)圖的主節(jié)點(diǎn),并通過(guò)包含關(guān)系,將相關(guān)聯(lián)的 GO Term 一起展示,顏色的深淺代表富集程度。我們的項(xiàng)目中分別繪制生物過(guò)程、分子功能和細(xì)胞組分的 DAG 圖。
圖 6 GO富集分析柱狀圖
圖中縱坐標(biāo)為GO Term,橫坐標(biāo)為GO Term富集的顯著性水平,數(shù)值越高越顯著
圖 7 GO富集分析散點(diǎn)圖
圖中橫坐標(biāo)為注釋到GO Term上的差異基因數(shù)與差異基因總數(shù)的比值,縱坐標(biāo)為GO Term
圖 8 GO富集分析DAG圖
每個(gè)節(jié)點(diǎn)代表一個(gè)GO術(shù)語(yǔ),方框代表的是富集程度為TOP5的GO,顏色的深淺代表富集程度,顏色越深就表示富集程度越高,每個(gè)節(jié)點(diǎn)上展示了該TERM的名稱及富集分析的padj
2.4.3. KEGG通路富集分析
?? KEGG(Kyoto Encyclopedia of Genes and Genomes) 是整合了基因組、化學(xué)和系統(tǒng)功能信息的綜合性數(shù)據(jù)庫(kù)。 KEGG 通路富集以 padj 小于 0.05 作為顯著性富集的閾值,富集結(jié)果見(jiàn)結(jié)果文件。
??從 KEGG 富集結(jié)果中,選取最顯著的 20 個(gè) KEGG 通路繪制柱狀圖進(jìn)行展示,若不足 20 個(gè),則繪制所有通路,如下圖所示。圖中橫坐標(biāo)為通路富集的顯著性水平,數(shù)值越高越顯著,縱坐標(biāo)為 KEGG 通路。
??從 KEGG 富集結(jié)果中,選取最顯著的 20個(gè)KEGG 通路繪制散點(diǎn)圖進(jìn)行展示,若不足 20 個(gè),則繪制所有通路,如下圖所示。圖中橫坐標(biāo)為注釋到 KEGG 通路上的差異基因數(shù)與差異基因總數(shù)的比值,縱坐標(biāo)為 KEGG 通路,點(diǎn)的大小代表注釋到 KEGG 通路上的基因數(shù),顏色從紅到紫代表富集的顯著性大小。
圖 9 KEGG富集分析柱狀圖
圖中橫坐標(biāo)為通路富集的顯著性水平,數(shù)值越高越顯著,縱坐標(biāo)為KEGG通路。
圖 10 KEGG富集散點(diǎn)圖
圖中橫坐標(biāo)為注釋到KEGG通路上的差異基因數(shù)與差異基因總數(shù)的比值,縱坐標(biāo)為KEGG通路