亚洲综合无码一级片无码的_国产丝袜一二三四区乱码_欧美福利大片二区_男人边吃奶边做边爱免费

高效、務(wù)實、嚴(yán)謹(jǐn)、敬業(yè)
服務(wù)目錄
技術(shù)服務(wù)
技術(shù)專題
聯(lián)系我們

聯(lián)系我們

廣州賽誠生物科技有限公司
廣州市黃埔區(qū)學(xué)大道攬月路廣州企業(yè)孵化器B座402
電話:020-85625352
手機:18102256923、18102253682
Email:servers@gzscbio.com
Fax:020-85625352
QQ:386244141

項目名稱:circRNA測序與分析報告

所屬分類:生物信息學(xué)分析-報告解讀

聯(lián)系電話:020-85625352

QQ:386244141

Email:servers@gzscbio.com

技術(shù)服務(wù)描述

circRNA測序與分析報告


1. CircRNA背景及分析流程簡介

1.1. 背景簡介

??環(huán)形RNA是一類在真核生物中廣泛存在的具有特殊環(huán)狀結(jié)構(gòu)的非編碼RNA分子。已有文獻(xiàn)表明,在生物體內(nèi),環(huán)形RNA有著miRNA海綿、RBP海綿以及翻譯短肽等多項功能,在許多生物學(xué)過程中發(fā)揮著重要作用。 目前研究表明,大部分環(huán)形RNA來源于蛋白編碼基因的外顯子區(qū)域。在pre-mRNA剪接的過程中,除典型的內(nèi)含子剪接事件外,還可能會發(fā)生5’端到3’端的反向剪接事件,從而形成環(huán)形RNA。因此,剪接產(chǎn)物中環(huán)形RNA所占比例是環(huán)形RNA分析的重要指標(biāo)之一,具有高成環(huán)比例的環(huán)形RNA分子,可能具有更加重要的生物學(xué)功能。 同時,同一基因內(nèi)部也可能產(chǎn)生多種不同的環(huán)形RNA,基因內(nèi)對環(huán)形RNA產(chǎn)生位點的使用偏好,也在一定程度上反映了轉(zhuǎn)錄過程對環(huán)形RNA產(chǎn)生的調(diào)控。因此,環(huán)形RNA轉(zhuǎn)錄本水平的準(zhǔn)確定量,是目前環(huán)形RNA分析的重要基礎(chǔ)。
??為了解決該問題,趙方慶團(tuán)隊開發(fā)了一個新的環(huán)形RNA分析算法。根據(jù)已有工具鑒定出的環(huán)形RNA成環(huán)位點信息,研究人員重構(gòu)了具有反向剪接特征的環(huán)形RNA參考序列,簡化了復(fù)雜的反向剪接位點比對問題,并結(jié)合測序讀段比對到參考基因組和環(huán)形序列的結(jié)果,篩選出了高置信度的來自環(huán)形RNA的讀段,解決了目前環(huán)形RNA識別和定量方法中準(zhǔn)確度低和假陽性率高的問題。作者在模擬數(shù)據(jù)和真實轉(zhuǎn)錄組數(shù)據(jù)中,對多種常用環(huán)形RNA識別軟件的表現(xiàn)進(jìn)行了綜合評估,發(fā)現(xiàn)該研究中開發(fā)的方法在環(huán)形RNA表達(dá)量和成環(huán)比例的計算中,均取得了最佳的結(jié)果。

1.2. 分析流程

??將下機測序數(shù)據(jù)進(jìn)行質(zhì)控,去除接頭及各類低質(zhì)量序列。隨后借助于CIRIquant,使用Hisat2與參考基因組比對,Stringtie進(jìn)行基因水平定量;同時使用bwa-men與參考基因組比對,進(jìn)行circRNA的鑒定,構(gòu)建circRNA參考序列;將構(gòu)建的circRNA序列作為參考基因組使用Hisat2再次進(jìn)行比對,篩選出高置信度的來自環(huán)形RNA的reads;統(tǒng)計circRNA的表達(dá)情況,并注釋circRNA信息。通過對circRNA差異分析,篩選出具有顯著差異的circRNA所對相應(yīng)的基因進(jìn)行后續(xù)富集分析。 circRNA信息分析簡易流程如下所示。


2. 分析結(jié)果

2.1. 測序數(shù)據(jù)質(zhì)量控制

??對原始測序數(shù)據(jù)及去除接頭后的可用數(shù)據(jù)進(jìn)行質(zhì)量評估。測序數(shù)據(jù)一般為雙端測序,因此,每個測序樣本會有兩個測序結(jié)果。

評估的具體內(nèi)容:



文件路徑文件說明
result/01.QC/qc_rawdata/*.htmlRawData-fastqc 文件鏈接
result/01.QC/qc_cleandata/*.htmlCleanData-fastqc 文件鏈接
result/01.QC/qc_Supplement.htmlFastqc 格式補充說明




2.2. CIRIquant分析

2.2.1. CIRIquant分析結(jié)果文件


1 . 比對結(jié)果文件:



結(jié)果路徑結(jié)果說明
result/02.CIRIquant/1.mapping/*.flagstat.txt各個樣本的比對情況統(tǒng)計
result/02.CIRIquant/1.mapping/*.bw與hg38基因組比對的bw結(jié)果



以上結(jié)果位于文件夾:result/02.CIRIquant/1.mapping/

2 . CIRIquant鑒定結(jié)果文件:



結(jié)果路徑結(jié)果說明
result/02.CIRIquant/2.circRNA_detection/*.gtfCIRIquant鑒定circRNA的gtf文件
result/02.CIRIquant/2.circRNA_detection/*.bedCIRIquant鑒定circRNA的bed文件



以上結(jié)果位于文件夾:result/02.CIRIquant/2.circRNA_detection/

3 . CIRIquant鑒定結(jié)果的統(tǒng)計結(jié)果文件:



結(jié)果路徑結(jié)果說明
result/03.circRNA_info/1.circRNA_annotation/*csv鑒定的circRNA的注釋信息表
result/03.circRNA_info/2.circRNA_length/*鑒定的circRNA的長度分布圖
result/03.circRNA_info/3.circRNA_karyotype/*鑒定的circRNA的染色體分布圖
result/03.circRNA_info/4.circRNA_type/*鑒定的circRNA的類型統(tǒng)計圖



以上結(jié)果位于文件夾:result/03.circRNA_info

以上統(tǒng)計圖的可視化文件:result/03.circRNA_info/view.html


表頭說明: (result/03.circRNA_info/1.circRNA_annotation/*csv 鑒定的circRNA的注釋信息表)



表頭說明
seqnames染色體名稱
startcircRNA的起始位置
endcircRNA的終止位置
widthcircRNA長度
strandcircRNA位于參考序列的正鏈(+)或負(fù)鏈(-)上
source注釋來源,CIRIquant
type注釋信息的類型,circRNA
scorecircRNA的CPM值
circ_idcircRNA名稱
circ_typecircRNA類型,如exon / intron / intergenic / antisense
bsj反向拼接位點 (back-spliced junction) 的reads數(shù)量
fsj可變剪切位點 (forward-spliced junction) 的reads數(shù)量
junc_ratio環(huán)狀NA與線性RNA的比值,計算方法為 2 * bsj / ( 2 * bsj + fsj)
gene_idhost gene的ensemble id。'NA' 表示沒有host gene,說明該circRNA的類型為 'intergenic'
gene_namehost gene的HGNC symbol。'NA'同上
gene_typehost gene的類型。'NA'同上




2.2.2. 參考基因組比對

??測序片段(fragments)是隨機打斷的,為了確定這些一段由哪些基因轉(zhuǎn)錄來,需要將質(zhì)控后的clean reads比對到參考基因組上。使用HISAT2軟件將Clean Reads與參考基因組進(jìn)行快速精確的比對,獲取Reads在參考基因組上的定位信息[4]。HISAT2軟件官方手冊。

??如果參考基因組組裝的較為完善,而且所測物種與參考基因組一致,且相關(guān)實驗不存在污染,那么實驗所產(chǎn)生的測序reads成功比對到基因組的比例會高于70% (Total Mapped Reads or Fragments)。本項目所用參考基因組為 hg38。


2.2.3. circRNA 預(yù)測及鑒定

?? 使用CIRIquant鑒定 circRNA ,并預(yù)測 circRNA 的表達(dá)。目前發(fā)現(xiàn)的circRNAs主要來源于基因外顯子exon,但還有其他類型,比如來源于內(nèi)含子intron、基因間intergenic、反義鏈antisense。為了更進(jìn)一步了解鑒定得到的circRNA詳細(xì)信息,隨后進(jìn)行circRNA類型,circRNA 的長度分布,circRNA 的染色體分布分別進(jìn)行分析,統(tǒng)計分析圖如下。



result/03.circRNA_info/2.circRNA_length/Demo-input.png

result/03.circRNA_info/2.circRNA_length/Demo-target.png

result/03.circRNA_info/3.circRNA_karyotype/Demo-input.png

result/03.circRNA_info/3.circRNA_karyotype/Demo-target.png

result/03.circRNA_info/4.circRNA_type/Demo-input_barplot.png

result/03.circRNA_info/4.circRNA_type/Demo-target_barplot.png

result/03.circRNA_info/4.circRNA_type/Demo-input_pie.png

result/03.circRNA_info/4.circRNA_type/Demo-target_pie.png




2.3. circRNA 差異分析

??對于無重復(fù)樣本,使用CIRIquant的CIRI_DE工具鑒定差異表達(dá)的circRNA。輸出的 DE_score 綜合了倍數(shù)變化和p值,從而提供了一種有效的方法來對差異表達(dá)的circRNA排名。此處我們篩選 |DE_score| > 1 作為顯著差異表達(dá)結(jié)果。

2.3.1. 差異分析結(jié)果文件



文件路徑說明
result/04.DE/targetVSinput_deg_ALL.xlscircRNA差異分析結(jié)果(所有結(jié)果)
result/04.DE/targetVSinput_deg_all-diff.xlscircRNA差異分析結(jié)果(篩選 |DE_score| > 1后)
result/04.DE/targetVSinput_deg_all-diff.bedcircRNA差異分析結(jié)果的bed文件(篩選 |DE_score| > 1后)
result/04.DE/targetVSinput_deg_up.xls僅上調(diào)circRNA差異分析結(jié)果(篩選 DE_score > 1后)
result/04.DE/targetVSinput_deg_down.xls僅下調(diào)circRNA差異分析結(jié)果(篩選 DE_score < -1后)
result/04.DE/diff-gene-types_count.txt所有差異circRNA的host gene的類型統(tǒng)計



以上結(jié)果位于文件夾:result/04.DE/


表頭說明: (result/04.DE/targetVSinput_deg*.xls差異分析結(jié)果文件)



表頭說明
circRNA_IDcircRNA名稱
Case_BSJCase組 反向拼接位點 (back-spliced junction) 的reads數(shù)量
Case_FSJCase組 可變剪切位點 (forward-spliced junction) 的reads數(shù)量
Case_RatioCase組 環(huán)狀NA與線性RNA的比值,計算方法為 2 * bsj / ( 2 * bsj + fsj)
Ctrl_BSJCtrl組 反向拼接位點 (back-spliced junction) 的reads數(shù)量
Ctrl_FSJCtrl組 可變剪切位點 (forward-spliced junction) 的reads數(shù)量
Ctrl_RatioCtrl組 環(huán)狀NA與線性RNA的比值,計算方法為 2 * bsj / ( 2 * bsj + fsj)
DE_score差異表達(dá)分?jǐn)?shù)(differential expression score)
DS_score差異剪切分?jǐn)?shù)(differential splicing score)
change標(biāo)注信息,'UP'表示顯著上調(diào),'DOWN'表示顯著下調(diào),'NOT'為表達(dá)沒有顯著變化。
circ_type同上。circRNA類型,如exon / intron / intergenic / antisense
gene_id同上。host gene的ensemble id。'NA' 表示沒有host gene,說明該circRNA的類型為 'intergenic'
gene_name同上。host gene的HGNC symbol。'NA'同上
gene_type同上。host gene的類型。'NA'同上




2.3.2. 差異circRNA的基因組可視化

??可將比對結(jié)果bw文件、CIRIquant鑒定得到的circRNA的bed文件、以及差異circRNA分析結(jié)果同時放入IGV查看,如:


2.4. 差異circRNA宿主基因富集分析

??我們將差異circRNA的宿主基因,挑選出僅為 protein coding 的基因,用這些基因進(jìn)行后續(xù)富集分析。

??我們根據(jù)基因表達(dá)量分析得到差異基因之后,必須進(jìn)一步落到基因的功能上來。對于差異分析而言,往往涉及到成千上萬個基因,這會使分析變得很復(fù)雜。解決思路是將一個基因列表分成多個部分,從而減少分析的復(fù)雜度。為了解決怎么分成不同類,通常會對基因功能進(jìn)行富集分析, 期望發(fā)現(xiàn)在生物學(xué)過程中起關(guān)鍵作用的生物通路, 從而揭示和理解生物學(xué)過程的基本分子機制。功能富集分析可以將成百上千個基因、蛋白或者其他分子分到不同的通路中,以減少分析的復(fù)雜度。另外,在兩種不同實驗條件下,激活的通路顯然比簡單的基因或蛋白列表更有說服力?;蚬δ芨患治鍪紫纫獦?gòu)建基因集( gene set,如 GO 和 KEGG 數(shù)據(jù)庫等),也就是基因組注釋信息進(jìn)行分類。然后再把我們的目標(biāo)基因集(差異基因集或者其他基因集)映射到背景基因集上,注意區(qū)分注釋與富集。

??我們采用 clusterProfiler 軟件對差異基因集進(jìn)行 GO 功能富集分析, KEGG 通路富集分析等。富集分析基于超幾何分布原理,其中差異基因集為差異顯著分析所得差異基因并注釋到 GO 或 KEGG 數(shù)據(jù)庫的基因集,背景基因集為所有進(jìn)行差異顯著分析的基因并注釋到 GO 或 KEGG 數(shù)據(jù)庫的基因集。富集分析結(jié)果是對每個差異比較組合的所有差異基因集、上調(diào)差異基因集、下調(diào)差異基因集進(jìn)行富集。本報告中展示的表格是選取某一個比較組合的富集分析結(jié)果,圖片是部分富集分析結(jié)果。

圖 5 基因富集分析原理圖




2.4.1. 富集分析結(jié)果文件



結(jié)果路徑結(jié)果說明
GO富集分析結(jié)果
result/05.Enrichment/*/gene.ego_all-p.adjust1.00.csvGO富集結(jié)果列表(所有結(jié)果)
result/05.Enrichment/*/gene.ego_all-p.adjust0.05.csvGO富集結(jié)果列表(按p.adj<0.05篩選后)
result/05.Enrichment/*/gene.ego_ALL.csvGO富集結(jié)果列表(MF、BP、CC所有結(jié)果)
result/05.Enrichment/*/gene.GO-*-barplot.p*GO富集分析柱狀圖
result/05.Enrichment/*/gene.GO-*-dotplot.p*GO富集分析散點圖
result/05.Enrichment/*/gene.GO-*-DAG.p*GO富集分析DAG圖
KEGG富集分析結(jié)果
result/05.Enrichment/*/gene.KEGG.csvKEGG富集結(jié)果列表(所有)
result/05.Enrichment/*/gene.KEGG_significant.csvKEGG富集結(jié)果列表(按p.adj<0.05篩選后)
result/05.Enrichment/*/gene.KEGG-*-barplot.p*KEGG富集分析柱狀圖
result/05.Enrichment/*/gene.KEGG-*-dotplot.p*KEGG富集分析散點圖



以上結(jié)果位于文件夾:result/05.Enrichment/

網(wǎng)頁預(yù)覽圖:


表頭說明: (result/05.Enrichment/*/gene.ego_*.csv GO富集結(jié)果列表)



ID對應(yīng)GO數(shù)據(jù)庫中的ID
ONTOLOGY分子功能(Molecular Function),生物過程(biological process)和細(xì)胞組成(cellular component)
DescriptionGO的描述
GeneRatio對應(yīng)GO 差異基因數(shù) / 能夠?qū)?yīng)到GO數(shù)據(jù)庫中同類型的差異基因數(shù)
BgRatio對應(yīng)GO包含對應(yīng)物種的基因數(shù) / GO數(shù)據(jù)庫中包含對應(yīng)物種的基因數(shù)
pvalue富集分析得到的p-value
p.adjust校正后的p-value
qvalue富集分析得到的qvalue
geneID富集基因列表
Count富集基因數(shù)目




表頭說明: (result/05.Enrichment/*/gene.KEGG*.csv KEGG富集結(jié)果列表)



ID對應(yīng)PATHWAY數(shù)據(jù)庫中的ID
DescriptionPATHWAY的描述
GeneRatio對應(yīng)PATHWAY 差異基因數(shù) / 能夠?qū)?yīng)到PATHWAY數(shù)據(jù)庫中的差異基因數(shù)
BgRatio對應(yīng)PATHWAY包含對應(yīng)物種的基因數(shù) / PATHWAY數(shù)據(jù)庫中包含對應(yīng)物種的基因數(shù)
pvalue富集分析得到的p-value
p.adjust校正后的p-value
qvalue富集分析得到的qvalue
geneID富集基因列表
Count富集基因數(shù)目




2.4.2. GO功能富集分析

?? GO(Gene Ontology) 是描述基因功能的綜合性數(shù)據(jù)庫,可分為生物過程( biological process )和細(xì)胞組成( cellular component )分子功能( Molecular Function )三個部分。 GO 功能富集以 padj 小于 0.05 作為為顯著性富集的閾值,富集結(jié)果見結(jié)果文件。

??從 GO 富集分析結(jié)果中,選取最顯著的 30 個 Term 繪制柱狀圖進(jìn)行展示,若不足 30 個,則繪制所有 Term ,按生物過程、細(xì)胞組分和分子功能三大類別及差異基因上下調(diào)分類畫的柱狀圖。

??有向無環(huán)圖 (Directed Acyclic Graph,DAG) 為差異基因 GO 富集分析結(jié)果的圖形化展示方式。圖中,分支代表包含關(guān)系,從上至下所定義的功能范圍越來越小,選取每個差異比較組合的 GO 富集結(jié)果最顯著性前 5 位的 GO Term 作為有向無環(huán)圖的主節(jié)點,并通過包含關(guān)系,將相關(guān)聯(lián)的 GO Term 一起展示,顏色的深淺代表富集程度。我們的項目中分別繪制生物過程、分子功能和細(xì)胞組分的 DAG 圖。


圖 6 GO富集分析柱狀圖

圖中縱坐標(biāo)為GO Term,橫坐標(biāo)為GO Term富集的顯著性水平,數(shù)值越高越顯著



圖 7 GO富集分析散點圖

圖中橫坐標(biāo)為注釋到GO Term上的差異基因數(shù)與差異基因總數(shù)的比值,縱坐標(biāo)為GO Term



圖 8 GO富集分析DAG圖

每個節(jié)點代表一個GO術(shù)語,方框代表的是富集程度為TOP5的GO,顏色的深淺代表富集程度,顏色越深就表示富集程度越高,每個節(jié)點上展示了該TERM的名稱及富集分析的padj



2.4.3. KEGG通路富集分析

?? KEGG(Kyoto Encyclopedia of Genes and Genomes) 是整合了基因組、化學(xué)和系統(tǒng)功能信息的綜合性數(shù)據(jù)庫。 KEGG 通路富集以 padj 小于 0.05 作為顯著性富集的閾值,富集結(jié)果見結(jié)果文件。

??從 KEGG 富集結(jié)果中,選取最顯著的 20 個 KEGG 通路繪制柱狀圖進(jìn)行展示,若不足 20 個,則繪制所有通路,如下圖所示。圖中橫坐標(biāo)為通路富集的顯著性水平,數(shù)值越高越顯著,縱坐標(biāo)為 KEGG 通路。

??從 KEGG 富集結(jié)果中,選取最顯著的 20個KEGG 通路繪制散點圖進(jìn)行展示,若不足 20 個,則繪制所有通路,如下圖所示。圖中橫坐標(biāo)為注釋到 KEGG 通路上的差異基因數(shù)與差異基因總數(shù)的比值,縱坐標(biāo)為 KEGG 通路,點的大小代表注釋到 KEGG 通路上的基因數(shù),顏色從紅到紫代表富集的顯著性大小。


圖 9 KEGG富集分析柱狀圖

圖中橫坐標(biāo)為通路富集的顯著性水平,數(shù)值越高越顯著,縱坐標(biāo)為KEGG通路。



圖 10 KEGG富集散點圖

圖中橫坐標(biāo)為注釋到KEGG通路上的差異基因數(shù)與差異基因總數(shù)的比值,縱坐標(biāo)為KEGG通路