亚洲综合无码一级片无码的_国产丝袜一二三四区乱码_欧美福利大片二区_男人边吃奶边做边爱免费

高效、務(wù)實、嚴(yán)謹(jǐn)、敬業(yè)
服務(wù)目錄
技術(shù)服務(wù)
技術(shù)專題
聯(lián)系我們

聯(lián)系我們

廣州賽誠生物科技有限公司
廣州市黃埔區(qū)學(xué)大道攬月路廣州企業(yè)孵化器B座402
電話:020-85625352
手機(jī):18102256923、18102253682
Email:servers@gzscbio.com
Fax:020-85625352
QQ:386244141

項目名稱:micRNA測序與分析報告

所屬分類:生物信息學(xué)分析-報告解讀

聯(lián)系電話:020-85625352

QQ:386244141

Email:servers@gzscbio.com

技術(shù)服務(wù)描述

micRNA測序與分析報告


1. 建庫測序工作流程

1.1. 建庫測序流程

??MicroRNA (miRNA) 是一類長度約為20-24個核苷酸長度的具有調(diào)控功能的非編碼RNA,miRNA 是生物體內(nèi)一類重要的特殊分子,誘導(dǎo)基因沉默,參與細(xì)胞生長、發(fā)育、基因轉(zhuǎn)錄和翻譯等諸多生命活動的調(diào)控過程。

??從RNA樣品到最終分析結(jié)果數(shù)據(jù),需要經(jīng)過樣品檢測、建庫、測序和信息分析等過程,其中測序過程我們采用高通量測序illumina HiSeq/MiSeq測序平臺;illumina測序得到的原始圖像數(shù)據(jù)文件經(jīng)堿基識別(Base Calling)分析轉(zhuǎn)化為原始測序序列(Sequenced Reads),我們稱之為Raw Data或Raw Reads,結(jié)果以FASTQ(簡稱為fq)文件格式存儲,其中包含測序序列(reads)的序列信息以及其對應(yīng)的測序質(zhì)量信息。

??樣品質(zhì)量檢測:利用NanoDrop 2000分光光度計對RNA樣品進(jìn)行初步定量,Aglient 2100對樣品濃度精確定量。RNA樣品總量、濃度、完整性(RIN值,RNA Integrity Number)、純度(OD260/OD280比值)符合收樣立項標(biāo)準(zhǔn)后,進(jìn)入下一步的文庫構(gòu)建。

??文庫構(gòu)建:Total RNA PEG (polyethylene glycol)沉淀,連接3’接頭,PAGE (polyacrylamide gel electrophoresis) 膠分離回收,連接5’接頭,反轉(zhuǎn)錄,PCR擴(kuò)增,文庫切膠回收。

??文庫質(zhì)檢:Q-PCR方法對文庫進(jìn)行精確定量,文庫有效濃度>2nM即可上機(jī)測序。

??上機(jī)測序:將各文庫按照有效濃度及目標(biāo)下機(jī)數(shù)據(jù)量的需求pooling后,進(jìn)行SE75測序。

圖1: Small RNA 文庫構(gòu)建 Workflow


??Small RNA測序的接頭信息:

??RNA 5‘Adapter (RA5), part:

??5’-GTTCAGAGTTCTACAGTCCGACGATC-3’

??RNA 3’Adapter (RA3), part:

??5’-AGATCGGAAGAGCACACGTCT-3’ (1ug流程)

??5’-CTGTAGGCACCATCAATCAGATCGGAAGAGCACACGTCTG-3’ (10ug流程)

2. 信息分析流程

??Raw Data通過去接頭、去低質(zhì)量、去污染、統(tǒng)計序列長度分布等過程完成初級分析;將初級分析得到的clean reads與ncRNA庫比對,分類注釋ncRNA,并去除reads中的rNRA、tRNA、snRNA、snoRNA等;然后再將reads比對到參考基因組、miRBase上,計算miRNA表達(dá)量,注釋已知miRNA、預(yù)測新的miRNA;然后進(jìn)行差異miRNA、靶基因預(yù)測、功能注釋等后續(xù)分析。

miRNA生物信息分析流程圖


2.1. miRNA-seq 測序數(shù)據(jù)質(zhì)量評估

2.1.1. 數(shù)據(jù)質(zhì)量評估 及 數(shù)據(jù)過濾

??對于測序得到的rawdata,我們首先使用fastqc進(jìn)行數(shù)據(jù)質(zhì)量評估,通過結(jié)果,我們可以了解到測序數(shù)據(jù)reads質(zhì)量、長度、堿基分布,序列重復(fù)頻次等基本信息。

??測序得到的raw data,里面含有帶接頭的、低質(zhì)量的reads,為了保證后續(xù)信息分析的質(zhì)量,必須對raw reads進(jìn)行處理,得到clean reads。

??raw data的過濾步驟如下: 去除低質(zhì)量 reads; 去除有5’接頭污染的reads; 去除沒有3’接頭序列; 去除沒有插入片段的reads; 去除長度小于16nt的reads;

??數(shù)據(jù)經(jīng)過以上過濾后,我們對數(shù)據(jù)做一些基本統(tǒng)計。


結(jié)果:



結(jié)果說明結(jié)果文件
原始數(shù)據(jù) RawData QC 結(jié)果00.QC/qc_rawdata/
過濾數(shù)據(jù) CleanData QC 結(jié)果00.QC/qc_cleandata
Trimmed Reads (unique) 結(jié)果文件00.QC/*.trim.collapse.fa




2.2. 數(shù)據(jù)長度分布

??一般來說,小RNA的長度區(qū)間為18~30nt,數(shù)據(jù)過濾完成后,我們統(tǒng)計了clean reads數(shù)目及各自占總reads的百分比,并繪制reads長度分布圖。reads長度分布圖能幫助我們判斷小RNA的種類,如miRNA集中在21或22nt,siRNA集中在24nt,piRNA集中在30nt。

Clean Data Reads 長度分布統(tǒng)計直方圖:

   

Figure 2.2: Small RNA Clean Reads長度分布圖

Clean Reads長度分布直方圖,橫坐標(biāo)為Reads的長度,縱坐標(biāo)為樣品中對應(yīng)該長度的total Reads數(shù)量。



2.3. miRNA基因組比對分析

??我們將Clean Reads 與 mature miRNA, miRNA hairpin, mRNA, mature & primary tRNA, snoRNA, rRNA, other non-coding RNA, and (optional) known RNA 使用bowtie進(jìn)行比對搜索,然后統(tǒng)計reads的比對情況,分析樣本中各類ncRNA的數(shù)目及比例情況,統(tǒng)計結(jié)果如下。過濾出待分析的miRNA以便后續(xù)分析,將clean reads中ncRNA盡可能地去除,便于后續(xù) miRNA 檢測及預(yù)測。

Reads類型分布圖

圖顯示的是各類型的RNA reads和miRNA reads占總distinct reads的比例。


與參考基因組比對質(zhì)控結(jié)果:



結(jié)果說明結(jié)果文件
Trimmed Reads (unique) 與參考基因組的比對結(jié)果(bam)01.Mapping/*.bam
Trimmed Reads (unique) 與參考基因組的比對結(jié)果(bw)01.Mapping/*.bw
各類型RNA統(tǒng)計情況00.QC/annotation.report.csv
與各個smallRNA比對的詳細(xì)結(jié)果01.Mapping/mapped.csv




2.4. 已知 miRNA 的檢測以及 novel miRNA 預(yù)測分析

??首先用去除了ncRNA后的Reads比對miRbase數(shù)據(jù)庫,比對上miRbase中 reads 用于檢測已知成熟的miRNA,并統(tǒng)計其表達(dá)量和RPM值。我們采用miRge軟件來進(jìn)行 miRNA reads 檢測注釋、novel miRNA的預(yù)測、miRNA表達(dá)量的統(tǒng)計。

miRNA分析結(jié)果匯總:



結(jié)果說明結(jié)果文件
基本注釋結(jié)果:
miRNA reads 變體類型注釋結(jié)果02.miRNA/1.isomiR/sample_miRge3.gff
miRNA reads 變體類型可視化統(tǒng)計02.miRNA/1.isomiR/*svg
miRNA堿基編輯分析結(jié)果:
A2I在各個樣本中統(tǒng)計匯總表02.miRNA/2.a2IEditing/a2IEditing.report.csv
A2I在各個樣本中統(tǒng)計匯總表的篩選及簡化信息
( 即匯總表的*.RPM.mismatch、*.AtoI.percentage列 )
02.miRNA/2.a2IEditing/a2IEditing.report.newform.csv
A2I分析的序列及統(tǒng)計詳情信息02.miRNA/2.a2IEditing/a2IEditing.detail.txt
二級結(jié)構(gòu)預(yù)測結(jié)果:
novel miRNA 二級結(jié)構(gòu)預(yù)測結(jié)果02.miRNA/3.novel_predict/*.R1_novel_miRNAs/
novel miRNA 二級結(jié)構(gòu)預(yù)測詳細(xì)信息表格匯總02.miRNA/3.novel_predict/*.R1_novel_miRNAs/*_novel_miRNAs_report.csv



以上miRNA各圖的可視化網(wǎng)頁:02.miRNA/miR_visualization.html

2.4.1. miRNA異構(gòu)體分析

??隨著高通量測序技術(shù)的發(fā)展,早期認(rèn)為的miRNA loci僅產(chǎn)生1條miRNA成熟體序列這一觀點被顛覆。對于某一miRNA來說,它并不是單一的序列,而是由一系列長度/序列及表達(dá)不同的異構(gòu)體 (isomiRs) 組成。這些isomiRs表達(dá)多樣且序列多樣,甚至引入多樣的5'端及種子區(qū)域。特定miRNA位點在疾病組織中可具有異常的表達(dá)模式,現(xiàn)已證實,部分isomiRs具有重要的生物學(xué)功能。

??IsomiRs目前主要分為三類:5′isomiRs3′isomiRspolymorphic isomiRs。IsomiRs的產(chǎn)生機(jī)制主要有:miRNA加工和成熟過程中Darsha和Dicer酶的不精確或選擇性剪切;3'端核苷酸添加;RNA編輯和單核苷酸多態(tài)性( single nucleotide polymorphism,SNP)。主要表現(xiàn)為:5'端修剪;3' 端修剪;3'端核苷酸附加和堿基替換。其中,5'端修剪和堿基替換可發(fā)生在種子區(qū)域內(nèi)部,產(chǎn)生“種子轉(zhuǎn)移”(seed shifting)。

??我們通過序列與miRbase比對的情況,將各個miRNA Reads進(jìn)行isomiR識別,并同時匯總至miRNA reads 注釋結(jié)果中,分類統(tǒng)計,并選取表達(dá)量較高的前20個mirna進(jìn)行各類IsomiRs表達(dá)豐度統(tǒng)計。

圖2.4.1 所有樣本的變體類型分布(isomiRs)

  

 

圖2.4.2 各個樣本的變體分布TOP20的豐度統(tǒng)計

2.4.2. miRNA 堿基編輯

??成熟miRNA序列的第2-8個堿基被稱作“種子”序列,保守性很高。若在這一區(qū)域發(fā)生堿基突變,則可能改變miRNA的靶基因作用位點。我們通過將miRNA序列與miRBase中已知miRNA前體以及成熟miRNA序列進(jìn)行比對(只允許一個位點的錯配)找出發(fā)生了堿基突變的miRNA,統(tǒng)計匯總在該miRNA的堿基突變位點,以及發(fā)生堿基編輯的Reads數(shù)量及百分比,并對統(tǒng)計概況結(jié)果進(jìn)行可視化。

圖2.4.3 鑒定為已存在mirna堿基編輯的在各個樣本中的相應(yīng)readCount占比統(tǒng)計圖


miRNA堿基編輯分析結(jié)果詳細(xì)說明:

  1. A2I在各個樣本中統(tǒng)計匯總表

    表頭說明
    miRNAmiRNA的名稱
    A-to-I position in the miRNAA2I檢測位置,即序列的第幾個堿基
    miRNA sequencemiRNA的序列
    Sample.readCount該樣本miRNA的所有序列的readCount總和
    Sample.readCount.canonical該樣本miRNA的所有序列的readCount總和(篩選低質(zhì)量后)
    Sample.RPM.canonical該樣本miRNA的所有序列的readCount總和(篩選低質(zhì)量后)的RPM值
    Sample.readCount.mismatchA2I檢測的序列readCount總和
    Sample.RPM.mismatchA2I檢測的序列readCount總和的RPM值
    Sample.AtoI.percentageA2I檢測的序列readCount占比,計算方法為:
    Sample.readCount.mismatch/Sample.readCount.canonical*100%
    Sample.AtoI.adjusted.pValueA2I檢測的置信度計算


  2. A2I在各個樣本中統(tǒng)計匯總表的篩選及簡化信息
    ( 即匯總表的*.RPM.mismatch、*.AtoI.percentage列,該表對應(yīng)上面的可視化結(jié)果 )

    表頭說明
    miRNA:positionmiRNA和position位置信息
    sample樣本名
    A-to-I percentageA2I檢測的序列readCount占比,對應(yīng)第一個表中的 Sample.AtoI.percentage
    log2RPMA2I檢測的序列readCount總和的log2RPM值,對應(yīng)第一個表中的A2I檢測的序列
    readCount總和的RPM值Sample.RPM.mismatch,進(jìn)行l(wèi)og2計算


  3. A2I分析的序列及統(tǒng)計詳情信息

    • 每一個miRNA塊,包含3小塊內(nèi)容:原始序列、篩選后的序列統(tǒng)計、篩選后的序列。重復(fù)的miRNA塊代表不同樣本,順序為 A2I在各個樣本中統(tǒng)計匯總表 的樣本信息。

    • 每一行序列包含3個信息, miRNA sequence(reads序列),*.readCount(Count計數(shù)),Filter(是否篩選到后續(xù)進(jìn)行堿基編輯分析)

2.4.3. novel miRNA 預(yù)測及二級結(jié)構(gòu)分析

??miRge根據(jù)序列特征,堿基配對原則,最小自由能等特征模型,進(jìn)行新穎的miRNA及二級結(jié)構(gòu)預(yù)測。預(yù)測示意圖如下。結(jié)果見:02.miRNA/3.novel_predict/

圖2.4.4 新miRNA的二級結(jié)構(gòu)預(yù)測示意圖


2.5. miRNA 定量分析


2.5.1. 樣本間相關(guān)性分析

??生物學(xué)重復(fù)通常是任何生物學(xué)實驗所必須的,目前主流期刊也基本要求生物學(xué)重復(fù)。生物學(xué)重復(fù)主要有兩個用途:一個是證明所涉及的生物學(xué)實驗操作不是偶然,而是可重復(fù)的。另一個是為了確保后續(xù)的差異分析得到更可靠的結(jié)果。樣品間基因表達(dá)水平相關(guān)性是檢驗實驗可靠性和樣本選擇是否合理的重要指標(biāo)。相關(guān)系數(shù)越接近1,表明樣品之間表達(dá)模式的相似度越高。Encode計劃建議皮爾遜相關(guān)系數(shù)的平方(R2)大于0.92(理想的取樣和實驗條件下)。具體的項目操作中,我們要求生物學(xué)重復(fù)樣品間R2至少要大于0.8,否則需要對樣品做出合適的解釋,或者重新進(jìn)行實驗。根據(jù)各樣本所有基因的表達(dá)值計算組內(nèi)及組間樣本的相關(guān)性系數(shù),繪制成熱圖,可直觀顯示組間樣本差異及組內(nèi)樣本重復(fù)情況。樣本間相關(guān)性系數(shù)越高,其表達(dá)模式越為接近,樣本相關(guān)性熱圖如下圖所示。



圖 2.5.1. 樣本間相關(guān)性熱圖

圖中橫縱坐標(biāo)為各樣本相關(guān)系數(shù)的平方

結(jié)果文件:

樣本間相關(guān)性熱圖結(jié)果:04.DE/Quant/cor_pheatmap*


2.5.2. 主成分分析

??主成分分析(PCA)也常用來評估組間差異及組內(nèi)樣本重復(fù)情況,PCA采用線性代數(shù)的計算方法,對數(shù)以萬計的基因變量進(jìn)行降維及主成分提取。我們對所有樣本的基因表達(dá)值進(jìn)行PCA分析,如下圖所示。理想條件下,PCA圖中,組間樣本應(yīng)該分散,組內(nèi)樣本應(yīng)該聚在一起。

圖 2.5.2. 主成分分析結(jié)果圖

圖中橫坐標(biāo)為第一主成分,縱坐標(biāo)為第二主成分

結(jié)果文件:

主成分分析結(jié)果:04.DE/Quant/pca*

2.6. miRNA 差異分析

??基因表達(dá)定量完成后,需要對其表達(dá)數(shù)據(jù)進(jìn)行統(tǒng)計學(xué)分析,篩選樣本在不同狀態(tài)下表達(dá)水平顯著差異的基因。差異分析主要分為三個步驟。

  • 首先對原始的readcount進(jìn)行標(biāo)準(zhǔn)化(normalization),主要是對測序深度的校正。

  • 然后統(tǒng)計學(xué)模型進(jìn)行假設(shè)檢驗概率(pvalue)的計算

  • 最后進(jìn)行多重假設(shè)檢驗校正,得到FDR值(錯誤發(fā)現(xiàn)率,padj是其常見形式)[1-2]。

??針對不同的實驗情況,我們選用合適的軟件進(jìn)行基因表達(dá)差異顯著性分析,具體如下表所示。


1 表達(dá)差異分析所用軟件及差異基因篩選標(biāo)準(zhǔn)


類型軟件標(biāo)準(zhǔn)化方法pvalue計算模型FDR計算方法差異基因篩選標(biāo)準(zhǔn)
有生物學(xué)重復(fù)DESeq2(Anders et al, 2014)DESeq負(fù)二項分布BH|log2(FoldChange)| > 0 & padj < 0.05
無生物學(xué)重復(fù)edgeR(Robinson et al, 2010)TMM負(fù)二項分布BH|log2(FoldChange)| > 1 & padj < 0.05


??若按照以上標(biāo)準(zhǔn)篩選得到的差異基因過少(低于100),很有可能導(dǎo)致后面的功能富集分析沒有顯著性結(jié)果,所以,我們會根據(jù)項目的具體情況,適當(dāng)?shù)亟档秃Y選差異基因的閾值標(biāo)準(zhǔn)。若項目實驗只關(guān)注某幾個基因的表達(dá)情況(如基因敲除),不在意富集結(jié)果,從下面的差異分析表格中篩選關(guān)注的那幾個基因即可。

??一般來說,如果一個基因在兩組樣品中的表達(dá)量差異達(dá)到兩倍以上,我們認(rèn)為這樣的基因是具有表達(dá)差異的。為了判斷兩個樣品之間的表達(dá)量差異究竟是由于各種誤差導(dǎo)致的還是本質(zhì)差異,我們需要對所有基因在這兩個樣本中的表達(dá)量數(shù)據(jù)進(jìn)行假設(shè)檢驗。而轉(zhuǎn)錄組分析是針對成千上萬個基因進(jìn)行的,這樣會導(dǎo)致假陽性的累積,基因數(shù)目越多,假設(shè)檢驗的假陽性累積程度會越高,所以引入padj對假設(shè)檢驗的P-value進(jìn)行校正,從而控制假陽性的比例[3]

??差異基因的篩選標(biāo)準(zhǔn)是非常重要的,我們給出的標(biāo)準(zhǔn)|log2(FoldChange)| > 1 & padj< 0.05是常用的經(jīng)驗值,在實際項目中可以根據(jù)情況靈活選擇。例如,差異倍數(shù)可以選擇1.5倍,也可以選擇3倍,padj常用的閾值包括0.01、0.05、0.1等。若按照以上標(biāo)準(zhǔn)篩選得到的差異基因過少,很有可能導(dǎo)致后?的功能富集分析沒有顯著性結(jié)果。若項目實驗只關(guān)注某幾個基因的表達(dá)情況(如基因敲除),不在意富集結(jié)果,從下面的差異分析表格中篩選關(guān)注的那幾個基因即可。反之,如果得到的差異基因數(shù)目過多,不利于后續(xù)目標(biāo)基因的篩選,這個時候可使用更嚴(yán)格的閾值標(biāo)準(zhǔn)進(jìn)行篩選,則可以使用更嚴(yán)格的閾值標(biāo)準(zhǔn)進(jìn)行篩選。


2.6.1. 差異miRNA的篩選

??通過Deseq2進(jìn)行差異分析,我們通常采用 |log2FC|>1 & padj < 0.05 進(jìn)行差異miRNA的篩選,差異計算結(jié)果如下。

結(jié)果文件:



結(jié)果說明結(jié)果文件
定量分析表達(dá)矩陣結(jié)果04.DE/miR.Counts.csv
差異miRNA分析結(jié)果(ALL)04.DE/Allgene_anno_ALL.xls
差異miRNA分析結(jié)果(篩選后)04.DE/Allgene_anno.xls




04.DE/Allgene_anno.xls表頭



表頭說明
ENSEMBL差異miRNA的ENSEMBL名
pvalue差異miRNA的置信度計算結(jié)果
padj差異miRNA的多重校驗FDR
log2FCTreat組 vs Control組 差異倍數(shù) 的log2標(biāo)準(zhǔn)化結(jié)果
FCTreat組 vs Control組 差異倍數(shù)
log2FC_absTreat組 vs Control組 差異倍數(shù) 的log2標(biāo)準(zhǔn)化結(jié)果的絕對值(此列便于篩選log2FC閾值)
FC_HvsL高表達(dá)組 vs 低表達(dá)組 差異倍數(shù) (此列便于篩選FC閾值)
change使用本次分析的閾值,對差異miRNA的上下調(diào)標(biāo)記
miRNA差異miRNA的miRNA名
ENTREZID差異miRNA的ENTREZID號
GENENAME差異miRNA的基本描述信息
baseMean差異miRNA的表達(dá)量標(biāo)準(zhǔn)化后的平均值
Samples*樣本的原始表達(dá)矩陣表達(dá)量結(jié)果
Samples*_normal樣本的表達(dá)矩陣標(biāo)準(zhǔn)化后的結(jié)果




2.6.2. 差異miRNA的熱圖聚類

??將所有比較組的差異miRNA取并集之后作為差異miRNA集。兩組以上的實驗,可對差異miRNA集進(jìn)行聚類分析,將表達(dá)模式相近的基因聚在一起。我們采用主流的層次聚類對基因的表達(dá)值進(jìn)行聚類分析,對行(row)進(jìn)行均一化處理(Z-score)。熱圖中表達(dá)模式相近的基因或樣本會被聚集在一起,每個方格中的顏色反映的不是基因表達(dá)值,而是表達(dá)數(shù)據(jù)的行進(jìn)行均一化處理后得到的數(shù)值(一般在-1到1之間),所以熱圖中的顏色只能橫向比較(同一基因在不同樣本中的表達(dá)情況),不能縱向比較(同一樣本不同基因的表達(dá)情況)。結(jié)果文件中既有組間的聚類,也有樣品間的聚類。結(jié)題報告展示了樣品間的聚類,具體如下圖所示。


圖 2.6.2. 差異表達(dá)基因聚類熱圖

圖中橫坐標(biāo)為樣品名,縱坐標(biāo)為差異miRNA歸一化后的數(shù)值,顏色越紅,表達(dá)量越高,越藍(lán),表達(dá)量越低。


結(jié)果文件:

差異miRNA的熱圖結(jié)果:04.DE/heatmap/


2.6.3. 差異miRNA的火山圖分布

??火山圖可直觀展示每個比較組合的差異miRNA分布情況,如下圖所示。圖中橫坐標(biāo)表示基因在處理和對照兩組中的表達(dá)倍數(shù)變化(log2FoldChange),縱坐標(biāo)表示基因在處理和對照兩組中表達(dá)差異的顯著性水平(-log10padj或-log10pvalue)。為上調(diào)基因用紅色點表示,下調(diào)基因用藍(lán)色點表示。

圖 2.6.3. 差異miRNA火山圖

圖中橫坐標(biāo)為log2FoldChange值,縱坐標(biāo)為-log10padj或-log10pvalue,藍(lán)色的虛線表示差異基因篩選標(biāo)準(zhǔn)的閾值線


結(jié)果文件:

差異基因的火山圖結(jié)果:04.DE/volcano/


2.7. 靶基因預(yù)測

??miRNA是一類在生物體內(nèi)起到重要調(diào)控作用的的小片段非編碼RNA。一般認(rèn)為miRNA通過和mRNA的結(jié)合,可以抑制mRNA的表達(dá),從而影響到Gene的表達(dá)。

2.7.1. 靶基因預(yù)測結(jié)果

??目前miRNA的靶基因預(yù)測軟件主要是依據(jù)miRNA與其靶位點的互補性、miRNA與其靶位點的調(diào)控關(guān)系、miRNA靶位點的保守性、miRNA-mRNA雙鏈之間的熱穩(wěn)定性及附近序列的二級結(jié)構(gòu)等原則設(shè)計的。 目前miRNA預(yù)測主要基于算法預(yù)測,目前也有一部分以實驗結(jié)果為收集對象的數(shù)據(jù)庫。使用算法預(yù)測的數(shù)據(jù)庫,有如 TargetScan、miRDB、RNAhybridDIANA-microT-CDS 等。以實驗實驗驗證的收集的靶標(biāo)相互作用數(shù)據(jù)庫,有如 miRTarBase、Tarbase v8 等。 考慮到研究時效性,我們選擇基于miRbase22為基礎(chǔ)研究的數(shù)據(jù)庫,在此基礎(chǔ)上篩選出近5年內(nèi)較新的數(shù)據(jù)庫。

??其中,miRDB數(shù)據(jù)庫 是根據(jù) “miRNA通過下調(diào)其靶基因的表達(dá)” miRNA主要功能特征,采用機(jī)器學(xué)習(xí)來進(jìn)行模型預(yù)測得到的靶標(biāo)數(shù)據(jù)庫。它通過采用大量RNA數(shù)據(jù)集,使用 “過表達(dá)的miRNA“ 及 “下調(diào)的轉(zhuǎn)錄本” 進(jìn)一步量化miRNA靶向下調(diào)的特征,采用SVM算法開發(fā)了預(yù)測模型 MirTarget。 該算法結(jié)合實驗數(shù)據(jù)同時比較 TargetScan,DIANA-MicroT,miRanda 和 PITA 另外四種預(yù)測算法,獲得了最優(yōu)表現(xiàn)。 該模型對于每個候選靶標(biāo)基因,它都會生成由SVM計算出的概率分?jǐn)?shù),該分?jǐn)?shù)反映了預(yù)測結(jié)果的統(tǒng)計置信度,分?jǐn)?shù)越高,置信度越高。所有預(yù)測目標(biāo)的目標(biāo)預(yù)測分?jǐn)?shù)在50到100之間,一般而言,預(yù)測得分 > 80 的預(yù)測目標(biāo)具有較高的可信度。如果分?jǐn)?shù)低于60,則需要謹(jǐn)慎選擇,一般需要提供其他證據(jù)支持。

??TargetScan數(shù)據(jù)庫 則基于序列互補原則,找到比對到靶 3'UTR 的保守性 8 mer、7 mer 或 6 mer 位點(seed match 序列),進(jìn)一步根據(jù)熱力學(xué)穩(wěn)定性篩選得到 miRNA 的靶基因。 隨后,對于不具備保守性的 seed match 區(qū)域計算相應(yīng)的 context score。 將保守和不保守區(qū)域的 context score 進(jìn)行排序即得到 context score percentile。 一般考慮 context score percentile > 90 為預(yù)測的可能具有功能的 miRNA 的靶基因。

??綜上,miRDB數(shù)據(jù)庫主要通過miRNA-mRNA調(diào)控關(guān)系來進(jìn)行量化計算,而TargetScan通過序列互補原則篩選后再進(jìn)行熱穩(wěn)定性量化計算,前者相較于后者更有說服力,而后者得到的數(shù)據(jù)較為全面。我們綜合兩者,通過標(biāo)準(zhǔn) miRDB Score >= 80 & TargetScan context score percentile >= 90 的靶基因作為預(yù)測結(jié)果。通過預(yù)測給出的miRNA-靶基因?qū)?,用于后續(xù)進(jìn)一步網(wǎng)絡(luò)圖或富集分析。



圖 2.7.1. TargetScan vs miRDB 的靶基因交集veen圖


結(jié)果文件:

  • miRDB/TargetScan預(yù)測結(jié)果:

    結(jié)果說明結(jié)果文件
    miRDB預(yù)測結(jié)果(原始)05.Target/*/Res_miRDB/Res_*.xls
    miRDB預(yù)測結(jié)果(miRDB Score >= 80過濾后)05.Target/*/Res_miRDB/Res_*.sig.xls
    miRDB預(yù)測結(jié)果(過濾情況統(tǒng)計)05.Target/*/Res_miRDB/Res_*.Summary.xls
    TargetScan預(yù)測結(jié)果(原始)05.Target/*/Res_TargetScan/Res_*.xls
    TargetScan預(yù)測結(jié)果(TargetScan score >= 90過濾后)05.Target/*/Res_TargetScan/Res_*.sig.xls
    TargetScan預(yù)測結(jié)果(過濾情況統(tǒng)計)05.Target/*/Res_TargetScan/Res_*.Summary.xls
  • miRDB/TargetScan預(yù)測結(jié)果過濾后的交集結(jié)果:

    結(jié)果說明結(jié)果文件
    miRDB/TargetScan兩者過濾后預(yù)測結(jié)果交集統(tǒng)計(總表)05.Target/*/Compare/Compare_diffMirna2_ALL.xls
    miRDB/TargetScan兩者過濾后預(yù)測結(jié)果交集統(tǒng)計(僅共存的)
    (當(dāng)兩者中出現(xiàn)僅有一個軟件有結(jié)果時,則按一個軟件篩選)
    05.Target/*/Compare/Compare_diffMirna2.xls
    僅共存列表的各個miRNA的靶基因數(shù)量統(tǒng)計05.Target/*/Compare/Compare_Summary_miRNA.xls
    僅共存列表的各個靶基因的相應(yīng)miRNA數(shù)量統(tǒng)計05.Target/*/Compare/Compare_Summary_SYMBOL.xls
    交集veen統(tǒng)計文件夾05.Target/*/Compare/veen

以上結(jié)果均位于文件夾: 05.Target/

Results/05.Target/Compare/veen/ 交集veen統(tǒng)計文件夾說明



表頭說明
所有基因
??比較組A和B的所有基因compare/union0_all_*
??比較組A的基因compare/union1_A_*
??比較組B的基因compare/union2_B_*
共有基因
??比較組的共有基因compare/com_all_*
特有基因
??比較組A和B的特有基因compare/diff0_all_*
??比較組A的特有基因compare/diff1_A_*
??比較組B的特有基因compare/diff2_B_*
比較組A和B的veen圖及相關(guān)說明compare/venn_gene_*




2.8. 富集分析

??我們根據(jù)基因表達(dá)量分析得到差異基因之后,必須進(jìn)一步落到基因的功能上來。對于轉(zhuǎn)錄組分析而言,往往涉及到成千上萬個基因,這會使分析變得很復(fù)雜。解決思路是將一個基因列表分成多個部分,從而減少分析的復(fù)雜度。為了解決怎么分成不同類,通常會對基因功能進(jìn)行富集分析, 期望發(fā)現(xiàn)在生物學(xué)過程中起關(guān)鍵作用的生物通路, 從而揭示和理解生物學(xué)過程的基本分子機(jī)制。功能富集分析可以將成百上千個基因、蛋白或者其他分子分到不同的通路中,以減少分析的復(fù)雜度。另外,在兩種不同實驗條件下,激活的通路顯然比簡單的基因或蛋白列表更有說服力?;蚬δ芨患治鍪紫纫獦?gòu)建基因集(gene set,如GOKEGG數(shù)據(jù)庫等),也就是基因組注釋信息進(jìn)行分類。然后再把我們的目標(biāo)基因集(差異基因集或者其他基因集)映射到背景基因集上,注意區(qū)分注釋與富集。

??我們采用clusterProfiler軟件對差異基因集進(jìn)行GO功能富集分析,KEGG通路富集分析等。富集分析基于超幾何分布原理,其中差異基因集為差異顯著分析所得差異基因并注釋到GOKEGG數(shù)據(jù)庫的基因集,背景基因集為所有進(jìn)行差異顯著分析的基因并注釋到GOKEGG數(shù)據(jù)庫的基因集。富集分析結(jié)果是對每個差異比較組合的所有差異基因集、上調(diào)差異基因集、下調(diào)差異基因集進(jìn)行富集。本報告中展示的表格是選取某一個比較組合的富集分析結(jié)果,圖片是所有組合的富集分析結(jié)果。

圖 2.8.1. 基因富集分析原理圖




2.8.1. 富集分析結(jié)果文件



結(jié)果說明結(jié)果路徑
GO富集分析結(jié)果
GO富集結(jié)果列表(所有結(jié)果)06.ENRICH/*/gene.ego_all-p.adjust1.00.csv
GO富集結(jié)果列表(按p.adj<0.05篩選后)06.ENRICH/*/gene.ego_all-p.adjust0.05.csv
GO富集結(jié)果列表(MF、BP、CC所有結(jié)果)06.ENRICH/*/gene.ego_ALL.csv
GO富集分析柱狀圖06.ENRICH/*/gene.GO-*-barplot.p*
GO富集分析散點圖06.ENRICH/*/gene.GO-*-dotplot.p*
GO富集分析DAG圖06.ENRICH/*/gene.GO-*-DAG.p*
KEGG富集分析結(jié)果
KEGG富集結(jié)果列表(所有)06.ENRICH/*/gene.KEGG.csv
KEGG富集結(jié)果列表(按p.adj<0.05篩選后)06.ENRICH/*/gene.KEGG_significant.csv
KEGG富集分析柱狀圖06.ENRICH/*/gene.KEGG-*-barplot.p*
KEGG富集分析散點圖06.ENRICH/*/gene.KEGG-*-dotplot.p*



結(jié)果文件夾:


表頭說明: (Results/*enrich_*/gene.ego_*.csv GO富集結(jié)果列表)


ID對應(yīng)GO數(shù)據(jù)庫中的ID
ONTOLOGY分子功能(Molecular Function),生物過程(biological process)和細(xì)胞組成(cellular component)
DescriptionGO的描述
GeneRatio對應(yīng)GO 差異基因數(shù) / 能夠?qū)?yīng)到GO數(shù)據(jù)庫中同類型的差異基因數(shù)
BgRatio對應(yīng)GO包含對應(yīng)物種的基因數(shù) / GO數(shù)據(jù)庫中包含對應(yīng)物種的基因數(shù)
pvalue富集分析得到的p-value
p.adjust校正后的p-value
qvalue富集分析得到的qvalue
Count富集基因數(shù)目
ENTREZID富集基因列表(ENTREZID)
SYMBOL富集基因列表(SYMBOL)



表頭說明: (Results/*enrich_*/gene.KEGG*.csv KEGG富集結(jié)果列表)


ID對應(yīng)PATHWAY數(shù)據(jù)庫中的ID
DescriptionPATHWAY的描述
GeneRatio對應(yīng)PATHWAY 差異基因數(shù) / 能夠?qū)?yīng)到PATHWAY數(shù)據(jù)庫中的差異基因數(shù)
BgRatio對應(yīng)PATHWAY包含對應(yīng)物種的基因數(shù) / PATHWAY數(shù)據(jù)庫中包含對應(yīng)物種的基因數(shù)
pvalue富集分析得到的p-value
p.adjust校正后的p-value
qvalue富集分析得到的qvalue
Count富集基因數(shù)目
ENTREZID富集基因列表(ENTREZID)
SYMBOL富集基因列表(SYMBOL)



2.8.2. GO功能富集分析

??GO(Gene Ontology)是描述基因功能的綜合性數(shù)據(jù)庫,可分為生物過程(biological process)和細(xì)胞組成(cellular component)分子功能(Molecular Function)三個部分。GO功能富集以padj小于0.05作為為顯著性富集的閾值,富集結(jié)果見結(jié)果文件。

??從GO富集分析結(jié)果中,選取最顯著的30Term繪制柱狀圖進(jìn)行展示,若不足30個,則繪制所有Term,按生物過程、細(xì)胞組分和分子功能三大類別及差異基因上下調(diào)分類畫的柱狀圖。

??有向無環(huán)圖(Directed Acyclic Graph,DAG)為差異基因GO富集分析結(jié)果的圖形化展示方式。圖中,分支代表包含關(guān)系,從上至下所定義的功能范圍越來越小,選取每個差異比較組合的GO富集結(jié)果最顯著性前5位的GO Term作為有向無環(huán)圖的主節(jié)點,并通過包含關(guān)系,將相關(guān)聯(lián)的GO Term一起展示,顏色的深淺代表富集程度。我們的項目中分別繪制生物過程、分子功能和細(xì)胞組分的DAG圖。


圖 2.8.2.1. GO富集分析柱狀圖

圖中縱坐標(biāo)為GO Term,橫坐標(biāo)為GO Term富集的顯著性水平,數(shù)值越高越顯著

圖 2.8.2.2. GO富集分析散點圖

圖中橫坐標(biāo)為注釋到GO Term上的差異基因數(shù)與差異基因總數(shù)的比值,縱坐標(biāo)為GO Term

圖 2.8.2.3. GO富集分析DAG圖

每個節(jié)點代表一個GO術(shù)語,方框代表的是富集程度為TOP5的GO,顏色的深淺代表富集程度,顏色越深就表示富集程度越高,每個節(jié)點上展示了該TERM的名稱及富集分析的padj



2.8.3. KEGG通路富集分析

??KEGG(Kyoto Encyclopedia of Genes and Genomes)是整合了基因組、化學(xué)和系統(tǒng)功能信息的綜合性數(shù)據(jù)庫。KEGG通路富集以padj小于0.05作為顯著性富集的閾值,富集結(jié)果見結(jié)果文件。

??從KEGG富集結(jié)果中,選取最顯著的20KEGG通路繪制柱狀圖進(jìn)行展示,若不足20個,則繪制所有通路,如下圖所示。圖中橫坐標(biāo)為通路富集的顯著性水平,數(shù)值越高越顯著,縱坐標(biāo)為KEGG通路。

??從KEGG富集結(jié)果中,選取最顯著的20個KEGG通路繪制散點圖進(jìn)行展示,若不足20個,則繪制所有通路,如下圖所示。圖中橫坐標(biāo)為注釋到KEGG通路上的差異基因數(shù)與差異基因總數(shù)的比值,縱坐標(biāo)為KEGG通路,點的大小代表注釋到KEGG通路上的基因數(shù),顏色從紅到紫代表富集的顯著性大小。


圖 2.8.3.1. KEGG富集分析柱狀圖

圖中橫坐標(biāo)為通路富集的顯著性水平,數(shù)值越高越顯著,縱坐標(biāo)為KEGG通路。

圖 2.8.3.2. KEGG富集散點圖

圖中橫坐標(biāo)為注釋到KEGG通路上的差異基因數(shù)與差異基因總數(shù)的比值,縱坐標(biāo)為KEGG通路