廣州市黃埔區(qū)學(xué)大道攬?jiān)侣窂V州企業(yè)孵化器B座402
電話:020-85625352
手機(jī):18102256923、18102253682
Email:servers@gzscbio.com
Fax:020-85625352
QQ:386244141
項(xiàng)目名稱:Chip差異Peak分析結(jié)果及報(bào)告
所屬分類:生物信息學(xué)分析-報(bào)告解讀
聯(lián)系電話:020-85625352
QQ:386244141
Email:servers@gzscbio.com
技術(shù)服務(wù)描述
Chip差異Peak分析結(jié)果及報(bào)告
1. 概述
1.1. 背景及分析流程簡(jiǎn)介
??為了理解細(xì)胞中更為復(fù)雜的生物過(guò)程,許多研究已在通過(guò)比較ChIP-seq的差異獲得的不同數(shù)據(jù)。越來(lái)越多的ChIP-seq實(shí)驗(yàn)正在研究多種實(shí)驗(yàn)條件(例如各種治療條件,幾個(gè)不同的時(shí)間點(diǎn)和不同的治療劑量水平)下的轉(zhuǎn)錄因子結(jié)合,組蛋白修飾的差異。差異富集在生物學(xué)和醫(yī)學(xué)研究中已變得具有實(shí)際重要性。 為了建立對(duì)比條件消除誤差,我們對(duì)數(shù)據(jù)進(jìn)行了以下流程處理:我們首先將A與B兩組的結(jié)果進(jìn)行共有Peak區(qū)域基因計(jì)算,對(duì)于有共有區(qū)域(overlap)的Peak,計(jì)算最高峰位點(diǎn)并向其兩側(cè)各延伸250bp作為合并峰計(jì)算區(qū)域,對(duì)每個(gè)區(qū)域進(jìn)行的每組樣本進(jìn)行reads表達(dá)定量,進(jìn)行差異Peak的計(jì)算,篩選出差異Peak,進(jìn)行臨近3K注釋到基因上,進(jìn)行基因集富集分析。
??本組實(shí)驗(yàn)結(jié)果,我們處理的是有兩組重復(fù)的DiffPeak數(shù)據(jù)對(duì)比,我們的差異Peak篩選標(biāo)準(zhǔn)為:|log2FC| > 1 && FDR < 0.05
。
分析流程:
1.2. 結(jié)果匯總
路徑 | 說(shuō)明 |
---|---|
差異Peak分析結(jié)果, 目錄: Results/ | |
Results/*DiffPeakInfo.xls | 差異Peak計(jì)算的所有結(jié)果 |
Results/*DiffPeakInfo.bed | 差異Peak計(jì)算的所有結(jié)果的bed文件 |
Results/*DiffPeakInfo_FC2-q0.05.xls | 差異Peak計(jì)算結(jié)果按閾值篩選后結(jié)果 |
Results/*DiffPeakInfo_FC2-q0.05.bed | 差異Peak計(jì)算結(jié)果按閾值篩選后結(jié)果的bed文件 |
Results/*DiffPeakInfo_FC2-q0.05_GAIN.bed | 差異Peak計(jì)算結(jié)果按閾值篩選后結(jié)果的bed文件(差異上調(diào)) |
Results/*DiffPeakInfo_FC2-q0.05_LOSS.bed | 差異Peak計(jì)算結(jié)果按閾值篩選后結(jié)果的bed文件(差異下調(diào)) |
Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.xls | 差異Peak計(jì)算結(jié)果按閾值篩選后結(jié)果的臨近注釋文件 |
Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.sorted.xls | 同上,差異Peak計(jì)算結(jié)果按閾值篩選后結(jié)果的臨近注釋文件 (按annotation(Promoter), Fold, FDR列排序) |
Results/*DiffPeakInfo_FC2-q0.05_PeakAnno_gene.bed | 注釋到的基因(轉(zhuǎn)錄本)信息標(biāo)記bed文件 |
差異Peak分析繪圖結(jié)果, 目錄: Results/Plot | |
Results/Plot/1cor_peakScore_*.png | peak相關(guān)性熱圖分析 |
Results/Plot/1pca_peakScore_*.png | peak相關(guān)性PCA分析 |
Results/Plot/2cor_readCount_*.png | 共有區(qū)域的readCount相關(guān)性熱圖分析 |
Results/Plot/2pca_readCount_*.png | 共有區(qū)域的readCount相關(guān)性PCA分析 |
Results/Plot/*_1cor.png | 差異Peak相關(guān)性熱圖分析 |
Results/Plot/*_2pca.png | 差異Peak的PCA分析 |
Results/Plot/*_3ma.png | 差異Peak的MA圖 |
Results/Plot/*_4vol.png | 差異Peak的火山圖 |
Results/Plot/*_5box.png | 差異Peak的箱型圖 |
Results/Plot/*_6heatmap.png | 差異Peak的熱圖 |
顯著差異Peak的臨近基因集富集分析, 目錄: Results/Enrich/ | |
Results/3.Enrich/*/ | 各組差異Peak的臨近注釋基因集的富集分析結(jié)果目錄 |
Results/3.Enrich/*.html | 輔助查看富集結(jié)果的網(wǎng)頁(yè)文件 |
Results/3.Enrich/*/*-p.adjust1.00.csv | 富集分析結(jié)果列表(原始) |
Results/3.Enrich/*/*-p.adjust0.05.csv | 富集分析結(jié)果列表(按padj<0.05篩選后) |
Results/3.Enrich/*/*.pdf | 富集分析的繪圖高清文件 |
* 以上重要結(jié)果為加粗顯示。
2. 分析流程
2.1. 重疊區(qū)域的計(jì)算
2.1.1. PeakScore相關(guān)性分析
??為了進(jìn)行后續(xù)的差異Peak的富集程度比較,我們需要合并Peak比較區(qū)域,在overlap的共有區(qū)域計(jì)算前,我們需要先了解各組內(nèi)的peak重復(fù)性情況。 對(duì)Treat組和Control組進(jìn)行PeakScore相關(guān)性熱圖分析,PCA分析。
Results/Plot/1cor_peakScore_Demo_A-B.png | Results/Plot/1cor_peakScore_Demo_C-D.png |
Results/Plot/1pca_peakScore_Demo_A-B.png | Results/Plot/1pca_peakScore_Demo_C-D.png |
2.1.2. readsCount相關(guān)性分析
??我們選取至少含有overlap區(qū)域>=2個(gè)樣本的callPeak區(qū)域結(jié)果,計(jì)算最高峰位點(diǎn)并向其兩側(cè)各延伸250bp作為合并峰計(jì)算區(qū)域,對(duì)每個(gè)區(qū)域每組樣本進(jìn)行reads表達(dá)定量。 隨后,我們對(duì)各組進(jìn)行readsCount的相關(guān)性熱圖分析,PCA分析。
Results/Plot/2cor_readCount_Demo_A-B.png | Results/Plot/2cor_readCount_Demo_C-D.png |
Results/Plot/2pca_readCount_Demo_A-B.png | Results/Plot/2pca_readCount_Demo_C-D.png |
2.2. 差異Peak的計(jì)算
2.2.1. 差異Peak的相關(guān)性計(jì)算及顯著性差異Peak的篩選
??通過(guò)計(jì)算兩組之間的合并區(qū)域的表達(dá)差異,我們能獲得兩組比較計(jì)算的差異Peak所有結(jié)果。 通過(guò)相關(guān)性熱圖及PCA,可以看出組內(nèi)的差異peak計(jì)算的相關(guān)性好壞,一般而言好的結(jié)果能明顯區(qū)分開。 通過(guò)閾值|log2FC| > 1 & FDR < 0.05
進(jìn)行篩選獲得顯著差異Peak篩選結(jié)果,進(jìn)行相關(guān)性熱圖,PCA,火山圖,熱圖繪制如下。
??通過(guò)差異Peak分析,我們得到了基因組范圍內(nèi)的差異Peak信息,為進(jìn)一步得到差異Peak附近的臨近基因信息,我們使用Chipseeker進(jìn)行進(jìn)一步注釋,得到Peak所對(duì)應(yīng)的臨近注釋基因,并給出Peak在Promoter的上下游3k,或之外的Intron、Exon等區(qū)域的位置及距離等信息的注釋文件: Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.xls
。
Results/Plot/Demo_A-vs-B_1cor.png | Results/Plot/Demo_C-vs-D_1cor.png |
Results/Plot/Demo_A-vs-B_2pca.png | Results/Plot/Demo_C-vs-D_2pca.png |
Results/Plot/Demo_A-vs-B_4vol.png | Results/Plot/Demo_C-vs-D_4vol.png |
Results/Plot/Demo_A-vs-B_6heatmap.png | Results/Plot/Demo_C-vs-D_6heatmap.png |
Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.xls
表頭說(shuō)明:
表頭 | 說(shuō)明 |
---|---|
peakname | 差異Peak的name |
seqnames | 差異Peak所在染色體 |
start | 差異Peak在參考序列上的起始位置 |
end | 差異Peak在參考序列上的終止位置 |
width | 差異Peak的長(zhǎng)度信息 |
strand | 正負(fù)鏈信息 |
Conc | Group1和Group2平均值進(jìn)行l(wèi)og2標(biāo)準(zhǔn)化后的計(jì)數(shù) |
Conc_Group1 | Group1進(jìn)行l(wèi)og2標(biāo)準(zhǔn)化后的計(jì)數(shù) |
Conc_Group2 | Group2進(jìn)行l(wèi)og2標(biāo)準(zhǔn)化后的計(jì)數(shù) |
Fold | Group1與Group2的差異倍數(shù)(進(jìn)行l(wèi)og2標(biāo)準(zhǔn)化) |
p.value | 差異Peak的置信度計(jì)算 |
FDR | 差異Peak的多重校驗(yàn)FDR |
change | 上下調(diào)標(biāo)記,上調(diào)標(biāo)記為GAIN,下調(diào)標(biāo)記為L(zhǎng)OSS |
annotation | peak注釋信息(對(duì)于注釋到基因上等注釋信息的描述) |
geneChr | 注釋基因的染色體信息 |
geneStart | 注釋基因的起始位置 |
geneEnd | 注釋基因的終止位置 |
geneLength | 注釋基因的長(zhǎng)度 |
geneStrand | 注釋基因的正負(fù)鏈 |
geneId | 注釋基因的EntrezID |
transcriptId | 注釋基因的轉(zhuǎn)錄本名字 |
distanceToTSS | 被注釋Peak距離TSS的距離 |
ENSEMBL | 注釋基因的ENSEMBL名 |
SYMBOL | 注釋基因的SYMBOL名 |
GENENAME | 注釋基因的基本描述信息 |
2.2.2. 差異Peak注釋基因的富集分析
??將上述臨近注釋得到的基因集,進(jìn)一步進(jìn)行GO和KEGG富集分析,得到差異Peak篩選結(jié)果的臨近注釋基因富集結(jié)果。結(jié)果文件說(shuō)明及解讀,同CHIP標(biāo)準(zhǔn)分析流程報(bào)告。
??結(jié)果目錄: Results/Enrich/
3. 結(jié)果的IGV可視化
??為了得到較為直觀的測(cè)序分析結(jié)果,我們一般需要借助可視化工具,IGV在這個(gè)過(guò)程中扮演十分出色的角色,他不僅展示了不同樣本測(cè)序覆蓋情況,還常常用于聯(lián)合分析,如mRNA的測(cè)序變化與chip測(cè)序的變化。 在此項(xiàng)目中,我們用于差異Peak的篩選與評(píng)估,我們可將分析結(jié)果文件導(dǎo)入,步驟如下:
導(dǎo)入CHIP分析結(jié)果,即前面我們的Chip標(biāo)準(zhǔn)分析結(jié)果中
.bigwig
與.narrowPeak
文件。導(dǎo)入CHIP的差異Peak分析結(jié)果,即本分析中所得到的bed結(jié)果。
調(diào)節(jié)數(shù)據(jù)顯示范圍:
bigwig 高度范圍顯示調(diào)節(jié):按住
ctrl / command
選中多個(gè).bigwig文件,右擊點(diǎn)擊Set Data Range...
。 為方便對(duì)比,在對(duì)比不同區(qū)域Peak時(shí),可手動(dòng)調(diào)節(jié)顯示范圍。bed / gene 重疊區(qū)域展開設(shè)置: 右擊bed文件,點(diǎn)擊
Expanded
設(shè)置展開。搜索感興趣的
Peakname / SYMBOL
: 在第一排第三個(gè)框內(nèi)輸入Peakname / SYMBOL
名,點(diǎn)擊GO即可搜索。如果搜索不到,可嘗試點(diǎn)擊Reload重新加載。
篩選的 Peakname / SYMBOL
的一些方法:
搜索感興趣的Peak,可參考:
Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.sorted.xls
,該文件按annotation(Promoter), Fold, FDR列排序, 即Promoter上游3K區(qū)域差異倍數(shù)較大的結(jié)果將被優(yōu)先排序。 排名較前的結(jié)果具有一定的顯著差異Peak篩選價(jià)值。搜索感興趣的Gene,可根據(jù)生物學(xué)功能研究,挑選出較有意義的功能富集結(jié)果的基因集,反向去看差異Peak變化情況。 上述分析的功能富集結(jié)果具有一定的參考意義。
Demo展示:
??一個(gè)示例如下,在該IGV中通過(guò)可視化,可讀出的信息有:在 A vs B 的差異Peak對(duì)比中, Peakname 為 54218
, 54219
, 54220
, 54221
的這些Peak比較區(qū)域, A相對(duì)B具有顯著下調(diào)趨勢(shì),它們都被臨近注釋到CCL2基因上,注釋類型為3K內(nèi)的Promoter。
示例圖: