廣州市黃埔區(qū)學(xué)大道攬?jiān)侣窂V州企業(yè)孵化器B座402
電話:020-85625352
手機(jī):18102256923、18102253682
Email:servers@gzscbio.com
Fax:020-85625352
QQ:386244141
項(xiàng)目名稱:motif結(jié)果能給到我們些什么信息?
所屬分類:生物信息學(xué)分析
聯(lián)系電話:020-85625352
QQ:386244141
Email:servers@gzscbio.com
技術(shù)服務(wù)描述
motif結(jié)果能給到我們些什么信息?
1. 背景簡介
1.1. 什么是motif?
??Motif是一段典型的序列或者一個(gè)結(jié)構(gòu)。一般來說,我們稱為基序。一般情況下是指構(gòu)成任何一種特征序列的基本結(jié)構(gòu)。通俗來講,即是有特征的短序列,一般認(rèn)為它是擁有生物學(xué)功能的保守序列,可能包含特異性的結(jié)合位點(diǎn),或者是涉及某一個(gè)特定生物學(xué)過程的有共性的序列區(qū)段。比如蛋白質(zhì)的序列特異性結(jié)合位點(diǎn),如核酸酶和轉(zhuǎn)錄因子。
1.2. 研究motif的意義
??序列基序在基因調(diào)控分析中越來越重要。Motif并不局限于基因組DNA序列還是RNA序列,甚至蛋白質(zhì)序列也可以提取出相應(yīng)的motif。通過序列信息的解析,我們可以解析生物學(xué)過程中的密碼。當(dāng)某一個(gè)大類的序列中,大量重復(fù)出現(xiàn)相同的序列結(jié)構(gòu)的時(shí)候,就可能存在探索它意義的價(jià)值?;趍otif序列的提取,我們可以預(yù)測潛在的結(jié)合位點(diǎn)等等,有助于我們進(jìn)一步理解各生物學(xué)過程中涉及的生物學(xué)意義。比如轉(zhuǎn)錄因子的結(jié)合位點(diǎn),其motif往往意味著某蛋白結(jié)構(gòu)域與DNA堿基序列的相互作用。
1.3. motif的展示形式
??在我們的日常應(yīng)用中,我們經(jīng)常會看到motif這個(gè)詞的出現(xiàn),往往會伴隨著這樣一張logo展示圖。這樣的logo經(jīng)常用于描述序列特征,如DNA中的蛋白質(zhì)結(jié)合位點(diǎn)等。motif logo由每個(gè)位置的一堆字母組成。字母的相對大小表示它們在序列中的頻率。每個(gè)字母的高度與該位置的相應(yīng)堿基的出現(xiàn)頻率成正比,常以bits為單位。每個(gè)位置的字母按照保守性從大到小排列,可以方便的從頂端的字母識別保守序列。
圖1 logo展示圖
??用一段序列來描述所有序列的堿基組成,稱之為一致性序列。當(dāng)一個(gè)位置涉及到多個(gè)堿基出現(xiàn)的時(shí)候,這里就涉及到簡并堿基的使用。
??示例如圖2,在日常使用中,也經(jīng)常用“RRACH”來表示它。這個(gè)“RRACH”就是一種一致性序列的表示方式。
簡并堿基 | 正常堿基 |
---|---|
R | A/G |
Y | C/T |
M | A/C |
K | G/T |
S | G/C |
W | A/T |
H | A/T/C |
B | G/T/C |
V | G/A/C |
D | G/A/T |
N | A/T/C/G |
圖2 logo示例
2. motif如何被預(yù)測?
??HOMER 是一套用于Motif查找和二代數(shù)據(jù)分析的工具。它不僅能檢測已知的motif,還能預(yù)測可能存在的未知motif。 這個(gè)預(yù)測新穎motif算法,設(shè)計(jì)用于在基因組學(xué)應(yīng)用里的調(diào)控元件分析(這里的元件指DNA,而非蛋白質(zhì))。 它采取兩套序列,并試圖識別在其中一套序列上相對于另一套的特定富集的調(diào)控元件(比如說我們的peaks序列相對于整個(gè)基因組序列)。它使用ZOOPS評分(0或1發(fā)生在每條序列上)與超幾何富集計(jì)算(或二項(xiàng)式)來確定motif富集。HOMER也盡力考慮數(shù)據(jù)集里的排序偏差。它的設(shè)計(jì)用于ChIP-Seq和啟動子分析,但可以應(yīng)用于幾乎任何核酸序列的motif發(fā)現(xiàn)。
??我們使用 Homer 子程序 findMotifsGenome.pl
進(jìn)行motif分析, findMotifsGenome.pl
命令用于在基因組區(qū)域中尋找富集Motifs。以下為結(jié)果的詳細(xì)解讀。
3. 結(jié)果列表說明
Demo: motif_ZYN-H3K27ac - Homer Known Motif Enrichment Results
結(jié)果說明:
結(jié)果 | 說明 |
---|---|
homerMotifs.all.motifs | 由所有homerMotifs.motifs*組成的連接文件 |
homerMotifs.motifs10 | de novo 查找motif的輸出文件(motif長度為10) |
homerMotifs.motifs12 | de novo 查找motif的輸出文件(motif長度為12) |
homerMotifs.motifs8 | de novo 查找motif的輸出文件(motif長度為8) |
homerResults.html | 查找已知motifs的格式化輸出。 |
homerResults/ | 子文件夾:包含homerResults.html網(wǎng)頁文件, 包括motif<#>.motif文件,用于尋找每個(gè)motif的具體實(shí)例。 |
knownResults.html | de novo查找motif的格式化輸出。 |
knownResults/ | 子文件夾:包含knownResults.html網(wǎng)頁文件, 包括known<#>.motif文件。 |
knownResults.txt | 包含關(guān)于已知motifs豐富的統(tǒng)計(jì)信息的文本文件(在EXCEL中打開)。 |
motifFindingParameters.txt | 用于執(zhí)行findMotifsGenome.pl的命令,包含分析使用的參數(shù) |
seq.autonorm.tsv | 用于lower-order oligo標(biāo)準(zhǔn)化的autonormalization統(tǒng)計(jì)。 |
3.1. 網(wǎng)頁可視化文件的表頭說明
3.1.1. knownResults.html (Homer Known Motif Enrichment Results)
圖示:
表頭說明:
表頭 | 說明 |
---|---|
Rank | 序號 |
Motif | motif序列可視化 |
P-value | 置信度計(jì)算結(jié)果 |
log P-pvalue | 計(jì)算log10P值結(jié)果 |
q-value (Benjamini) | Benjamini模型計(jì)算的q值 |
# Target Sequences with Motif | 靶標(biāo)序列 |
% of Targets Sequences with Motif | 靶標(biāo)序列占總序列百分比 |
# Background Sequences with Motif | 背景序列 |
% of Background Sequences with Motif | 背景序列占總序列百分比 |
Motif File | motif文件結(jié)果 |
SVG | motif的svg可視化文件 |
3.1.2. homerResults.html (Homer de novo Motif Results)
圖示:
表頭說明:
表頭 | 說明 |
---|---|
Rank | 序號 |
Motif | motif序列可視化 |
P-value | 置信度計(jì)算結(jié)果 |
log P-pvalue | log P-pvalue 值 |
% of Targets | 靶標(biāo)序列占總denovo序列百分比 |
% of Background | 背景序列占總denovo序列百分比 |
STD(Bg STD) | 靶標(biāo)和背景的序列集出現(xiàn)偏離序列中心200bp的標(biāo)準(zhǔn)偏差 |
Best Match/Details | 最為匹配的結(jié)果 |
Motif File | motif文件結(jié)果 |
3.2. 如理解輸出的Motif文件homerMotifs.*.motifs*
?
第一行以一個(gè)“>”開頭,后面跟著各種信息,其他行是每個(gè)位置的各個(gè)核苷酸具體概率(A/C/G/T)。標(biāo)題行實(shí)際上是用制表符分隔的,并包含以下信息:
1. “>”+序列(實(shí)際上不用于任何東西,可以是空的)示例:>NNATGASTCATH
2. motif名稱(如果幾個(gè)motif在同一個(gè)文件中,應(yīng)該是唯一的)。例子:Fra1(bZIP)/BT549-Fra1-ChIP-Seq(GSE46166)/Homer
3. log odds檢測閾值,用于確定結(jié)合的vs未結(jié)合位點(diǎn)。示例:7.011739
4. 富集的log-p值
5. 0(表示向后兼容性的占位符,在舊版本中用于描述“gapped” motif,結(jié)果證明它并不是很有用)
6. 發(fā)生的信息,用逗號分隔,例如: T:4.0(57.14%),B:3353.3(3.23%),P:1e-4
??- T: 帶motif的靶標(biāo)序列數(shù),占靶序列總數(shù)的%
??- B: 帶motif的背景序列數(shù)目,占總背景的%
??- P: 最終富集P值
7. 用逗號分隔的Motif統(tǒng)計(jì)信息(這一個(gè)信息是與鏈有關(guān)的,因?yàn)槲业腂ED文件里鏈的哪一列沒有指定是+/-,我輸入的是.,所以這里沒有第7個(gè)信息),官網(wǎng)的例子:Tpos:100.7,Tstd:32.6,Bpos:100.1,Bstd:64.6,StrandBias:0.0,Multiplicity:1.13
??- Tpos: motif在目標(biāo)序列中的平均位置(0 =序列開始)
??- Tstd: 目標(biāo)序列中位置的標(biāo)準(zhǔn)偏差
??- Bpos: motif在背景序列中的平均位置(0 =序列開始)
??- Bstd: 背景序列中位置的標(biāo)準(zhǔn)差
??- StrandBias: 在+鏈出現(xiàn)與在-鏈出現(xiàn)的log比例。
??- Multiplicity: 在具有一個(gè)或多個(gè)結(jié)合位點(diǎn)的序列中,每個(gè)序列平均出現(xiàn)的次數(shù)。