亚洲综合无码一级片无码的_国产丝袜一二三四区乱码_欧美福利大片二区_男人边吃奶边做边爱免费

高效、務(wù)實(shí)、嚴(yán)謹(jǐn)、敬業(yè)
服務(wù)目錄
技術(shù)服務(wù)
技術(shù)專題
聯(lián)系我們

聯(lián)系我們

廣州賽誠生物科技有限公司
廣州市黃埔區(qū)學(xué)大道攬?jiān)侣窂V州企業(yè)孵化器B座402
電話:020-85625352
手機(jī):18102256923、18102253682
Email:servers@gzscbio.com
Fax:020-85625352
QQ:386244141

項(xiàng)目名稱:motif結(jié)果能給到我們些什么信息?

所屬分類:生物信息學(xué)分析

聯(lián)系電話:020-85625352

QQ:386244141

Email:servers@gzscbio.com

技術(shù)服務(wù)描述

motif結(jié)果能給到我們些什么信息?


1. 背景簡介

1.1. 什么是motif?

??Motif是一段典型的序列或者一個(gè)結(jié)構(gòu)。一般來說,我們稱為基序。一般情況下是指構(gòu)成任何一種特征序列的基本結(jié)構(gòu)。通俗來講,即是有特征的短序列,一般認(rèn)為它是擁有生物學(xué)功能的保守序列,可能包含特異性的結(jié)合位點(diǎn),或者是涉及某一個(gè)特定生物學(xué)過程的有共性的序列區(qū)段。比如蛋白質(zhì)的序列特異性結(jié)合位點(diǎn),如核酸酶和轉(zhuǎn)錄因子。

1.2. 研究motif的意義

??序列基序在基因調(diào)控分析中越來越重要。Motif并不局限于基因組DNA序列還是RNA序列,甚至蛋白質(zhì)序列也可以提取出相應(yīng)的motif。通過序列信息的解析,我們可以解析生物學(xué)過程中的密碼。當(dāng)某一個(gè)大類的序列中,大量重復(fù)出現(xiàn)相同的序列結(jié)構(gòu)的時(shí)候,就可能存在探索它意義的價(jià)值?;趍otif序列的提取,我們可以預(yù)測潛在的結(jié)合位點(diǎn)等等,有助于我們進(jìn)一步理解各生物學(xué)過程中涉及的生物學(xué)意義。比如轉(zhuǎn)錄因子的結(jié)合位點(diǎn),其motif往往意味著某蛋白結(jié)構(gòu)域與DNA堿基序列的相互作用。

1.3. motif的展示形式

??在我們的日常應(yīng)用中,我們經(jīng)常會看到motif這個(gè)詞的出現(xiàn),往往會伴隨著這樣一張logo展示圖。這樣的logo經(jīng)常用于描述序列特征,如DNA中的蛋白質(zhì)結(jié)合位點(diǎn)等。motif logo由每個(gè)位置的一堆字母組成。字母的相對大小表示它們在序列中的頻率。每個(gè)字母的高度與該位置的相應(yīng)堿基的出現(xiàn)頻率成正比,常以bits為單位。每個(gè)位置的字母按照保守性從大到小排列,可以方便的從頂端的字母識別保守序列。

圖 1

圖1 logo展示圖

??用一段序列來描述所有序列的堿基組成,稱之為一致性序列。當(dāng)一個(gè)位置涉及到多個(gè)堿基出現(xiàn)的時(shí)候,這里就涉及到簡并堿基的使用。

??示例如圖2,在日常使用中,也經(jīng)常用“RRACH”來表示它。這個(gè)“RRACH”就是一種一致性序列的表示方式。

簡并堿基正常堿基
RA/G
YC/T
MA/C
KG/T
SG/C
WA/T
HA/T/C
BG/T/C
VG/A/C
DG/A/T
NA/T/C/G

圖 2

圖2 logo示例

2. motif如何被預(yù)測?

??HOMER 是一套用于Motif查找和二代數(shù)據(jù)分析的工具。它不僅能檢測已知的motif,還能預(yù)測可能存在的未知motif。 這個(gè)預(yù)測新穎motif算法,設(shè)計(jì)用于在基因組學(xué)應(yīng)用里的調(diào)控元件分析(這里的元件指DNA,而非蛋白質(zhì))。 它采取兩套序列,并試圖識別在其中一套序列上相對于另一套的特定富集的調(diào)控元件(比如說我們的peaks序列相對于整個(gè)基因組序列)。它使用ZOOPS評分(0或1發(fā)生在每條序列上)與超幾何富集計(jì)算(或二項(xiàng)式)來確定motif富集。HOMER也盡力考慮數(shù)據(jù)集里的排序偏差。它的設(shè)計(jì)用于ChIP-Seq和啟動子分析,但可以應(yīng)用于幾乎任何核酸序列的motif發(fā)現(xiàn)。

??我們使用 Homer 子程序 findMotifsGenome.pl 進(jìn)行motif分析, findMotifsGenome.pl 命令用于在基因組區(qū)域中尋找富集Motifs。以下為結(jié)果的詳細(xì)解讀。


3. 結(jié)果列表說明

Demo: motif_ZYN-H3K27ac - Homer Known Motif Enrichment Results

結(jié)果說明:

結(jié)果說明
homerMotifs.all.motifs由所有homerMotifs.motifs*組成的連接文件
homerMotifs.motifs10de novo 查找motif的輸出文件(motif長度為10)
homerMotifs.motifs12de novo 查找motif的輸出文件(motif長度為12)
homerMotifs.motifs8de novo 查找motif的輸出文件(motif長度為8)
homerResults.html查找已知motifs的格式化輸出。
homerResults/子文件夾:包含homerResults.html網(wǎng)頁文件,
包括motif<#>.motif文件,用于尋找每個(gè)motif的具體實(shí)例。
knownResults.htmlde novo查找motif的格式化輸出。
knownResults/子文件夾:包含knownResults.html網(wǎng)頁文件,
包括known<#>.motif文件。
knownResults.txt包含關(guān)于已知motifs豐富的統(tǒng)計(jì)信息的文本文件(在EXCEL中打開)。
motifFindingParameters.txt用于執(zhí)行findMotifsGenome.pl的命令,包含分析使用的參數(shù)
seq.autonorm.tsv用于lower-order oligo標(biāo)準(zhǔn)化的autonormalization統(tǒng)計(jì)。

3.1. 網(wǎng)頁可視化文件的表頭說明

3.1.1. knownResults.html (Homer Known Motif Enrichment Results)

圖示:

圖 4

表頭說明:

表頭說明
Rank序號
Motifmotif序列可視化
P-value置信度計(jì)算結(jié)果
log P-pvalue計(jì)算log10P值結(jié)果
q-value (Benjamini)Benjamini模型計(jì)算的q值
# Target Sequences with Motif靶標(biāo)序列
% of Targets Sequences with Motif靶標(biāo)序列占總序列百分比
# Background Sequences with Motif背景序列
% of Background Sequences with Motif背景序列占總序列百分比
Motif Filemotif文件結(jié)果
SVGmotif的svg可視化文件

3.1.2. homerResults.html (Homer de novo Motif Results)

圖示:

圖 3

表頭說明:

表頭說明
Rank序號
Motifmotif序列可視化
P-value置信度計(jì)算結(jié)果
log P-pvaluelog P-pvalue 值
% of Targets靶標(biāo)序列占總denovo序列百分比
% of Background背景序列占總denovo序列百分比
STD(Bg STD)靶標(biāo)和背景的序列集出現(xiàn)偏離序列中心200bp的標(biāo)準(zhǔn)偏差
Best Match/Details最為匹配的結(jié)果
Motif Filemotif文件結(jié)果

3.2. 如理解輸出的Motif文件homerMotifs.*.motifs* ?

圖 1


第一行以一個(gè)“>”開頭,后面跟著各種信息,其他行是每個(gè)位置的各個(gè)核苷酸具體概率(A/C/G/T)。標(biāo)題行實(shí)際上是用制表符分隔的,并包含以下信息:

1. “>”+序列(實(shí)際上不用于任何東西,可以是空的)示例:>NNATGASTCATH

2. motif名稱(如果幾個(gè)motif在同一個(gè)文件中,應(yīng)該是唯一的)。例子:Fra1(bZIP)/BT549-Fra1-ChIP-Seq(GSE46166)/Homer

3. log odds檢測閾值,用于確定結(jié)合的vs未結(jié)合位點(diǎn)。示例:7.011739

4. 富集的log-p值

5. 0(表示向后兼容性的占位符,在舊版本中用于描述“gapped” motif,結(jié)果證明它并不是很有用)

6. 發(fā)生的信息,用逗號分隔,例如: T:4.0(57.14%),B:3353.3(3.23%),P:1e-4

??- T: 帶motif的靶標(biāo)序列數(shù),占靶序列總數(shù)的%

??- B: 帶motif的背景序列數(shù)目,占總背景的%

??- P: 最終富集P值

7. 用逗號分隔的Motif統(tǒng)計(jì)信息(這一個(gè)信息是與鏈有關(guān)的,因?yàn)槲业腂ED文件里鏈的哪一列沒有指定是+/-,我輸入的是.,所以這里沒有第7個(gè)信息),官網(wǎng)的例子:Tpos:100.7,Tstd:32.6,Bpos:100.1,Bstd:64.6,StrandBias:0.0,Multiplicity:1.13

??- Tpos: motif在目標(biāo)序列中的平均位置(0 =序列開始)

??- Tstd: 目標(biāo)序列中位置的標(biāo)準(zhǔn)偏差

??- Bpos: motif在背景序列中的平均位置(0 =序列開始)

??- Bstd: 背景序列中位置的標(biāo)準(zhǔn)差

??- StrandBias: 在+鏈出現(xiàn)與在-鏈出現(xiàn)的log比例。

??- Multiplicity: 在具有一個(gè)或多個(gè)結(jié)合位點(diǎn)的序列中,每個(gè)序列平均出現(xiàn)的次數(shù)。