服務(wù)目錄

技術(shù)服務(wù)

技術(shù)專題

聯(lián)系我們

廣州賽誠生物科技有限公司
廣州市黃埔區(qū)學(xué)大道攬?jiān)侣窂V州企業(yè)孵化器B座402
電話：020-85625352
手機(jī)：18102256923、18102253682
Email：servers@gzscbio.com
Fax：020-85625352
QQ：386244141

您當(dāng)前所在的位置：首頁>>服務(wù)目錄 >>分子機(jī)制實(shí)驗(yàn)平臺 >>生物信息學(xué)分析

motif結(jié)果能給到我們些什么信息？

項(xiàng)目名稱：motif結(jié)果能給到我們些什么信息？

所屬分類：生物信息學(xué)分析

聯(lián)系電話：020-85625352

QQ：386244141

Email：servers@gzscbio.com

技術(shù)服務(wù)描述

motif結(jié)果能給到我們些什么信息？

1. 背景簡介

1.1. 什么是motif？

??Motif是一段典型的序列或者一個(gè)結(jié)構(gòu)。一般來說，我們稱為基序。一般情況下是指構(gòu)成任何一種特征序列的基本結(jié)構(gòu)。通俗來講，即是有特征的短序列，一般認(rèn)為它是擁有生物學(xué)功能的保守序列，可能包含特異性的結(jié)合位點(diǎn)，或者是涉及某一個(gè)特定生物學(xué)過程的有共性的序列區(qū)段。比如蛋白質(zhì)的序列特異性結(jié)合位點(diǎn)，如核酸酶和轉(zhuǎn)錄因子。

1.2. 研究motif的意義

??序列基序在基因調(diào)控分析中越來越重要。Motif并不局限于基因組DNA序列還是RNA序列，甚至蛋白質(zhì)序列也可以提取出相應(yīng)的motif。通過序列信息的解析，我們可以解析生物學(xué)過程中的密碼。當(dāng)某一個(gè)大類的序列中，大量重復(fù)出現(xiàn)相同的序列結(jié)構(gòu)的時(shí)候，就可能存在探索它意義的價(jià)值?；趍otif序列的提取，我們可以預(yù)測潛在的結(jié)合位點(diǎn)等等，有助于我們進(jìn)一步理解各生物學(xué)過程中涉及的生物學(xué)意義。比如轉(zhuǎn)錄因子的結(jié)合位點(diǎn)，其motif往往意味著某蛋白結(jié)構(gòu)域與DNA堿基序列的相互作用。

1.3. motif的展示形式

??在我們的日常應(yīng)用中，我們經(jīng)常會看到motif這個(gè)詞的出現(xiàn)，往往會伴隨著這樣一張logo展示圖。這樣的logo經(jīng)常用于描述序列特征，如DNA中的蛋白質(zhì)結(jié)合位點(diǎn)等。motif logo由每個(gè)位置的一堆字母組成。字母的相對大小表示它們在序列中的頻率。每個(gè)字母的高度與該位置的相應(yīng)堿基的出現(xiàn)頻率成正比，常以bits為單位。每個(gè)位置的字母按照保守性從大到小排列，可以方便的從頂端的字母識別保守序列。

圖 1

圖1 logo展示圖

??用一段序列來描述所有序列的堿基組成，稱之為一致性序列。當(dāng)一個(gè)位置涉及到多個(gè)堿基出現(xiàn)的時(shí)候，這里就涉及到簡并堿基的使用。

??示例如圖2，在日常使用中，也經(jīng)常用“RRACH”來表示它。這個(gè)“RRACH”就是一種一致性序列的表示方式。

簡并堿基	正常堿基
R	A/G
Y	C/T
M	A/C
K	G/T
S	G/C
W	A/T
H	A/T/C
B	G/T/C
V	G/A/C
D	G/A/T
N	A/T/C/G

圖 2

圖2 logo示例

2. motif如何被預(yù)測？

??HOMER 是一套用于Motif查找和二代數(shù)據(jù)分析的工具。它不僅能檢測已知的motif，還能預(yù)測可能存在的未知motif。這個(gè)預(yù)測新穎motif算法，設(shè)計(jì)用于在基因組學(xué)應(yīng)用里的調(diào)控元件分析(這里的元件指DNA，而非蛋白質(zhì))。它采取兩套序列，并試圖識別在其中一套序列上相對于另一套的特定富集的調(diào)控元件（比如說我們的peaks序列相對于整個(gè)基因組序列）。它使用ZOOPS評分(0或1發(fā)生在每條序列上)與超幾何富集計(jì)算(或二項(xiàng)式)來確定motif富集。HOMER也盡力考慮數(shù)據(jù)集里的排序偏差。它的設(shè)計(jì)用于ChIP-Seq和啟動子分析，但可以應(yīng)用于幾乎任何核酸序列的motif發(fā)現(xiàn)。

??我們使用 Homer 子程序 findMotifsGenome.pl 進(jìn)行motif分析， findMotifsGenome.pl 命令用于在基因組區(qū)域中尋找富集Motifs。以下為結(jié)果的詳細(xì)解讀。

3. 結(jié)果列表說明

Demo: motif_ZYN-H3K27ac - Homer Known Motif Enrichment Results

結(jié)果說明：

結(jié)果	說明
`homerMotifs.all.motifs`	由所有homerMotifs.motifs*組成的連接文件
`homerMotifs.motifs10`	de novo 查找motif的輸出文件(motif長度為10)
`homerMotifs.motifs12`	de novo 查找motif的輸出文件(motif長度為12)
`homerMotifs.motifs8`	de novo 查找motif的輸出文件(motif長度為8)
`homerResults.html`	查找已知motifs的格式化輸出。
`homerResults/`	子文件夾：包含homerResults.html網(wǎng)頁文件，包括motif<#>.motif文件，用于尋找每個(gè)motif的具體實(shí)例。
`knownResults.html`	de novo查找motif的格式化輸出。
`knownResults/`	子文件夾：包含knownResults.html網(wǎng)頁文件，包括known<#>.motif文件。
`knownResults.txt`	包含關(guān)于已知motifs豐富的統(tǒng)計(jì)信息的文本文件(在EXCEL中打開)。
`motifFindingParameters.txt`	用于執(zhí)行findMotifsGenome.pl的命令，包含分析使用的參數(shù)
`seq.autonorm.tsv`	用于lower-order oligo標(biāo)準(zhǔn)化的autonormalization統(tǒng)計(jì)。

3.1. 網(wǎng)頁可視化文件的表頭說明

3.1.1. knownResults.html (Homer Known Motif Enrichment Results)

圖示：

圖 4

表頭說明：

表頭	說明
`Rank`	序號
`Motif`	motif序列可視化
`P-value`	置信度計(jì)算結(jié)果
`log P-pvalue`	計(jì)算log10P值結(jié)果
`q-value (Benjamini)`	Benjamini模型計(jì)算的q值
`# Target Sequences with Motif`	靶標(biāo)序列
`% of Targets Sequences with Motif`	靶標(biāo)序列占總序列百分比
`# Background Sequences with Motif`	背景序列
`% of Background Sequences with Motif`	背景序列占總序列百分比
`Motif File`	motif文件結(jié)果
`SVG`	motif的svg可視化文件

3.1.2. homerResults.html (Homer de novo Motif Results)

圖示：

圖 3

表頭說明：

表頭	說明
`Rank`	序號
`Motif`	motif序列可視化
`P-value`	置信度計(jì)算結(jié)果
`log P-pvalue`	log P-pvalue 值
`% of Targets`	靶標(biāo)序列占總denovo序列百分比
`% of Background`	背景序列占總denovo序列百分比
`STD(Bg STD)`	靶標(biāo)和背景的序列集出現(xiàn)偏離序列中心200bp的標(biāo)準(zhǔn)偏差
`Best Match/Details`	最為匹配的結(jié)果
`Motif File`	motif文件結(jié)果

3.2. 如理解輸出的Motif文件`homerMotifs..motifs` ?

圖 1

第一行以一個(gè)“>”開頭，后面跟著各種信息，其他行是每個(gè)位置的各個(gè)核苷酸具體概率(A/C/G/T)。標(biāo)題行實(shí)際上是用制表符分隔的，并包含以下信息:

1. “>”+序列(實(shí)際上不用于任何東西，可以是空的)示例:>NNATGASTCATH

2. motif名稱(如果幾個(gè)motif在同一個(gè)文件中，應(yīng)該是唯一的)。例子:Fra1(bZIP)/BT549-Fra1-ChIP-Seq(GSE46166)/Homer

3. log odds檢測閾值，用于確定結(jié)合的vs未結(jié)合位點(diǎn)。示例:7.011739

4. 富集的log-p值

5. 0(表示向后兼容性的占位符，在舊版本中用于描述“gapped” motif，結(jié)果證明它并不是很有用)

6. 發(fā)生的信息，用逗號分隔，例如: T:4.0(57.14%),B:3353.3(3.23%),P:1e-4

??- T: 帶motif的靶標(biāo)序列數(shù)，占靶序列總數(shù)的%

??- B: 帶motif的背景序列數(shù)目，占總背景的%

??- P: 最終富集P值

7. 用逗號分隔的Motif統(tǒng)計(jì)信息（這一個(gè)信息是與鏈有關(guān)的，因?yàn)槲业腂ED文件里鏈的哪一列沒有指定是+/-，我輸入的是.，所以這里沒有第7個(gè)信息），官網(wǎng)的例子：Tpos:100.7,Tstd:32.6,Bpos:100.1,Bstd:64.6,StrandBias:0.0,Multiplicity:1.13

??- Tpos: motif在目標(biāo)序列中的平均位置(0 =序列開始)

??- Tstd: 目標(biāo)序列中位置的標(biāo)準(zhǔn)偏差

??- Bpos: motif在背景序列中的平均位置(0 =序列開始)

??- Bstd: 背景序列中位置的標(biāo)準(zhǔn)差

??- StrandBias: 在+鏈出現(xiàn)與在-鏈出現(xiàn)的log比例。

??- Multiplicity: 在具有一個(gè)或多個(gè)結(jié)合位點(diǎn)的序列中，每個(gè)序列平均出現(xiàn)的次數(shù)。

亚洲综合无码一级片无码的_国产丝袜一二三四区乱码_欧美福利大片二区_男人边吃奶边做边爱免费

motif結(jié)果能給到我們些什么信息？

1. 背景簡介

1.1. 什么是motif？

1.2. 研究motif的意義

1.3. motif的展示形式

2. motif如何被預(yù)測？

3. 結(jié)果列表說明

3.1. 網(wǎng)頁可視化文件的表頭說明

3.1.1. knownResults.html (Homer Known Motif Enrichment Results)

3.1.2. homerResults.html (Homer de novo Motif Results)

3.2. 如理解輸出的Motif文件homerMotifs.*.motifs* ?

motif結(jié)果能給到我們些什么信息？

1.1. 什么是motif？

2. motif如何被預(yù)測？

3.2. 如理解輸出的Motif文件`homerMotifs..motifs` ?