廣州市黃埔區(qū)學大道攬月路廣州企業(yè)孵化器B座402
電話:020-85625352
手機:18102256923、18102253682
Email:servers@gzscbio.com
Fax:020-85625352
QQ:386244141
項目名稱:Call Peak 流程簡介
所屬分類:生物信息學分析
聯系電話:020-85625352
QQ:386244141
Email:servers@gzscbio.com
技術服務描述
Call Peak 流程簡介
對于ChIP-seq實驗,我們從比對文件中觀察到的是鏈的不對稱性,其中+/-鏈上的讀取密度位于結合位點的中心。所選片段的5'末端將在正鏈和負鏈上形成基團。然后使用統(tǒng)計方法評估這些組的分布,并與背景(輸入或模擬IP樣本)進行比較,以確定富集位點是否可能是真實的結合位點。
MACS2
MACS2,一個基于模型分析的,常用于ChIP-seq識別轉錄因子結合位點的工具。 MACS算法捕獲基因組的復雜性的影響,以評估豐富的CHIP區(qū)域的意義。盡管它是為檢測轉錄因子結合位點而開發(fā)的,但它也適用于較大的區(qū)域。
MACS通過結合測序標簽位置和方向信息來提高結合位點的空間分辨率。MACS可以輕松地單獨用于ChIP樣品,也可以與增加峰值調用特異性的對照樣品一起使用。MACS工作流程如下所示。
配對峰建立模型
真實結合位點周圍的標簽密度應顯示雙峰富集模式(或成對的峰)。MACS利用這種雙峰模式來對移動大小進行經驗建模,以更好地定位精確的結合位點。
為了找到配對峰以建立模型,MACS首先掃描整個數據集,以尋找高度重要的富集區(qū)域。僅使用ChIP示例即可完成!給定超聲處理的大?。╞andwidth)和高置信度的折疊富集(mfold),MACS會bandwidth在基因組上滑動兩個窗口,以找到具有相對于隨機標簽基因組分布而言富集程度更高的標簽的mfold區(qū)域。
MACS隨機采樣這些高質量峰中的1,000個,分離其正鏈和負鏈標簽,并按其中心之間的中點對齊它們。的在對準的兩個峰的模式之間的距離被定義為“d”和表示所估計的片段長度。MACS將所有標簽朝著3'末端移動d / 2到最可能的蛋白質-DNA相互作用位點。
糾正低映射區(qū)域中真實信號的丟失
為了從標簽數計算λBG,MAC2需要有效的基因組大小或可映射的基因組大小??捎成湫耘c基因組中特定位置的k聚體的獨特性有關。低復雜度和重復區(qū)域的唯一性較低,這意味著可映射性較低。因此,我們需要提供有效的基因組長度,以糾正低映射區(qū)域中真實信號的丟失。
峰值檢測
MACS將每個標簽移動 d / 2 后,它會使用2d的窗口大小在基因組中滑動以找到候選峰。沿著基因組的標簽分布可以通過泊松分布來建模。泊松是一個參數模型,其中參數λ是該窗口中預期的讀取次數。
MACS2輸出文件
.narrowPeak
是 BED 6 + 4 格式,表示標準BED文件的前6列以及4個其他字段: