廣州市黃埔區(qū)學(xué)大道攬?jiān)侣窂V州企業(yè)孵化器B座402
電話:020-85625352
手機(jī):18102256923、18102253682
Email:servers@gzscbio.com
Fax:020-85625352
QQ:386244141
生物信息學(xué)概述
生物信息學(xué)主要應(yīng)用到HMM隱馬可夫鏈的方法。數(shù)學(xué)中具有馬爾可夫性質(zhì)的離散時(shí)間隨機(jī)過(guò)程。該過(guò)程中,在給定當(dāng)前知識(shí)或信息的情況下,只有當(dāng)前的狀態(tài)用來(lái)預(yù)測(cè)將來(lái),過(guò)去(即當(dāng)前以前的歷史狀態(tài))對(duì)于預(yù)測(cè)將來(lái)(即當(dāng)前以后的未來(lái)狀態(tài))是無(wú)關(guān)的。在馬爾可夫鏈的每一步,系統(tǒng)根據(jù)概率分布,可以從一個(gè)狀態(tài)變到另一個(gè)狀態(tài),也可以保持當(dāng)前狀態(tài)。狀態(tài)的改變叫做過(guò)渡,與不同的狀態(tài)改變相關(guān)的概率叫做過(guò)渡概率。隨機(jī)漫步就是馬爾可夫鏈的例子。隨機(jī)漫步中每一步的狀態(tài)是在圖形中的點(diǎn),每一步可以移動(dòng)到任何一個(gè)相鄰的點(diǎn),在這里移動(dòng)到每一個(gè)點(diǎn)的概率都是相同的(無(wú)論之前漫步路徑是如何的)。
1 評(píng)估問(wèn)題
給定觀測(cè)序列O=O1O2O3…Ot和模型參數(shù)λ=(A,B,π),怎樣有效計(jì)算某一觀測(cè)序列的概率,進(jìn)而可對(duì)該HMM做出相關(guān)評(píng)估。例如,已有一些模型參數(shù)各異的HMM,給定觀測(cè)序列O=O1O2O3…Ot,我們想知道哪個(gè)HMM模型最可能生成該觀測(cè)序列。通常我們利用forward算法分別計(jì)算每個(gè)HMM產(chǎn)生給定觀測(cè)序列O的概率,然后從中選出最優(yōu)的HMM模型。
這類評(píng)估的問(wèn)題的一個(gè)經(jīng)典例子是語(yǔ)音識(shí)別。在描述語(yǔ)言識(shí)別的隱馬爾科夫模型中,每個(gè)單詞生成一個(gè)對(duì)應(yīng)的HMM,每個(gè)觀測(cè)序列由一個(gè)單詞的語(yǔ)音構(gòu)成,單詞的識(shí)別是通過(guò)評(píng)估進(jìn)而選出最有可能產(chǎn)生觀測(cè)序列所代表的讀音的HMM而實(shí)現(xiàn)的。
2 解碼問(wèn)題
給定觀測(cè)序列O=O1O2O3…Ot和模型參數(shù)λ=(A,B,π),怎樣尋找某種意義上最優(yōu)的隱狀態(tài)序列。在這類問(wèn)題中,我們感興趣的是馬爾科夫模型中隱含狀態(tài),這些狀態(tài)不能直接觀測(cè)但卻更具有價(jià)值,通常利用Viterbi算法來(lái)尋找。
這類問(wèn)題的一個(gè)實(shí)際例子是中文分詞,即把一個(gè)句子如何劃分其構(gòu)成才合適。例如,句子“發(fā)展中國(guó)家”是劃分成“發(fā)展-中-國(guó)家”,還是“發(fā)展-中國(guó)-家”。這個(gè)問(wèn)題可以用隱馬爾科夫模型來(lái)解決。句子的分詞方法可以看成是隱含狀態(tài),而句子則可以看成是給定的可觀測(cè)狀態(tài),從而通過(guò)建HMM來(lái)尋找出最可能正確的分詞方法。
3 學(xué)習(xí)問(wèn)題
即HMM的模型參數(shù)λ=(A,B,π)未知,如何調(diào)整這些參數(shù)以使觀測(cè)序列O=O1O2O3…Ot的概率盡可能的大。通常使用Baum-Welch算法以及Reversed Viterbi算法解