廣州市天河區(qū)黃埔大道中124號2705室
電話:020-29031124
手機(jī):18102256923
Email:servers@gzscbio.com
Fax:020-85625352
QQ:2913120624
生物信息學(xué)主要應(yīng)用到HMM隱馬可夫鏈的方法。數(shù)學(xué)中具有馬爾可夫性質(zhì)的離散時間隨機(jī)過程。該過程中,在給定當(dāng)前知識或信息的情況下,只有當(dāng)前的狀態(tài)用來預(yù)測將來,過去(即當(dāng)前以前的歷史狀態(tài))對于預(yù)測將來(即當(dāng)前以后的未來狀態(tài))是無關(guān)的。在馬爾可夫鏈的每一步,系統(tǒng)根據(jù)概率分布,可以從一個狀態(tài)變到另一個狀態(tài),也可以保持當(dāng)前狀態(tài)。狀態(tài)的改變叫做過渡,與不同的狀態(tài)改變相關(guān)的概率叫做過渡概率。隨機(jī)漫步就是馬爾可夫鏈的例子。隨機(jī)漫步中每一步的狀態(tài)是在圖形中的點(diǎn),每一步可以移動到任何一個相鄰的點(diǎn),在這里移動到每一個點(diǎn)的概率都是相同的(無論之前漫步路徑是如何的)。
圖1 隱馬可夫鏈?zhǔn)疽?/span>
1 評估問題
給定觀測序列O=O1O2O3…Ot和模型參數(shù)λ=(A,B,π),怎樣有效計(jì)算某一觀測序列的概率,進(jìn)而可對該HMM做出相關(guān)評估。例如,已有一些模型參數(shù)各異的HMM,給定觀測序列O=O1O2O3…Ot,我們想知道哪個HMM模型最可能生成該觀測序列。通常我們利用forward算法分別計(jì)算每個HMM產(chǎn)生給定觀測序列O的概率,然后從中選出最優(yōu)的HMM模型。
這類評估的問題的一個經(jīng)典例子是語音識別。在描述語言識別的隱馬爾科夫模型中,每個單詞生成一個對應(yīng)的HMM,每個觀測序列由一個單詞的語音構(gòu)成,單詞的識別是通過評估進(jìn)而選出最有可能產(chǎn)生觀測序列所代表的讀音的HMM而實(shí)現(xiàn)的。
2 解碼問題
給定觀測序列O=O1O2O3…Ot和模型參數(shù)λ=(A,B,π),怎樣尋找某種意義上最優(yōu)的隱狀態(tài)序列。在這類問題中,我們感興趣的是馬爾科夫模型中隱含狀態(tài),這些狀態(tài)不能直接觀測但卻更具有價值,通常利用Viterbi算法來尋找。
這類問題的一個實(shí)際例子是中文分詞,即把一個句子如何劃分其構(gòu)成才合適。例如,句子“發(fā)展中國家”是劃分成“發(fā)展-中-國家”,還是“發(fā)展-中國-家”。這個問題可以用隱馬爾科夫模型來解決。句子的分詞方法可以看成是隱含狀態(tài),而句子則可以看成是給定的可觀測狀態(tài),從而通過建HMM來尋找出最可能正確的分詞方法。
3 學(xué)習(xí)問題
即HMM的模型參數(shù)λ=(A,B,π)未知,如何調(diào)整這些參數(shù)以使觀測序列O=O1O2O3…Ot的概率盡可能的大。通常使用Baum-Welch算法以及Reversed Viterbi算法解決。