基于SVM方法的大腸癌淋巴結(jié)轉(zhuǎn)移預(yù)測
張鈺① 劉頌① 胡珊① 丁培榮②
①中山大學(xué)中山醫(yī)學(xué)院生物醫(yī)學(xué)工程系,510080,廣州市中山二路74 號(hào)
②中山大學(xué)附屬腫瘤醫(yī)院結(jié)直腸科,510060,廣州市東山區(qū)東風(fēng)東路651 號(hào)
摘 要 本文收集了1000 多例大腸癌病人的臨床數(shù)據(jù),運(yùn)用支持向量機(jī)的算法對病人淋巴
結(jié)是否轉(zhuǎn)移進(jìn)行分類預(yù)測,用交叉驗(yàn)證的的方法得出最佳參數(shù),預(yù)測準(zhǔn)確率為82.65%.
關(guān)鍵詞 支持向量機(jī) 數(shù)據(jù)挖掘 交叉驗(yàn)證
1 引言
淋巴結(jié)轉(zhuǎn)移是影響大腸癌預(yù)后最重要的因素之一,因此準(zhǔn)確地判斷淋巴結(jié)轉(zhuǎn)
移與否對于判斷預(yù)后、制定治療方案意義重大[1]。目前診斷淋巴結(jié)轉(zhuǎn)移的“金標(biāo)
準(zhǔn)”是病理組織學(xué)檢查,然而它會(huì)受到一些因素的影響,如淋巴清掃范圍、取檢
淋巴結(jié)的方法、淋巴結(jié)微轉(zhuǎn)移的客觀存在等。事實(shí)上,一些病理分期為早期的病
人出現(xiàn)了預(yù)后差的情況,可能與我們沒有發(fā)現(xiàn)存在的淋巴結(jié)轉(zhuǎn)移灶有關(guān)。
本文嘗試建立淋巴結(jié)轉(zhuǎn)移預(yù)測的計(jì)算機(jī)模型,能夠?yàn)榕R床手術(shù)方案的制
定提供一定的參考依據(jù)。共收集了中山大學(xué)附屬腫瘤醫(yī)院一千多例結(jié)直腸
癌病人的數(shù)據(jù),在對數(shù)據(jù)進(jìn)行凈化、去噪聲、離散化等預(yù)處理后,利用支持向
量機(jī)軟件libsvm(臺(tái)灣大學(xué)林智仁副教授等研發(fā))對大腸癌N 分期進(jìn)行預(yù)測。
2 基本原理
支持向量機(jī)(SVM)是一種新型的機(jī)器學(xué)習(xí)方法,它是建立在統(tǒng)計(jì)學(xué)習(xí)理論
的vc(Vapnik Chervonenks)維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化(Structural RiskMinimi
zation,SRM)原理基礎(chǔ)上的,即是由有限訓(xùn)練樣本得到的決策規(guī)則對獨(dú)立的測試
集仍能得到小的誤差,這使得 SVM 方法 比基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(Empirical Ri
sk Minimization,E1)的人工神經(jīng)網(wǎng)絡(luò)ANN 等方法具有更好的泛化能力和分類精
確性。支持向量機(jī)能較好地解決小樣本、非線性、高維數(shù)和局部極小點(diǎn)等實(shí)際問
題,目前已成為機(jī)器學(xué)習(xí)界研究的熱點(diǎn)。雖然 SVM 方法在理論上具有突出的優(yōu)
勢,但應(yīng)用研究相對于理論研究較為滯后。SVM 的基本思想是對于非線性可分樣
本 ,將其輸入向量通過非線性變換映射到另一個(gè)高維空間,使其線性可分,在
這個(gè)新空間中尋找一個(gè)最優(yōu)分類超平面,使得超平面與不同類樣本集之間的距離
最大,從而達(dá)到最大的泛化能力。SVM 的這種非線性變換是通過核函數(shù)計(jì)算高維
空間中的內(nèi)積實(shí)現(xiàn)的,這樣就避免了維數(shù)升高而引起的計(jì)算困難[2],其基本原理
如下:考慮一個(gè)線性可分的二分類問題,設(shè)線性可分的個(gè)訓(xùn)練樣本集{( , ),
i:1,2,…l,},輸入樣本空間的維數(shù)為d,每個(gè)樣本屬于標(biāo)記為 ∈{-1,
1}的兩類之一。由這一組樣本可以確定一個(gè)分類超平面,使得離它
最近的每類點(diǎn)(稱為支持向量)與它的距離達(dá)到最大值,對于每個(gè)樣本有 :
≥ 1 (1)
樣本到超平面的距離,即分類間隔,可定義為,當(dāng)最小時(shí),分類間隔最
大,此時(shí)的分離超平面即為最優(yōu)分類面。使分類間隔最大實(shí)際上就是對推廣能力
的控制,統(tǒng)計(jì)學(xué)理論表明[3]最優(yōu)分類面具有最好的推廣能力。
考慮到訓(xùn)練樣本集為線性不可分時(shí),需引入非負(fù)松弛變量,i=1,2,…,l,
上述最優(yōu)超平面的求解問題為:
(2)
其中,懲罰參數(shù)C>0,C 越大表示對錯(cuò)誤分類的懲罰越大。式(2)中第一項(xiàng)
使分類間隔盡量大,第二項(xiàng)則使誤差盡量小 |
|