圖像數(shù)據(jù)挖掘在SARS輔助診斷中的應(yīng)用
萬(wàn)壽紅,李 曦,龔育昌,謝鉉洋
(中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系,安徽省計(jì)算與通訊軟件重點(diǎn)實(shí)驗(yàn)室,合肥 230027)
摘 要:嚴(yán)重急性呼吸道綜合癥(SARS),又稱“非典型肺炎”,是目前人類面臨的一種嚴(yán)重危害生命和健康的新發(fā)傳染病。利用PACS系統(tǒng)中的胸部數(shù)字X光(DX)正位圖像,采用圖像數(shù)據(jù)挖掘技術(shù),設(shè)計(jì)并實(shí)現(xiàn)了SARS計(jì)算機(jī)輔助診斷系統(tǒng)。經(jīng)過數(shù)據(jù)清理定位DX肺部圖像的感興趣區(qū)域,分割出雙肺區(qū)域,提取特征參數(shù),構(gòu)造決策樹,實(shí)現(xiàn)對(duì)SARS患者和一般肺炎胸部DX正位圖像的分類。實(shí)驗(yàn)結(jié)果表明,檢測(cè)SARS圖像正確率達(dá)到70%以上。
關(guān)鍵詞:圖像數(shù)據(jù)挖掘;計(jì)算機(jī)輔助診斷;SARS;圖像分割;決策樹
Application of Image Data Mining to
Computer Aided Diagnosis SARS
WAN Shouhong, LI Xi, GONGYuchang, XIE Xuanyang
(Department of Computer Sci. & Tech., University of Sci. & Tech.,
Anhui Province Key Laboratory of Software in Computing and Communication, Hefei 230027)
【Abstract】Severe acute respiratory syndrome (SARS), called “typical Pneumonia”in China, is a newly occurred fast transmittable infectiousdisease which badly endangers human’s life and health. This paper designs and realizes a computer aided diagnosis SARS based on image datamining techniques for digital X-Ray images in picture archiving and communication system (PACS). First, lung region of interest is located afterdata cleaning. Then lung region segmentation and feature parameters extraction are performed. The decision tree is constructed for discrimination ofSARS and “typical Pneumonia”. The experiment result shows that more than 70% SARS cases can be detected.
【Key words】Image data mining; Computer aided diagnosis(CAD); Severe acute respiratory syndrome(SARS); Image segmentation; Decision tree
嚴(yán)重急性呼吸道綜合癥(Severe Acute Respiratory Syn-
drome, SARS),又稱“非典型肺炎”,是目前人類面臨的一種嚴(yán)重危害生命和健康的新傳染病。由于受到醫(yī)生經(jīng)驗(yàn)、水平和主觀因素等影響,診斷的正確性與效率仍不利于SARS的診療與疫情控制,因此迫切需要借助有效的計(jì)算機(jī)輔助診斷(computer aided diagnosis, CAD) [1]方法,以快速、準(zhǔn)確地發(fā)現(xiàn)與診斷SARS疑似病例。當(dāng)一個(gè)患者有胸部的疾病,如肺結(jié)核、肺癌以及SARS等疾病時(shí),其胸部數(shù)字X光(DX)正位圖像上會(huì)產(chǎn)生肺部節(jié)點(diǎn),紋理異常等癥狀。研究表明胸部DX正位圖像對(duì)SARS的診斷起著決定性的作用[1,2]。本文根據(jù)廣州醫(yī)學(xué)院第二附屬醫(yī)院PACS數(shù)據(jù)中的大量胸部DX圖像,結(jié)合醫(yī)學(xué)專家的經(jīng)驗(yàn)知識(shí),利用圖像數(shù)據(jù)挖掘技術(shù)[3,4],設(shè)計(jì)并實(shí)現(xiàn)了SARS計(jì)算機(jī)輔助診斷系統(tǒng),為醫(yī)生的輔助診斷提供依據(jù),提高SARS疑似病例及時(shí)確診的準(zhǔn)確率。
row2
row1
col1
col2
sl
該系統(tǒng)的圖像數(shù)據(jù)挖掘過程包括數(shù)據(jù)清理、肺部區(qū)域分割、特征提取、數(shù)據(jù)挖掘4個(gè)步驟。
1 數(shù)據(jù)清理
數(shù)據(jù)清理是從PACS數(shù)據(jù)庫(kù)中過濾出胸部DX正位圖,并定位肺部感興趣區(qū)域(ROI)的過程。PACS系統(tǒng)中存有多種類型圖像,包括CT、MR等非DX圖像,它們很少有大型圖像數(shù)據(jù),在圖像的大小上與DX有很大區(qū)別。所以首先采用圖像分辨率作為衡量指標(biāo)從數(shù)據(jù)庫(kù)中分離出DX圖像。
1.1 DX正位圖的選取
胸部DX圖像包括正位圖、側(cè)位圖兩種,而我們所關(guān)心的是正位圖。觀察發(fā)現(xiàn),正位圖的整體亮度及左右邊界均比側(cè)位圖亮,所以對(duì)每幅圖像選取平均灰度、圖像最左和最右列的平均值及標(biāo)準(zhǔn)方差這5個(gè)特征參數(shù)形成描述向量,構(gòu)造訓(xùn)練集,用C4.5算法建立決策樹。對(duì)561幅胸部DX圖像進(jìn)行分類,結(jié)果表明只有5幅圖像分類錯(cuò)誤,正確率達(dá)到99.16%。整個(gè)的判定過程實(shí)際上只使用了平均灰度、圖像最左列的標(biāo)準(zhǔn)方差、最右列的平均值3個(gè)決策變量。
1.2 ROI 定位
圖1 DX胸片的肺部ROI邊界
由于DX肺部圖像中包含了一些與診斷無(wú)關(guān)的信息,而我們感興趣的僅僅是圖像中的肺部區(qū)域,通過對(duì)感興趣區(qū)域(ROI)自動(dòng)定位,過濾掉無(wú)關(guān)信息,從而引導(dǎo)后續(xù)算法將“注
基金項(xiàng)目:廣州醫(yī)學(xué)院第二附屬醫(yī)院資助項(xiàng)目“醫(yī)院信息綜合管理系統(tǒng)”
作者簡(jiǎn)介:萬(wàn)壽紅(1971-),女,碩士、講師,主研方向:計(jì)算機(jī)視覺,圖像處理;李曦,副教授;龔育昌,教授、博導(dǎo);謝鉉洋,博士生
收稿日期:2006-02-02 E-mail:wansh@ustc.edu.cn
意力”集中在ROI,進(jìn)一步提高圖像分析處理速度及后繼邊緣檢測(cè)的正確率。一個(gè)肺部區(qū)域由row1,row2,col1,col2這4個(gè)參數(shù)決定,分別表示肺部區(qū)域的上邊界、下邊界、左邊界和右邊界,如圖1所示。
1.3 列邊界的提取
分析圖像的統(tǒng)計(jì)特性發(fā)現(xiàn),肺葉處灰度值偏小,而圖像從左右列邊界處經(jīng)過較亮的軟組織帶進(jìn)入左右肺葉。圖像的列均值曲線(如圖2)在兩側(cè)各形成一個(gè)波峰,曲線中間突起的波峰則表示脊椎中軸線位置SL。由于噪聲的影響,往往在達(dá)到峰值前已與肋膈角相切,因此利用列均值的均值MM(Mean of Means),即圖中虛線所示,按一定比例s做水平線與列均值曲線相交,并取最左和最右交點(diǎn)col1’和col2’作為列邊界Col1和Col2。試驗(yàn)中選取s=0.9得到了較好的結(jié)果。12 000 8 000 4 000 colSTD曲線SL col1’ MM col2’ MEAN曲線0 400 800 1 200 1 600
圖2 列均值曲線
1.4 行邊界的提取
行邊界的行均值無(wú)明顯特征。考慮到行上邊界處于雙肩部位,對(duì)稱性在圖像中沿SL位置呈對(duì)稱分布。而偏度(skewness)恰好描述了一組數(shù)據(jù)圍繞采樣平均值的不對(duì)稱程度。為此采用圖像的行偏度作為衡量標(biāo)準(zhǔn)求出行上邊界row1。設(shè)圖像某行數(shù)據(jù)為
1(,...,)nxx=x
則偏度skew定義為33()XXExskewμσ−=
其中,Xσ表示標(biāo)準(zhǔn)方差,Xμ表示平均值,E表示數(shù)學(xué)期望。偏度skew等于0的位置就是肺部行上界row1所在位置。
肺部區(qū)域行下界多位于胸腔與腹腔結(jié)合部位,影像特征復(fù)雜,偏度值無(wú)明顯特征?紤]到肺部區(qū)域滿足一定的寬高比,用下面的公式計(jì)算行下界: 2221ColColRowRowWH−=+
其中,WH表示肺部區(qū)域?qū)捀弑戎。WH是經(jīng)驗(yàn)參數(shù),通過多幅DX胸部正位圖象的肺部ROI區(qū)域的統(tǒng)計(jì)分析,結(jié)合放射科專家的先驗(yàn)知識(shí)得到。
2 肺部區(qū)域分割
如何快速準(zhǔn)確地檢測(cè)雙肺邊緣輪廓,是計(jì)算機(jī)輔助診斷的關(guān)鍵問題。DX圖象具有邊緣不清晰、噪聲大等特點(diǎn),盡管常規(guī)的邊緣檢測(cè)方法(sobel、Prewitt﹑kirsch等)運(yùn)算比較簡(jiǎn)單,但抗干擾能力較差,在高分辨率情況下會(huì)放大不必要的細(xì)節(jié),導(dǎo)致不合理的輪廓;在低分辨率情況下會(huì)丟失圖像的部分邊緣信息,產(chǎn)生失真和輪廓漏檢。而活動(dòng)輪廓模型(Active Shape Model, ASM)[5,6] 算法雖然對(duì)圖像的局部模糊不敏感,但需要預(yù)先通過大批樣本進(jìn)行訓(xùn)練來建立肺部輪廓線的統(tǒng)計(jì)模型,算法過于復(fù)雜。
本文 |
|