中文電子病歷的信息抽取研究*
薛萬(wàn)國(guó)
( 解放軍總醫(yī)院醫(yī)學(xué)信息情報(bào)所, 北京100853)
摘 要: 本研究的目的是加強(qiáng)自然語(yǔ)言理解和本體方法在中文醫(yī)學(xué)文本語(yǔ)義標(biāo)注和內(nèi)容分析中的應(yīng)用, 為建立計(jì)算
機(jī)可讀的電子病歷( EMR) 提供技術(shù)支持。在EMR 文檔集的構(gòu)建和預(yù)處理基礎(chǔ)上, 建立命名實(shí)體規(guī)則、分類(lèi)詞表和
領(lǐng)域本體, 根據(jù)用戶需要, 利用文本工程通用框架( GATE) 進(jìn)行相關(guān)主題的中文EMR 信息抽取和統(tǒng)計(jì)分析。實(shí)現(xiàn)
EM R 文檔集的自動(dòng)語(yǔ)義標(biāo)注和人工語(yǔ)義標(biāo)注, 得到患者年齡和性別的分布情況和腦梗死治療用藥的一般性規(guī)律。
結(jié)果表明: 基于本體的語(yǔ)義信息抽取可以進(jìn)一步提高計(jì)算機(jī)對(duì)文本的 理解 能力, 通過(guò)領(lǐng)域本體進(jìn)行EMR 的知識(shí)
發(fā)現(xiàn)是可行的。
|
|