您當前的位置：首頁 > 市場 > 百科 > 行業(yè)研究 > 專家專欄 > HIT專家 > EMR產(chǎn)品經(jīng)理-Zidane的專欄

EMR與自然語言處理相關幾個問題的總結

時間：2011-07-22 06:30:34 來源：作者：Zidane

一，國內外EMR應用情況

近年來，EMR作為醫(yī)療信息化的一個重點方向，在國內外均有很大的發(fā)展，以下分別以美國和日本為例，簡單介紹下國內外EMR的應用狀況。

美國的情況：

美國在電子病歷相關的模型與理論等多個方面均完成了大量工作，同時，結合美國的衛(wèi)生管理部門對于醫(yī)藥行業(yè)存在問題的分析，美國的電子病歷系統(tǒng)建設具有十分明顯的針對性，所建設的系統(tǒng)一定要立足于解決在醫(yī)療實踐中切實存在的錯誤與問題。

美國著名的HIMSS首先將電子病歷(EMR)劃分為臨床數(shù)據(jù)存儲庫（CDR）、臨床決策支持系統(tǒng)（CDSS）、受控醫(yī)學詞匯表(CMV)、計算機支持醫(yī)院醫(yī)囑系統(tǒng)（CPOE）、藥品管理系統(tǒng)、以及臨床文檔應用程序等若干個部分，然后結合其他醫(yī)療信息系統(tǒng)的建設過程，將EMR的建設分成了如下8個階段：

階段0：藥品管理系統(tǒng)、LIS（檢驗科信息系統(tǒng)）、RIS（放射科信息系統(tǒng)）三大主要臨床輔助系統(tǒng)沒有建立；

階段1：藥品管理系統(tǒng)、LIS、RIS三大主要臨床輔助系統(tǒng)實現(xiàn)；

階段2：主要臨床輔助系統(tǒng)提供數(shù)據(jù)給CDR以便醫(yī)師重新得到或回顧結果，CDR包括了一個受限醫(yī)學詞匯表和臨床決策支持/規(guī)則引擎。這個階段CDR可以鏈接來自影像系統(tǒng)的信息；

階段3：護理系統(tǒng)、圖表、治療計劃和電子藥物管理系統(tǒng)（eMAR）已經(jīng)實現(xiàn)并和CDR結合。臨床決策支持的第一個水平是實現(xiàn)對醫(yī)囑錄入的操作錯誤檢查（如藥物/藥物、藥物/食品、藥物/檢查沖突檢查）。PACS（醫(yī)學影像系統(tǒng)）的接口能讓醫(yī)師通過組織內部網(wǎng)絡訪問相關的醫(yī)學圖像；

階段4：護理和CDR環(huán)境中增加了供任何臨床醫(yī)師使用的CPOE，同時實現(xiàn)了涉及到基于醫(yī)學協(xié)議的第二水平臨床決策支持；

階段5：全跟蹤藥物治療管理環(huán)境完全實現(xiàn)，eMAR和條形碼以及其它自動標識技術（如 RFID）已實現(xiàn)，并與CPOE及藥物系統(tǒng)結合在一起，在藥物管理上實現(xiàn)患者衛(wèi)生保健過程中安全的最大化；

階段6：實現(xiàn)上面提到的完全的醫(yī)療文檔/圖表。第三水平的臨床決系統(tǒng)和臨床醫(yī)生診療行為的向導。這些向導與以變化的及依從性的警報形式提供的協(xié)議和成果相關。一個完全功能的PACS系統(tǒng)在內部網(wǎng)絡內向醫(yī)師提供醫(yī)學圖像，取代了所有膠片圖像；

階段7：臨床信息能夠與在一個區(qū)域衛(wèi)生網(wǎng)絡中所有的實體（如其它醫(yī)院、門診部、急救中心、雇主，付款人和患者）經(jīng)過電子事務或交換電子記錄方式方便地共享。醫(yī)學記錄完全電子化/無紙化。這個階段允許醫(yī)療機構支持真正的EHR；

上述各階段的劃分，是和美國醫(yī)療行業(yè)現(xiàn)狀有密切的關系，根據(jù)美國醫(yī)學研究所與疾控中心的一份統(tǒng)計報告，醫(yī)療處置不當或錯誤近年來一直排在美國人死因的前十位，排名高于多種常見疾病，人數(shù)初步估算在48，000到96，000之間，而此類錯誤中，絕大部分是藥品使用錯誤。

同時，美國醫(yī)學研究所認為，在每年發(fā)生的幾百萬件醫(yī)療錯誤中，有相當比例可預防。

在上述基本共識的基礎上，美國電子病歷建設的第一階段就是要構建藥品管理系統(tǒng)，重點防范藥品使用錯誤，然后在第二階段對臨床輔助系統(tǒng)進行建設，以獲得客觀準確的數(shù)據(jù)來支持更準確的決策，然后在后續(xù)的階段當中，對醫(yī)療操作的過程與文檔信息兩個方面進行信息化的建設與完善工作，真正提高醫(yī)療質量。

HIMSS曾經(jīng)對美國的5000多家醫(yī)院進行了評分，0-2階段的占70%以上，到達第6階段的為1%左右，3-5階段的大約在20%，大部分醫(yī)院的信息化水平基本處于第3階段。

同時，美國電子病歷在建設過程中，結合美國醫(yī)療界公私結合，注重規(guī)范與效率等特征，十分注意信息化建設的實效，故此，形成了傳統(tǒng)手工流程與信息化流程相結合，科室與全院相結合，使用電子病歷與不使用電子病歷人員相結合的復雜局面。

此外，由于美國醫(yī)療系統(tǒng)制度的不統(tǒng)一，且各地醫(yī)院發(fā)展不均衡，所要解決的問題與階段存在差異，造成了在諸多大型醫(yī)院內部系統(tǒng)數(shù)量大，客觀上促進了集成與相關標準的發(fā)展。

一個基于IHE組織定義的醫(yī)院系統(tǒng)集成實例示意圖

日本的情況：

日本2006年的IT新改革戰(zhàn)略中，涉及到醫(yī)療的部分，將日本的醫(yī)療信息化建設分為如下5步目標：

1，制定醫(yī)療衛(wèi)生全面發(fā)展規(guī)劃

有效地促進醫(yī)療，健康，護理，福利各方面的系統(tǒng)信息化；

2，進一步推動醫(yī)療信息系統(tǒng)的發(fā)展

進一步普及電子病歷等醫(yī)療信息系統(tǒng)，提高醫(yī)療服務質量，保證醫(yī)療安全，促進各醫(yī)療機關間的相互合作；

3，促進遠程醫(yī)療

促進遠程醫(yī)療，消除地區(qū)間醫(yī)療服務水平的差距，同時，利用數(shù)字電視等手段，實現(xiàn)緊急救援時對病人的指導；

4，構建國民健康數(shù)據(jù)庫與應用服務平臺

到2010年，構建國民健康信息數(shù)據(jù)庫和能充分利用該數(shù)據(jù)庫的應用服務平臺，讓國民也能把握自己的健康狀況，努力促進國民的健康；

5，實現(xiàn)醫(yī)療結算全面OnLine

計劃于2011年，實現(xiàn)醫(yī)療結算的全面OnLine化，削減醫(yī)療保險成本，建立結算數(shù)據(jù)庫，推進疾病預防的發(fā)展，并推動國民醫(yī)療費用合理化；

其中的第二個階段，電子病歷是發(fā)展的重點。

日本目前電子病歷的建設高度突出了多個系統(tǒng)與功能進行集成的特征，在不同角色的工作站中，將患者信息管理，醫(yī)囑與臨床處置，臨床路徑，決策支持等幾個方面的功能實現(xiàn)了很好的集成。

多種資料表明，由于日本國內醫(yī)療服務的高標準要求，促成了日本的電子病歷系統(tǒng)在細節(jié)處理與人性化設計方面的明顯優(yōu)勢。

二，EMR主要涉及的技術及其發(fā)展

目前，電子病歷的實現(xiàn)所涉及的幾個關鍵技術問題有：

Ø 結構化處理方式

Ø 編輯工具

Ø 存儲方式

Ø 系統(tǒng)集成

1，結構化處理方式

電子病歷的首要職能是作為醫(yī)療過程的一種記錄形式而存在，而為了能夠在醫(yī)療過程中提供安全可靠的信息，為臨床人員提供信息資源，對個體或群體患者制定科學的醫(yī)療計劃，并為公共衛(wèi)生方面的工作提供支持等，必須將文檔的理解層級由人工可識別，過渡到計算機可識別，直到計算機可處理，為實現(xiàn)這個目標，病歷內容的結構化顯然是必須要完成的工作。

以下，我們從現(xiàn)有病歷的基本結構模型，結構化的幾種主要實現(xiàn)方式，以及優(yōu)缺點等幾個方面，綜合了解下目前有關病歷結構化處理工作的進展：

（1）病歷的結構模型

在電子病歷出現(xiàn)以前，臨床病歷幾乎完全以自然語言進行描述。一個典型的模型是POMR，目前國內常見的病歷結構，基本是POMR思想指導下的SOAP描述方式：

S-Subjective：主觀內容，可以近似認為是主訴與現(xiàn)病史

O-Objective：客觀內容，體現(xiàn)在輔助檢查

A-Assessment：評估性的內容，可以認為診斷是屬于這類

P-Plan：計劃，診療計劃屬于這個范圍

但是，毫無疑問，結構化到這種程度，遠遠不能滿足從電子病歷挖掘醫(yī)療規(guī)律，支持循證醫(yī)學與臨床科研等工作的要求。

（2）結構化的幾種主要實現(xiàn)方式與優(yōu)缺點

目前，結構化的實現(xiàn)方式多種多樣，但實際總結起來，其技術思想基本是兩大類：SDE與MLP。

SDE（結構化數(shù)據(jù)錄入）的方式：是目前可以實現(xiàn)極高程度結構化的一種數(shù)據(jù)采集方式，通過軟件上的菜單，選項框等各種控件，結合一定的醫(yī)學智能判斷，實現(xiàn)在預定模板范圍內的信息100%準確獲取，國外代表產(chǎn)品系列為OpenSDE。

SDE的操作方式最大的優(yōu)點是能夠完整準確的獲得臨床信息；缺點則是由于將受控詞匯原封不動的表現(xiàn)在前端，使得臨床醫(yī)生操作極為不便，在效率和靈活性上有明顯的缺陷。

MLP（醫(yī)學語言處理）的方式：則是尊重臨床人員采用自然語言描述病歷的習慣，在自然語言描述的內容基礎上，通過預定義的術語集來實現(xiàn)信息的獲取等工作。

MLP方式的優(yōu)點是與幾乎完全繼承了醫(yī)務人員以往的工作習慣，操作簡便，學習曲線平滑；缺點則是現(xiàn)有的自然語言處理技術準確性不足，在某些場景下尚不能達到醫(yī)療工作的需要。

目前，針對上述問題的解決方案，一般從如下兩個方向進行考慮：

融合：將SDE與MLP兩種方式進行結合

這種思路指導下的典型例子，是目前國內普遍出現(xiàn)的在“所見即所得”編輯器基礎上的受控詞匯嵌入自然語言的模板，通過直觀的編輯工具，結合具體的臨床科室，將病歷內容盡可能采用自然方式展現(xiàn)出來，同時，對其中有臨床科研與其他數(shù)據(jù)利用價值的詞匯進行結構化處理，兩類數(shù)據(jù)并存于整個文檔中，結構化的數(shù)據(jù)類似于一種鑲嵌方式存在；當數(shù)據(jù)利用時，就可以從同一個病歷文檔中，獲得多方面的數(shù)據(jù)。

這種融合的思路最大的優(yōu)勢是通過臨床工作的嚴肅性保證了數(shù)據(jù)的準確，同時也能夠一定程度的解決SDE與MLP的矛盾，目前面臨的主要問題是，在不同的臨床科室內，是否能定制出對多個病種足夠適應的模板；以及在不同的科研與數(shù)據(jù)利用要求下，是否可能通過一個模板來滿足多個不同角度與科研與數(shù)據(jù)利用的要求。

目前，國內推出的《電子病歷架構與數(shù)據(jù)標準》，提出了臨床文檔-文檔段-數(shù)據(jù)組-數(shù)據(jù)元的四級概念，其核心思想是將病歷內容逐層的進行結構化處理，對電子病歷的技術實現(xiàn)，具有很高的指導意義。

分立：從實際需求出發(fā)，在不同的業(yè)務場景下?lián)P長避短，有針對性的發(fā)揮SDE與MLP兩種方式各自的優(yōu)勢。

目前，這種思路也有相當比例的市場，比如，從醫(yī)療工作的要求來看，某些需要獲取的信息比較簡練，且操作時間要求高，則可以將需要采集的內容固化到軟件界面上，定制為高度簡潔的SDE式窗口，臨床醫(yī)療工作者只需要簡單的點選與操作，即可完成必要的數(shù)據(jù)采集；而對于病歷文檔這種自然語言特征明顯的內容，則結合機器自動處理與人工標注，實現(xiàn)數(shù)據(jù)利用的需要。

（3）可能的幾個突破方向

通過上述的比較，已經(jīng)可以看出，在SDE與MLP兩種方式存在融合與分立的現(xiàn)狀，技術上可能的幾個突破方向，無非是以下幾種：

基于多維術語集的智能模板：

不論是SDE還是MLP，首先均需要標準化的術語集支持，在此基礎上，方可以定義諸如醫(yī)療行為索引，醫(yī)療行為關系及相應字典等構成臨床數(shù)據(jù)中心的基礎設施。

在標準化術語集存在后，為解決自然語言描述與受控結構化描述之間的矛盾，可基于多維術語集智能模板來實現(xiàn)高命中率的模板，如根據(jù)患者的基本信息，初步印象，關鍵檢查與檢驗，重要癥狀與體征，生成與臨床醫(yī)生期望較為接近的模板。

自然語言處理（尤其是中文）技術的發(fā)展：

病歷中的檢驗與醫(yī)療處置類信息一般已經(jīng)高度結構化，要提高信息利用率，首先要解決的問題是多系統(tǒng)數(shù)據(jù)的集成，但對于病史類文字，則可能要寄希望于自然語言處理技術（尤其是中文分詞技術）的進一步發(fā)展，這種在后期結構化的方式最大的優(yōu)點在于可以將原始文檔幾乎完全獨立，完全根據(jù)自然語言處理的發(fā)展程度來進行數(shù)據(jù)利用工作。

2，編輯工具

目前，電子病歷的編輯工具是電子病歷系統(tǒng)實現(xiàn)的基礎性構件，通過編輯器，可以反映出一個電子病歷系統(tǒng)的數(shù)據(jù)架構，對結構化的處理程度等多方面的設計水平。

電子病歷的編輯工具可根據(jù)是否所見即所得與是否結構化，分為如下幾類：

（1）SDE式編輯工具

與這種編輯工具最接近的醫(yī)療概念，是表格病歷。

嚴格來說，這種編輯工具并不能成為完整的電子病歷編輯器，因為其僅僅是通過界面的方式，完成了一定的信息采集工作，諸如排版，文本格式處理等一系列功能，均需要額外提供排版工具來進行處理。

一些優(yōu)秀的SDE編輯器，可以一定程度上適應不同科室的要求，實現(xiàn)前后文選擇控件內容之間的關系，體現(xiàn)一定的醫(yī)療邏輯，故目前這種編輯工具還是有一定比例的市場。

目前，此類編輯器的技術實現(xiàn)，大多是采用Windows環(huán)境下的開發(fā)工具，如PB，Delphi，VB或VC#等，將多個控件組合成為科室模板，同時將每個控件所代表的醫(yī)療信息內置于模板中，在每個科室調用時，根據(jù)所選擇的控件值所反映出的醫(yī)療關系，對整個界面上的控件布局進行控制，以體現(xiàn)醫(yī)療邏輯與流程。

（2）“所見即所得”的自由文本編輯器

此類編輯器功能一般較為簡單，對結構化涉及較少，多為直接調用相對成熟的文本編輯組件，如MS Word，同時進行簡單的結構劃分，如主訴，現(xiàn)病史級別的劃分。

對于這種編輯器，如果要進行病歷內容結構化的工作，則只能采用自然語言處理的技術。

（3）“所見即所得”的結構化病歷編輯器

顧名思義，這種編輯器是將文本編輯功能與結構化的設計融合在一起，既能對文本進行常規(guī)排版，同時還可以在其中體現(xiàn)出對病歷結構化的編輯。

此類編輯器的設計初衷，大多是要充分照顧自然語言輸入的習慣，并在編輯的同時，直接完成結構化詞匯的生成，完成對病歷數(shù)據(jù)利用的準備。

從技術角度來看，這種編輯器的設計思路是較為先進的，但最大的不足是實現(xiàn)難度較大，目前業(yè)內普遍認為，此類編輯器從開發(fā)到成熟，平均需要5-6年的時間。

目前，這種編輯器由于要直接處理復雜的內容節(jié)點，通常與xml技術相結合。

3，存儲方式

首先，xml技術由于其自解釋，實現(xiàn)多級對象節(jié)點方便，文檔類型定義與文檔內容可分離等多種特性，已經(jīng)成為電子病歷領域文檔實體的事實標準。

目前，電子病歷內容具體的存儲方式可以簡單的歸結為如下幾類：

（1）基于關系型數(shù)據(jù)庫

目前，鑒于關系型數(shù)據(jù)庫占據(jù)了相當高的市場份額，故基于關系型的數(shù)據(jù)庫存儲也成為電子病歷市場的主流選擇，具體的實現(xiàn)，一般有字段存儲+應用期組合，xml作為對象存儲，xml原生存儲等三種方式：

字段存儲+應用期組合

這種方式是對病歷的結構進行拆解，然后存入數(shù)據(jù)庫的字段，在應用層調用時，通過對各個數(shù)據(jù)字段的組合，生成邏輯上的xml文檔供應用層使用。

此方式最大的優(yōu)點在于某些簡單的數(shù)據(jù)利用要求出現(xiàn)時，可以充分利用傳統(tǒng)關系型數(shù)據(jù)庫的優(yōu)勢，提供極好的性能，但缺點則是由于對復雜的數(shù)據(jù)操作一律要在客戶端處理，故技術實現(xiàn)較為繁瑣，運行效率也容易受到限制。

xml與數(shù)據(jù)庫字段的關系圖

xml作為對象存儲

這種方式通常結合了數(shù)據(jù)庫系統(tǒng)對xml的存儲支持，目前業(yè)內主流的數(shù)據(jù)庫系統(tǒng)均支持將xml作為BLOB字段進行存儲

此種方式，將病歷文檔進行大粒度的分解后，直接以xml方式存儲于數(shù)據(jù)庫的BLOB字段中，同時，為了某些簡單的數(shù)據(jù)檢索等需要，通常會在存儲該xml文檔時，將該文檔中一些常用的數(shù)據(jù)直接存儲在數(shù)據(jù)字段中。

xml原生存儲

xml原生存儲的方式是伴隨著數(shù)據(jù)庫對xml的存儲技術不斷進步而產(chǎn)生的，某些數(shù)據(jù)庫系統(tǒng)軟件針對xml的特征設計存儲結構，可以在整體存儲xml文檔的同時，還可以高效的實現(xiàn)對xml內部詳細信息的檢索。

該方式目前最大的缺陷，是所提供的檢索技術對現(xiàn)有的粗細結合粒度的xml文檔檢索能力有限。

（2）基于后關系型數(shù)據(jù)庫

以Cache為代表的數(shù)據(jù)庫系統(tǒng)軟件，在其內部實現(xiàn)了強大的面向對象功能，可以實現(xiàn)諸如無窮分級這樣的特殊功能，但由于在國內市場份額不高，技術支持相對較少等原因，前景不甚明朗。

（3）文件服務與數(shù)據(jù)庫相結合

某些較早期的電子病歷系統(tǒng)中，有些是將病歷文件直接存儲于文檔服務器上，然后在提交或歸檔時，存儲于數(shù)據(jù)庫中，該方式同樣存在客戶端壓力較大的問題，今后應當會逐漸被替代。

4，系統(tǒng)集成

電子病歷的一個重要功能是實現(xiàn)臨床信息集成，向臨床醫(yī)療工作者全面展示相關信息，但由于電子病歷的各周邊系統(tǒng)建設程度參差不齊，且起始階段就無統(tǒng)一標準，而隨著實際應用的逐漸深入，一線使用者對集成的要求與日俱增，為解決此類問題，美國提出了諸如HL7，DICOM等一系列標準。

目前，國內的各個系統(tǒng)集成過程中，對于較為簡單的集成要求，直接采用界面集成的方法；對于若干系統(tǒng)之間的數(shù)據(jù)通信，往往是雙方約定數(shù)據(jù)庫的讀寫范圍，直接在數(shù)據(jù)庫層面進行數(shù)據(jù)集成。

但是，當一個醫(yī)療單位的信息化系統(tǒng)數(shù)量達到一定程度之后，上述方式的問題立即凸顯，隨著系統(tǒng)的增多，需要集成的工作量呈平方增長關系。

通過對此類情況的處理，國內某些醫(yī)療單位與公司在信息集成方面也總結了比較豐富的經(jīng)驗，選擇性的使用HL7等國際標準，通過Web Services與MQ等技術手段，也積累了一定的成熟案例。

三，自然語言處理技術在醫(yī)療領域的應用現(xiàn)狀及趨勢

按照維基百科上的介紹，自然語言處理的關鍵技術基本涵蓋如下方面：

文本朗讀與語音合成，語音識別，中文分詞，詞性標注，句法分析，自然語言生成，文本分類，信息檢索，信息抽取，文字校對，問答系統(tǒng)，機器翻譯，自動摘要。

其中，中文分詞與信息檢索及信息抽取，是自然語言處理技術的重要問題，在醫(yī)療領域應用也主要集中于這幾個方面，因信息檢索與抽取等技術相對比較成熟，本文的討論將主要集中于其中的中文分詞。

目前的中文分詞，一般有三大類

（1）基于詞典的分詞：一般將需要處理的文檔與詞典中的詞匯進行匹配，在匹配過程中，根據(jù)優(yōu)先匹配長度的不同，有最大與最小匹配算法；而根據(jù)掃描方向的差別，又可分為正向匹配和逆向匹配算法，以及將正反兩個方向相結合的雙向匹配法。

從精度來看，在上述幾種方法當中，逆向匹配略高于正向匹配，但目前已有的此類算法錯誤率依然導致精度不能滿足實際使用的需要，所以在實際使用時，大多是將基于詞典的方法作為分詞第一步工作，然后結合其他方法進一步處理。

具體改進的方式，大概有如下幾種，結合分類特征表示的優(yōu)化，結合詞性標注的優(yōu)化，以及后續(xù)加以其他分詞手段（如基于統(tǒng)計語言模型）的處理。

目前，主要基于詞典的分詞方法，一般用于簡單的醫(yī)療文檔處理，如檢查報告，或者病歷文檔中的文檔段級別，如手術記錄，并在此基礎上結合一定的人工判斷與加工，這種應用的發(fā)展是得益于此類文檔一般結構相對固定，同時詞匯集合數(shù)量比較小，術語描述受控程度較高。

通過目前應用的現(xiàn)狀也驗證了一個基本事實：術語詞典的完善與精確程度對分詞的準確度有十分重大的影響。

（2）基于統(tǒng)計的分詞：基于統(tǒng)計的分詞方法近年來由于機器學習等技術的發(fā)展也日漸成熟，這種分詞方法的一個基本前提是：詞匯是由字組成的，然后通過組合出現(xiàn)的概率來判斷是否某個短字符串是否是一個詞，判斷概率時，將各個字在文檔中出現(xiàn)的概率相乘：

P(S) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)

單純使用這種分詞方法時最常見的缺陷是只顧頻率，忽視實際意義，比如可能會分出很多“之一”“我的”等常用但意義不大的詞匯，為彌補此缺陷，通常會結合基于詞典的分詞來處理。

基于統(tǒng)計的分詞另一個重要的實現(xiàn)方式是采用機器學習的方法，準備好一套已經(jīng)預先分詞完畢的預料，通過機器學習的模型去學習分詞的規(guī)律，然后利用抽象出的規(guī)律對新的文本進行分詞。

目前，基于統(tǒng)計的分詞對于同義詞的處理有較好的效果，通常與其他分詞方式結合使用，但由于實現(xiàn)的技術難度較高，目前在醫(yī)療實踐中尚未廣泛應用。

（3）基于規(guī)則與理解的分詞：這種分詞方法的理論基礎是構造在漢語詞法分析基礎上的，有報道稱采用層疊隱馬爾可夫模型進行處理，也取得了較好的效果。

這種分詞方法在進行詞法分析的階段，綜合考慮長度，平均長度，自由語素度以及各種過濾器，如布隆過濾器。

此類分詞引擎的實現(xiàn)技術難度相當高，目前，國內這方面最成熟的成果是ICTCLAS。

綜上，三種分詞方法可以從多個方面進行個對比，如下表：

三種分詞方法的優(yōu)劣對比

分詞方法	基于字符串匹配分詞	基于理解的分詞	基于統(tǒng)計的分詞
歧義識別	差	強	強
新詞識別	差	強	強
需要詞典	需要	不需要	不需要
需要語料庫	否	否	是
需要規(guī)則庫	否	是	否
算法復雜性	容易	很難	一般
技術成熟度	成熟	不成熟	成熟
實施難度	容易	很難	一般
分詞準確性	一般	準確	較準
分詞速度	快	慢	一般

目前，中文分詞在實踐中的最大難點在歧義的處理和特殊詞識別。

歧義的識別，基于統(tǒng)計與規(guī)則的方法都能進行一定程度的處理，不過考慮到醫(yī)療的文字描述準確性的要求，更多的應當首先在文檔的生成過程中盡可能消除歧義。

對于特殊詞識別，基于詞典的處理方式是不可能處理的，鑒于新詞的生成也是很大程度上符合既往規(guī)則的產(chǎn)物，故對于新詞識別，可優(yōu)先考慮基于理解的分詞方法。

四，自然語言處理技術在EMR中的實現(xiàn)要點

目前的醫(yī)療文檔（尤其是病歷）絕大部分是以自然語言描述，大量已發(fā)現(xiàn)與未發(fā)現(xiàn)的信息存在于現(xiàn)有的醫(yī)療文檔中，不論是臨床醫(yī)學還是基礎生物醫(yī)學，都對于現(xiàn)有文檔的信息處理與知識發(fā)現(xiàn)提出很高要求，自然語言處理，尤其是中文分詞的發(fā)展，毫無疑問會極大程度的為這些工作提供幫助。

但是，考慮到漢語本身的復雜性，完成此工作，必須要從中文分詞以及自然語言處理的基礎理論，醫(yī)學模型以及軟件工程實踐等多個方面綜合考慮，才有實現(xiàn)并逐步進行完善的可能。

簡單的說，使用自然語言的相關成果，為醫(yī)療領域的信息化（尤其是EMR）建設服務時，可以優(yōu)先考慮從如下幾個方面入手：

1，半自動中文分詞

目前，由于病歷相關的術語集過于復雜與理論化，在實際用于臨床時，合適的裁剪模型尚不成熟，所以可以考慮機器自動分詞加上人工的方式來處理。

具體操作時，可以在某個研究項目開展時，選擇性的對某些文檔先進行機器自動化分詞處理，這樣即使存在某些分詞不準確導致案例遺漏的情況，也可以通過適當擴大樣本量來補充；在機器自動處理完成后，進行一定的人工審核與數(shù)據(jù)完善，并進行記錄，最終將處理后的數(shù)據(jù)作為研究的信息來源。

通過上述處理步驟后，可進行進一步的檢索與分析工作。

此類方式的核心在于通過不斷提高機器自動分詞的準確度與速度，減少擴大的樣本量與人工處理的工作量。

2，自然語言生成

鑒于醫(yī)療當中存在某些表格病歷類似的情況，可以在某些醫(yī)療單據(jù)通過點選的方式，確定關鍵信息，然后生成符合醫(yī)療規(guī)范要求的自然語言，由人工進行一定的修改完善后，作為最終的醫(yī)療文檔。

3，小范圍搜索引擎的構建

對于常見病的經(jīng)典病歷，以及某些診療指南與臨床證據(jù)，可以構建科室級以及院級的搜索引擎，綜合使用自動標注、中文分詞加信息檢索的技術，隨時提煉各類信息供臨床醫(yī)療工作者使用。

上述各類應用的技術難點，在于如下幾個關鍵的設施是否足夠完善：

1，可根據(jù)需要進行簡化以適應臨床工作的術語集

高度可用的術語集是分詞與分類等一系列工作的基礎，關鍵在于如何在實踐中找到合理的篩選標準，將現(xiàn)有的高度規(guī)范的術語集工作與臨床的具體實踐相結合后，可以既照顧臨床工作的方便，又能保證生成數(shù)據(jù)與規(guī)范術語的對應。

2，結合醫(yī)學規(guī)則的中文分詞算法

基于規(guī)則的中文分詞算法在現(xiàn)有的分詞算法當中屬于技術難度較高者，一個重要的原因是漢語的詞匯全集十分復雜，但醫(yī)學的詞匯集合具有“較有限”“相對規(guī)范”等特點，故可以將醫(yī)療邏輯作為一個規(guī)則庫不斷的進行豐富，同時結合詞典分詞與統(tǒng)計分詞，提高醫(yī)學中文分詞算法的精度與速度。

3，大數(shù)據(jù)量的存儲與多系統(tǒng)集成技術

進行完善的醫(yī)療研究與臨床工作，往往需要多方面的數(shù)據(jù)進行支持，且電子病歷在實際工作中產(chǎn)生的數(shù)據(jù)量是比較大的，已有證據(jù)表明，電子病歷所產(chǎn)生的數(shù)據(jù)量在各醫(yī)療信息系統(tǒng)中幾乎一直排名前三。

在這樣的背景下，需要引起注意的是隨著數(shù)據(jù)應用要求的不斷提高，大量數(shù)據(jù)的存儲架構上的調整，以及如何將多個系統(tǒng)進行集成，綜合利用各個系統(tǒng)的數(shù)據(jù)為醫(yī)學實踐服務。

來頂一下

返回首頁

欄目更新

欄目熱門

女高中生上课自慰流白浆_金瓶梅全集在线观看_人妻互换免费中文字幕网站_国产玖玖资源站免费_最经典的人与动物故事

EMR與自然語言處理相關幾個問題的總結