數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)中的應(yīng)用探討
張曉東 宋生勤
中山大學(xué)附屬第三醫(yī)院信息科(廣州 510630)
摘要:本文介紹了數(shù)據(jù)挖掘的概念,任務(wù)和效果的評(píng)估方法,初步探討了數(shù)據(jù)挖掘的各
種方法以及它在醫(yī)學(xué)領(lǐng)域中的應(yīng)用。
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;神經(jīng)網(wǎng)絡(luò);支持向量機(jī)
The Discussion of Application with Data Mining Technology
in Medicine
ZhangXiaodong Dep. of Info. Service The Third Affiliated Hospital of Sun Yat-sen University
zhangxiaodong@163.net (GuangZhou 510630)
Abstract: In this paper we introduce the concept, task of data mining, including the
performance evaluation methods. And we discuss the application with the technology in
medicine.
Keywords: data mining; decision tree; neural network; support vector machine
1. 引言
近年來,數(shù)據(jù)挖掘技術(shù)引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是先進(jìn)的科學(xué)手
段為我們產(chǎn)生了大量的數(shù)據(jù),并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。獲取
的信息和知識(shí)可以廣泛用于各種應(yīng)用,包括商務(wù)生產(chǎn)、生產(chǎn)控制、市場(chǎng)分析、工程設(shè)計(jì)
和科學(xué)探索等。數(shù)據(jù)的豐富帶來了對(duì)強(qiáng)有力的數(shù)據(jù)分析工具的需求,大量的數(shù)據(jù)被描述
為“數(shù)據(jù)豐富,但信息貧乏”。快速增長(zhǎng)的海量數(shù)據(jù)收集、存放在大型和大量數(shù)據(jù)庫(kù)中,
需要強(qiáng)大的工具進(jìn)行分析。
目前的數(shù)據(jù)庫(kù)系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等較低層次的功能, 但
無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則, 無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì),無法發(fā)
現(xiàn)海量數(shù)據(jù)背后隱藏的重要的知識(shí), 出現(xiàn)了“我們被數(shù)據(jù)所淹沒,但卻缺乏知識(shí)”的現(xiàn)
象。
隨著醫(yī)院信息系統(tǒng)(hospital information system, HIS)的普及以及人類基因組計(jì)劃和
分子生物醫(yī)學(xué)信息科學(xué)的飛速發(fā)展,醫(yī)學(xué)數(shù)據(jù)空前增長(zhǎng),像功能基因組和蛋白質(zhì)組的數(shù)
據(jù)已成指數(shù)級(jí)增長(zhǎng)。如何對(duì)大量的數(shù)據(jù)進(jìn)行存儲(chǔ)、管理、對(duì)比、檢索,尋找其相關(guān)性,
挖掘數(shù)據(jù)中所隱藏的規(guī)律,以及對(duì)海量的數(shù)據(jù)進(jìn)行自動(dòng)獲取,需要新的技術(shù)。
2
2 數(shù)據(jù)挖掘的概念
2.1 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)
簡(jiǎn)單地說,數(shù)據(jù)挖掘(data mining ,DM),是從大量數(shù)據(jù)中提取或“挖掘”出有用的知
識(shí)[1]。數(shù)據(jù)挖掘技術(shù)進(jìn)行數(shù)據(jù)分析,可以發(fā)現(xiàn)重要的數(shù)據(jù)模式,對(duì)商務(wù)決策、知識(shí)庫(kù)、
科學(xué)和醫(yī)學(xué)研究做出了巨大貢獻(xiàn)[2]。另外還有一個(gè)概念是知識(shí)發(fā)現(xiàn)(knowledge discovery
in database,KDD),它被Fayyad 定義為:KDD 是從數(shù)據(jù)集中識(shí)別出有效的、新穎的、
潛在有用的,以及最終可理解的模式的非平凡過程[3]。
知識(shí)發(fā)現(xiàn)過程一般由以下一些步驟組成:1.數(shù)據(jù)清理;2.數(shù)據(jù)集成;3.數(shù)據(jù)選擇;
4.數(shù)據(jù)變換;5.數(shù)據(jù)挖掘;6.模式評(píng)估;7.知識(shí)表示[1]。從中可以看出,數(shù)據(jù)挖掘是知
識(shí)發(fā)現(xiàn)中一個(gè)步驟,數(shù)據(jù)挖掘的廣義觀點(diǎn)是從存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其它信息庫(kù)中
的大量數(shù)據(jù)中挖掘有趣的知識(shí)的過程。相對(duì)來講,數(shù)據(jù)挖掘主要流行于統(tǒng)計(jì)界、數(shù)據(jù)分
析、數(shù)據(jù)庫(kù)和管理信息系統(tǒng)界;而知識(shí)發(fā)現(xiàn)則主要流行于人工智能和機(jī)器學(xué)習(xí)領(lǐng)域。
2.2 數(shù)據(jù)挖掘的任務(wù)
數(shù)據(jù)挖掘的任務(wù)常見有以下幾種。
1.?dāng)?shù)據(jù)總結(jié):其目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。它主要關(guān)心從數(shù)據(jù)泛
化的角度來討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化目前主要采用多維數(shù)據(jù)分析方法和面向?qū)傩?br />
的歸納方法。
2.相關(guān)性分析:也稱作關(guān)聯(lián)發(fā)現(xiàn)。其目的是發(fā)現(xiàn)特征之間的相互依賴關(guān)系,常用的
技術(shù)有回歸分析、關(guān)聯(lián)規(guī)則、信念網(wǎng)絡(luò)等。
3.聚類分析:它是根據(jù)數(shù)據(jù)的不同特征,將其劃分為不同的數(shù)據(jù)類別。它使得屬于
同一類別的個(gè)體之間的距離盡可能的小,而不同類別上的個(gè)體間的距離盡可能的
大。在機(jī)器學(xué)習(xí)中聚類屬于無監(jiān)督學(xué)習(xí)。
4.分類與回歸:它是數(shù)據(jù)挖掘中非常重要的任務(wù),應(yīng)用最為廣泛。分類和回歸都可
用于預(yù)測(cè),其目的是從已知的歷史數(shù)據(jù)記錄中自動(dòng)推導(dǎo)出對(duì)給定的數(shù)據(jù)的推廣描
述,從而能對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測(cè)。分類的輸出是離散的類別值,而回歸的輸出則
是連續(xù)數(shù)值,它們都屬于有監(jiān)督學(xué)習(xí)。
5.偏差檢驗(yàn):偏差分析包括分類中的反常實(shí)例、例外模式、觀測(cè)結(jié)果對(duì)期望值的偏
離以及量值隨時(shí)間的變化等,基本思想是尋找觀察結(jié)果與參照量之間的有意義的
差別。通過發(fā)現(xiàn)并分析異常,引起人們對(duì)特殊情況的注意。
數(shù)據(jù)挖掘技術(shù)作為一門具有廣泛應(yīng)用的新興學(xué)科,已經(jīng)在文本分類、Web 知識(shí)發(fā)現(xiàn)、
手寫 |
|