數(shù)據(jù)挖掘技術(shù)
(Data Mining Techniques)
林源洪
集美大學(xué)理學(xué)院
(School of Sciences,Jimei University)
1
第一章引言
1什么激發(fā)了數(shù)據(jù)挖掘,為什么它是重要的
需要是發(fā)明之母。數(shù)據(jù)挖掘之所以引起信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。獲取的信息和知識(shí)可以廣泛地用于各種應(yīng)用,包括商務(wù)管理、生產(chǎn)控制、市場(chǎng)分析、工程設(shè)計(jì)和科學(xué)探索。所以,數(shù)據(jù)挖掘是信息技術(shù)自然演化的結(jié)果,因而是重要的。
2什么是數(shù)據(jù)挖掘
簡單地說,數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。從廣義上來說,數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中挖掘有趣知識(shí)的過程。基于這種觀點(diǎn),典型的數(shù)據(jù)挖掘系統(tǒng)具有以下主要成分:
1)數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫
2)數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器
3)知識(shí)庫
4)數(shù)據(jù)挖掘引擎(用于特征化、關(guān)聯(lián)、分類、聚類分析以及演變與偏差分析)
5)模式評(píng)估模塊
6)圖形用戶界面
2
3在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘
原則上講,數(shù)據(jù)挖掘可以在任何類型的信息存儲(chǔ)上進(jìn)行。它包括以下幾個(gè)方面:
1)關(guān)系數(shù)據(jù)庫
2)數(shù)據(jù)倉庫
3)事務(wù)數(shù)據(jù)庫
4)高級(jí)數(shù)據(jù)庫系統(tǒng)
5)展開文件和WWW
4數(shù)據(jù)挖掘功能---可以挖掘什么類型的模式
數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務(wù)中要找的模式類型。數(shù)據(jù)挖掘任務(wù)一般可以分為兩類:描述和預(yù)測(cè)。描述性挖掘任務(wù)刻劃數(shù)據(jù)庫中數(shù)據(jù)的一般特性。預(yù)測(cè)性挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進(jìn)行推斷,并加以預(yù)測(cè)。通常我們把它們分為以下幾個(gè)類型:
1)概念/類描述:特征化和區(qū)分(Characterization and Discrimination)
2)關(guān)聯(lián)分析(Association Analysis)
3)分類和預(yù)測(cè)(Classification and Predict)
4)聚類分析(Clustering Analysis)
5)孤立點(diǎn)分析(Outlier Analysis)
6)演變分析(Evolution Analysis)
5所有模式都是有趣的嗎
答案顯然是否定的。實(shí)際上,對(duì)于給定的用戶,在可能產(chǎn)生的模式中,只有一小部分是他感興趣的。這就對(duì)數(shù)據(jù)挖掘系統(tǒng)提出了一系
3
列的問題。你可能會(huì)想:“什么樣的模式是有趣的?數(shù)據(jù)挖掘系統(tǒng)能夠產(chǎn)生所有有趣的模式嗎?數(shù)據(jù)挖掘系統(tǒng)能夠僅產(chǎn)生有趣的模式嗎?”
模式是有趣的,通常它含以下幾點(diǎn):(1)它易于被人理解;(2)在某種程度上,對(duì)于新的或測(cè)試數(shù)據(jù)是有效的;(3)是潛在有用的;(4)是新穎的。這樣就存在一些模式興趣度的客 |
|