" />
所屬欄目:智能科學(xué)技術(shù)論文 發(fā)布日期:2016-12-16 14:13 熱度:
隨著計算機信息技術(shù)的飛速發(fā)展,大容量的存儲技術(shù)以及條形碼等數(shù)據(jù)獲取設(shè)備在生活中得到的廣泛的應(yīng)用,我們在生活中也在與不同類型的數(shù)據(jù)打交道,這些數(shù)據(jù)背后隱藏著巨大的價值信息,如何深入挖掘數(shù)據(jù)有效利用數(shù)據(jù)是當(dāng)前我們關(guān)注的主要問題。
《軟件和信息服務(wù)》軟件科技期刊,創(chuàng)刊于1984年,由中國電子信息產(chǎn)業(yè)發(fā)展研究院、北京中電報發(fā)展有限公司主辦。計算機科學(xué)技術(shù)刊物。旨在推動計算機在我國的應(yīng)用,推動我國軟件產(chǎn)業(yè)的建立和發(fā)展,促進軟件應(yīng)用社會化、軟件開發(fā)工程化、軟件成果商品化和軟件經(jīng)營企業(yè)化等方面的工作更好開展。
數(shù)據(jù)倉庫是面向主題的,集成化的,并且隨著時間不短變化的數(shù)據(jù)集合,通過對不同的數(shù)據(jù)源進行轉(zhuǎn)化和繼承能夠?qū)v史數(shù)據(jù)和現(xiàn)有數(shù)據(jù)實現(xiàn)數(shù)據(jù)的綜合管理,從而為進一步分析挖掘數(shù)據(jù)提供基礎(chǔ)。筆者在下文中主要首先分析了當(dāng)前數(shù)據(jù)挖掘的現(xiàn)狀,探討數(shù)據(jù)挖掘的基本技術(shù)和算法,最終研究基于數(shù)據(jù)倉庫的聯(lián)機分析挖掘平臺的實現(xiàn)。
1 數(shù)據(jù)挖掘的現(xiàn)狀
隨著數(shù)據(jù)庫技術(shù)以及數(shù)據(jù)處理的人工智能haunted發(fā)展,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生,數(shù)據(jù)挖掘技術(shù)旨在從大量的隱藏數(shù)據(jù)中挖掘出切實可用的信息,從而更好地服務(wù)與我們?nèi)粘Ia(chǎn)和生活的各個領(lǐng)域。數(shù)據(jù)挖掘技術(shù)具有構(gòu)筑企業(yè)競爭優(yōu)勢的特點,從而為其帶來經(jīng)濟效益,因此當(dāng)前許多知名企業(yè)和大型公司也紛紛加大了對數(shù)據(jù)挖掘的研究和應(yīng)用。
數(shù)據(jù)挖掘從不同的劃分標準可以分為不同的類型,例如根據(jù)數(shù)據(jù)模型來劃分;可以將數(shù)據(jù)挖掘劃分為如下幾類:關(guān)系的、事務(wù)的、面向?qū)ο蟮摹ο?關(guān)系的等,從特定類型來劃分,可以分為空間的、時間序列的。文本的、多媒體的等。復(fù)雜的數(shù)據(jù)挖掘系統(tǒng)一般會采用多種數(shù)據(jù)挖掘技術(shù)相結(jié)合,以集成化的數(shù)據(jù)挖掘系統(tǒng)支持毒品抽象層的知識發(fā)現(xiàn)。
從應(yīng)用的角度來劃分,數(shù)據(jù)挖掘系統(tǒng)可以分類特定領(lǐng)域的數(shù)據(jù)挖掘工具和通用的數(shù)據(jù)挖掘工具,其中特定領(lǐng)域的數(shù)據(jù)挖掘工具主要是指針對某一特定領(lǐng)域的數(shù)據(jù)挖掘,在設(shè)計中針對數(shù)據(jù)的特殊性做了系統(tǒng)的進一步優(yōu)化。相比較國外,我國對數(shù)據(jù)挖掘的研究起步還較晚,但經(jīng)過長期大量的研究,已經(jīng)開發(fā)出了一系列數(shù)據(jù)挖掘的工具,雖然還不完美,但總的來說取得了滿意的效果。
2 數(shù)據(jù)挖掘算法的內(nèi)容
數(shù)據(jù)挖掘算法是對數(shù)據(jù)挖掘方法的具體實現(xiàn),主要包括了以下三個部分主要內(nèi)容,分別是模型表示、模型評價標準、發(fā)現(xiàn)方法。
1)模型表示:要提高模型的表達力,模型語言的恰當(dāng)運用發(fā)揮著重要作用。語言的描述強度對模型的精準性產(chǎn)生著重大的影響,當(dāng)語言表達能力過強的時候,可能會使得模型過分一般化,其精度也會相對下降,因此合理恰當(dāng)把握模型表示的語言強度對于保證模型精準性具有重要意義。
2)模型評價標準:模型評價標準主要是指對一個模型的最終發(fā)現(xiàn)結(jié)果和具體的要求之間做出量化評價。針對預(yù)測類的模型,為了提高預(yù)測的精準度,可以利用測試數(shù)據(jù)集來進行評價。具體的評價內(nèi)容可以從模型的精確度、新穎度以及實用價值來進行綜合評價。
3)發(fā)現(xiàn)方法:數(shù)據(jù)挖掘的發(fā)現(xiàn)方法可以分類兩類:參量發(fā)現(xiàn)、模型發(fā)現(xiàn),發(fā)現(xiàn)方法是在完成模型表示和模型評價后,進行模型的最終優(yōu)化數(shù)據(jù)挖掘。發(fā)現(xiàn)過程是一個嘗試和探索相結(jié)合的過程,需要不斷嘗試和改變參量來尋找最適合模型評價標準的參量,最終確定出最優(yōu)的模型。
總的來說,對于數(shù)據(jù)挖掘算法不存在一個普遍使用的算法,算法的適用性和有效性主要是表現(xiàn)在某一個領(lǐng)域,在實際的算法運用中,需要選擇最恰當(dāng)適用的數(shù)據(jù)挖掘算法,也就是說不能將已有的算法普遍運用于所有的領(lǐng)域中,是需要從新的領(lǐng)域的具體需求出發(fā)制定最優(yōu)的數(shù)據(jù)挖掘算法。
3 數(shù)據(jù)挖掘算法與實現(xiàn)
根據(jù)數(shù)據(jù)挖掘的不同角度可以將數(shù)據(jù)挖掘技術(shù)劃分為不同的種類,例如從發(fā)現(xiàn)的知識種類來劃分數(shù)據(jù)挖掘技術(shù),或者從挖掘方法分類,再者是根據(jù)挖掘的途徑來分類。筆者在此主要從技術(shù)的角度來進行分類,對數(shù)據(jù)挖掘技術(shù)中的幾個重要的方法做了如下詳細闡述:
1)決策樹方法:決策樹方法是數(shù)據(jù)挖掘算法中的一個重要方法,決策樹下的每一個分支是一個決策過程,每一個過程中涉及唯一一個數(shù)據(jù)的屬性,然后通過不斷滿足決策條件得到最終的決策結(jié)果。決策樹的構(gòu)造中蘊含著分類規(guī)則,其核心內(nèi)容在于構(gòu)造精度高、規(guī)模小的決策樹,具體來說決策樹的構(gòu)造可以分兩個主要步驟進行。首先是決策樹的生成,其生成過程是由訓(xùn)練樣本集生成決策樹的過程,數(shù)據(jù)集一般來說應(yīng)該是具有現(xiàn)實意義,有一定的綜合程度并且用于數(shù)據(jù)分析處理的。其次是要進行數(shù)據(jù)集的剪枝,是指對上一步驟中構(gòu)造的決策樹進行檢驗、校正和修正。具體來說也就是要運用新的樣本數(shù)據(jù)集來作為測試數(shù)據(jù)集中的數(shù)據(jù)檢驗決策樹生成中產(chǎn)生的初步規(guī)則,將分支中阻礙預(yù)測準確性的部分剪除。
2)遺傳算法:基于遺傳算法的數(shù)據(jù)挖掘技術(shù)是一個模擬生物進化遺傳的過程,是在生物進化的思想啟發(fā)下得出的算法,遺傳算法相比較其他優(yōu)化算法,主要有以下提出特點:一是遺傳算法將變量的編碼作為運算的對象,傳統(tǒng)的優(yōu)化算法一般來說是直接利用決策變量的實際值來進行優(yōu)化的計算,而遺傳算法引入例如遺傳操作的算子,采用決策變量的某種形式編碼;二是通過概率搜索技術(shù),以概率的方式進行搜索,從而增加了整個搜索過程的適用性和靈活性。遺傳算法在當(dāng)前的數(shù)據(jù)挖掘中得到了較為廣泛的應(yīng)用,在作業(yè)調(diào)度、自動控制方面發(fā)揮著重要的作用。遺傳算法主要由三個基本的算子組成,分別是繁殖、交叉和變異。繁殖是指從一個舊的父代中選出生命力強的個體從而繁衍出后代;交叉是一個重組的過程,模擬生物遺傳中的基因交換部分,通過模擬染色體的交叉組合過程,不斷的嘗試最優(yōu)組合,最終形成一個新的組合結(jié)果。遺傳算法是一個不斷優(yōu)化的過程,在優(yōu)化計算中具有明顯的優(yōu)勢。
3)神經(jīng)網(wǎng)絡(luò)方法:神經(jīng)網(wǎng)絡(luò)方法是模擬生物的有一個方法,是對人腦神經(jīng)元結(jié)構(gòu)的模擬。神經(jīng)網(wǎng)絡(luò)是由大量的并行分布式的處理單元組成的簡單處理單元,基于神經(jīng)網(wǎng)絡(luò)方法的數(shù)據(jù)挖掘主要由兩個階段組成,分別是網(wǎng)絡(luò)構(gòu)造、訓(xùn)練、剪枝以及規(guī)則提取和評估。網(wǎng)絡(luò)構(gòu)造、訓(xùn)練和剪枝是選擇擬采用的網(wǎng)絡(luò)模型,選擇或者設(shè)計一種網(wǎng)絡(luò)訓(xùn)練的算法。通過尋亂后的網(wǎng)絡(luò)略顯臃腫,因此就需要在保持準確性的基礎(chǔ)下,剪掉網(wǎng)絡(luò)中的多余的節(jié)點,最終產(chǎn)生精煉的簡易的網(wǎng)絡(luò)。規(guī)則的提取和評估階段主要是經(jīng)過上一步驟以后已經(jīng)相對簡單的網(wǎng)絡(luò)提取分類規(guī)則,最終轉(zhuǎn)化為更加易于理解的形式表達出來,例如決策樹、模糊邏輯等方法。最后再通過測試樣本對規(guī)則進行評估。在實際應(yīng)用中是和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘問題主要有分類問題、時序預(yù)測、聚類等。相比較其他的數(shù)據(jù)挖掘算法神經(jīng)網(wǎng)絡(luò)具有如下優(yōu)勢:一是挖掘的層次更深,能夠處理的變量更多,具有分布記憶性和快速計算的優(yōu)勢。但同時神經(jīng)網(wǎng)絡(luò)算法也具有一些不足之處,例如在非數(shù)值型數(shù)據(jù)的處理和數(shù)據(jù)質(zhì)量方面相對較弱。
4)基于粗糙集的數(shù)據(jù)挖掘算法:粗糙集理論是針對不完整和不確定信息的數(shù)學(xué)工具,它能夠分析數(shù)據(jù)中的不精確和不一致信息。在現(xiàn)實應(yīng)用中,我們常會遇到許多粗糙數(shù)據(jù)的整理,如何在最短時間內(nèi)找到有用信息,進行數(shù)據(jù)處理是當(dāng)前面臨的主要問題,而粗糙集的數(shù)據(jù)挖掘方法在處理這一問題方面發(fā)揮著重要的作用。基于粗糙集的數(shù)據(jù)挖掘處理過程一般來說包括了以下幾個步驟:初始數(shù)據(jù)集、預(yù)處理、不可分辨矩陣、約減集、規(guī)則。預(yù)處理階段是指把數(shù)據(jù)庫中的初始數(shù)據(jù)信息轉(zhuǎn)化為粗糙集形式,明確其條件屬性和決策屬性;接下來再進行屬性約減,生成不可分辨據(jù)稱,從而形成約減性屬性集;最后在約減信息中去發(fā)現(xiàn)規(guī)則。在粗糙集的數(shù)據(jù)處理中,對象是行元素,屬性是列元素,條件屬性上的等價類和決策屬性上的等價類存在以下三種情況:一種是下近似即決策屬性上的等價類包含條件屬性上的等價類;一種是上近似決策屬性的等價類和條件屬性的等價類之間有交集;還有一種是無關(guān)即決策屬性的等價類和條件屬性的等價類不想交。在具體的規(guī)則上,采用針對下近似建立確定性的谷子額而對上近似建立不確定的規(guī)則。
5)模糊集方法:針對實際運用中的模糊判斷通常采用模糊集的方法,尤其是在系統(tǒng)復(fù)雜的數(shù)據(jù)庫中期精確化的能力就越低,模糊性的就越強。基于模糊集的模糊關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法具體如下所示:首先輸入數(shù)據(jù)庫T={t1,…,tn},輸出:模糊觀念規(guī)則1.采用FCM算法將數(shù)量型屬性離散化,把取值劃分成不同的模糊等級;2.將數(shù)據(jù)庫T引入,加入數(shù)據(jù),形成新的數(shù)據(jù)庫,根據(jù)上一步驟中劃分的模糊等級,賦予數(shù)據(jù)庫新的模糊屬性;3.計算并且得出所有的1-模糊頻繁屬性集,再對這些屬性集進行組合,其中不包含同一個IK標記的1-模糊頻繁屬性集,最終將包含相同IK標記的1-模糊頻繁屬性集作為2-模糊候選屬性集,以此類推,再將第一個模糊屬性相同的2-模糊頻繁屬性集進行組合,一直組合下去,直到發(fā)現(xiàn)所有模糊頻繁屬性集,最終從所用的模糊頻繁屬性集中生成不小于用戶級給定的最小信任的模糊關(guān)聯(lián)規(guī)則。
綜上所述,數(shù)據(jù)挖掘算法是多種多樣的,要根據(jù)確定的領(lǐng)域?qū)ふ易顑?yōu)的算法,從而提高數(shù)據(jù)挖掘的準確性,更好地服務(wù)于現(xiàn)代生產(chǎn)和生活。
文章標題:數(shù)據(jù)挖掘算法研究與實現(xiàn)的策略
轉(zhuǎn)載請注明來自:http://m.wangshangbanli.cn/fblw/dianxin/zhineng/34335.html
攝影藝術(shù)領(lǐng)域AHCI期刊推薦《Phot...關(guān)注:105
Nature旗下多學(xué)科子刊Nature Com...關(guān)注:152
中小學(xué)教師值得了解,這些教育學(xué)...關(guān)注:47
2025年寫管理學(xué)論文可以用的19個...關(guān)注:192
測繪領(lǐng)域科技核心期刊選擇 輕松拿...關(guān)注:64
及時開論文檢索證明很重要關(guān)注:52
中國水產(chǎn)科學(xué)期刊是核心期刊嗎關(guān)注:54
國際出書需要了解的問題解答關(guān)注:58
合著出書能否評職稱?關(guān)注:48
電信學(xué)有哪些可投稿的SCI期刊,值...關(guān)注:66
通信工程行業(yè)論文選題關(guān)注:73
SCIE、ESCI、SSCI和AHCI期刊目錄...關(guān)注:120
評職稱發(fā)論文好還是出書好關(guān)注:68
復(fù)印報刊資料重要轉(zhuǎn)載來源期刊(...關(guān)注:51
英文期刊審稿常見的論文狀態(tài)及其...關(guān)注:69
Web of Science 核心合集期刊評估...關(guān)注:58
電子信息論文范文
智能科學(xué)技術(shù)論文 廣播電視論文 光電技術(shù)論文 計算機信息管理論文 計算機網(wǎng)絡(luò)論文 計算機應(yīng)用論文 通信論文 信息安全論文 微電子應(yīng)用論文 電子技術(shù)論文 生物醫(yī)學(xué)工程論文 軟件開發(fā)論文
期刊百科問答
copyright © m.wangshangbanli.cn, All Rights Reserved
搜論文知識網(wǎng) 冀ICP備15021333號-3