所屬欄目:統(tǒng)計(jì)論文 發(fā)布日期:2010-08-25 12:03 熱度:
摘要:空間關(guān)聯(lián)規(guī)則知識(shí)的發(fā)現(xiàn)是空間數(shù)據(jù)挖掘一個(gè)重要的方面,而把空間統(tǒng)計(jì)分析技術(shù)應(yīng)用于空間數(shù)據(jù)庫(kù)中的空間關(guān)聯(lián)規(guī)則挖掘,是一種不同于傳統(tǒng)方法的可用技術(shù)。該方法首先建立空間對(duì)象之間的空間權(quán)重矩陣,然后采用Moran‘sI統(tǒng)計(jì)量等來(lái)發(fā)現(xiàn)全局空間相關(guān)關(guān)系,利用G統(tǒng)計(jì)量等來(lái)發(fā)現(xiàn)局部空間相關(guān)關(guān)系,并通過(guò)實(shí)例分析證明了該方法的有效性。
關(guān)鍵字:空間統(tǒng)計(jì)學(xué);空間數(shù)據(jù)挖掘;空間關(guān)聯(lián)規(guī)則挖掘
0引言
空間關(guān)聯(lián)規(guī)則知識(shí)的發(fā)現(xiàn)是空間數(shù)據(jù)挖掘一個(gè)重要的方面,它主要是要找出空間數(shù)據(jù)庫(kù)中空間對(duì)象間潛在有用的空間相關(guān)關(guān)系。有關(guān)空間關(guān)聯(lián)規(guī)則挖掘的算法有許多,比如由R.Agrawal等1994年提出的Apriori算法[1,2],J.S.Park等提出的基于Hash表的挖掘方法[3],D.Malerba等提出的ILP(InductiveLogicProgramming)方法[4],J.W.Han等1995年提出的多層次關(guān)聯(lián)規(guī)則挖掘方法[8],這些方法和技術(shù)都是從數(shù)據(jù)庫(kù)的事務(wù)集中找出頻繁項(xiàng)集而挖掘關(guān)聯(lián)規(guī)則,具有規(guī)范的規(guī)則形式。
利用空間統(tǒng)計(jì)學(xué)挖掘空間關(guān)聯(lián)規(guī)則,是一種廣義上的空間關(guān)聯(lián)規(guī)則,它沒(méi)有固定的規(guī)則形式或格式,一般用自然語(yǔ)言描述。這類空間關(guān)聯(lián)規(guī)則在空間決策支持中具有十分重要的意義。目前,空間統(tǒng)計(jì)學(xué)已廣泛應(yīng)用于農(nóng)業(yè)、地質(zhì)、土壤、水文、環(huán)境、經(jīng)濟(jì)、人口統(tǒng)計(jì)等領(lǐng)域[10]。不少學(xué)者先后對(duì)空間統(tǒng)計(jì)的一些基本理論和方法進(jìn)行了廣泛研究,形成了一些新的統(tǒng)計(jì)理論和應(yīng)用方法。
基于空間統(tǒng)計(jì)學(xué)的空間關(guān)聯(lián)規(guī)則挖掘包括空間權(quán)重矩陣的構(gòu)建、全局與局部空間自相關(guān)、空間關(guān)聯(lián)的度量與檢驗(yàn)、空間關(guān)聯(lián)知識(shí)的識(shí)別與描述等。本文將詳細(xì)介紹相關(guān)的理論和計(jì)算方法,并以湖南省14個(gè)市州2004-2006年連續(xù)三年的GDP增長(zhǎng)率數(shù)據(jù)為研究對(duì)象,說(shuō)
1空間統(tǒng)計(jì)學(xué)基本理論和相關(guān)性質(zhì)
1.1空間權(quán)重矩陣
空間數(shù)據(jù)庫(kù)中空間對(duì)象間的拓?fù)潢P(guān)系提供了空間對(duì)象彼此間的空間連接或空間鄰近的基本度量關(guān)系,空間連接或空間鄰近關(guān)系廣泛應(yīng)用于空間數(shù)據(jù)分析中。通常我們采用一個(gè)二維對(duì)稱空間權(quán)重矩陣W來(lái)表達(dá)n個(gè)空間對(duì)象(位置)間的空間鄰近關(guān)系,一般采用鄰接標(biāo)準(zhǔn)或距離標(biāo)準(zhǔn)來(lái)度量。空間權(quán)重矩陣W的形式如(1-1)所示,空間權(quán)重矩陣的定義是空間統(tǒng)計(jì)學(xué)與傳統(tǒng)統(tǒng)計(jì)學(xué)的重要區(qū)別之一。利用空間數(shù)據(jù)的拓?fù)潢P(guān)系,可以比較容易地構(gòu)建空間權(quán)重矩陣。
(1-1)
根據(jù)鄰接標(biāo)準(zhǔn),當(dāng)空間對(duì)象j和對(duì)象i相鄰時(shí),空間權(quán)重矩陣元素wij為1,其它情況均為0。矩陣元素值的表達(dá)式形式如(1-2)所示。
(1-2)
根據(jù)距離標(biāo)準(zhǔn),當(dāng)空間對(duì)象j和對(duì)象i的距離在給定距離閥值d之內(nèi)時(shí),空間權(quán)重矩陣元素wij為1,否則為0。矩陣元素的取值表達(dá)式如(1-3)所示。
(1-3)
上述兩種鄰近關(guān)系規(guī)則可以分別使用,也可以同時(shí)使用。如果兩個(gè)對(duì)象客觀上空間不相鄰,但它們之間在研究的某一方面存在緊密聯(lián)系時(shí),可以將它們視為一種相鄰關(guān)系,此時(shí)即用到距離規(guī)則。所以,基于距離規(guī)則建立空間權(quán)重矩陣的目的是為了調(diào)整合理距離范圍內(nèi)對(duì)象間的空間鄰接關(guān)系。
為了便于解釋,通常將空間權(quán)重矩陣進(jìn)行標(biāo)準(zhǔn)化處理(Anselin,1988),以使得每個(gè)元素值的范圍界于0~1之間,標(biāo)準(zhǔn)化的形式如(1-4)所示。
(1-4)
1.2全局空間自相關(guān)的測(cè)度指標(biāo)一Moran’sI
Moran,sI統(tǒng)計(jì)量是一個(gè)應(yīng)用非常廣泛的全局空間自相關(guān)統(tǒng)計(jì)量,其定義形式如(1-5)所示。
(1-5)
其中,,xi表示在位置i處空間對(duì)象的觀測(cè)值,wij是空間權(quán)重矩陣的元素。
根據(jù)空間數(shù)據(jù)分布狀態(tài)可以計(jì)算Moran‘sI的期望值和方差[10]。
對(duì)于正態(tài)分布:
(1-6)
(1-7)
對(duì)于隨機(jī)分布:
(1-8)
(1-9)
其中,,wi*和w*i分別表示權(quán)重矩陣中第i行和第i列之和。
利用式(1-10)可以檢驗(yàn)n個(gè)空間對(duì)象間是否存在空間自相關(guān)關(guān)系。
(1-10)
利用Moran‘sI統(tǒng)計(jì)量可以測(cè)度空間對(duì)象間的自相關(guān)性,發(fā)現(xiàn)對(duì)象觀測(cè)值的空間分布差異性和相關(guān)性。當(dāng)Moran‘sI為正時(shí),在距離d范圍內(nèi)的觀測(cè)值之間存在顯著的正相關(guān),即大的觀測(cè)值和大的觀測(cè)值集聚在一起,小的觀測(cè)值和小的觀測(cè)值集聚在一起,呈現(xiàn)“物以類集”的分布特征;當(dāng)Moran’sI為負(fù)時(shí),在距離d范圍內(nèi)的觀測(cè)值之間存在顯著負(fù)相關(guān),即大的觀測(cè)值傾向于和小的觀測(cè)值集聚在一起,呈現(xiàn)空間分散格局;當(dāng)Moran‘sI趨近于零時(shí),觀測(cè)值之間不存在空間自相關(guān)性,屬于獨(dú)立隨機(jī)分布。
1.3局部空間自相關(guān)的測(cè)度指標(biāo)——G統(tǒng)計(jì)量
Getis和Ord(1992)研究了用來(lái)衡量空間對(duì)象間的局部空間關(guān)聯(lián)性的G統(tǒng)計(jì)量,在空間位置i的G統(tǒng)計(jì)量的表達(dá)式定義如下:
(1-11)
其期望值和方差分別為:
(1-12)
(1-13)
其中,,xi是對(duì)象在位置i的觀測(cè)值,wij是空間權(quán)重矩陣的元素,n是觀測(cè)值的個(gè)數(shù)。
Getis和Ord在1994年定義了Gi的標(biāo)準(zhǔn)化形式:
(1-14)
其中, 當(dāng)Z(Gi)為正值時(shí),說(shuō)明位置i被數(shù)值大的屬性值所包圍;當(dāng)Z(Gi)為負(fù)值時(shí),說(shuō)明位置i被數(shù)值小的屬性值所包圍。Z(Gi)統(tǒng)計(jì)可用來(lái)判斷空間聚類是為大數(shù)值型或小數(shù)值型。但是,Z(Gi)不能根據(jù)其正負(fù)號(hào)判斷空間類型的相似性[12]。
2實(shí)例分析
下面以湖南省各市州2004-2006年的GDP增長(zhǎng)率分析為例,利用空間統(tǒng)計(jì)學(xué)分析方法挖掘各市州GDP增長(zhǎng)率之間存在的空間關(guān)聯(lián)知識(shí)的有效性。湖南省各市州2004年、2005年和2006年的GDP增長(zhǎng)率見(jiàn)表2-1。
表2-1湖南省各市州2004年一2006年GDP增長(zhǎng)率一覽表
說(shuō)明:數(shù)據(jù)來(lái)自湖南統(tǒng)計(jì)信息網(wǎng)[13]。
根據(jù)湖南省各市州的拓?fù)淇臻g相鄰關(guān)系建立各市州邊界多邊形的拓?fù)潢P(guān)系,我們利用相鄰關(guān)系圖來(lái)直觀的表達(dá)(如圖2-1),圖上各節(jié)點(diǎn)中的數(shù)字代表各市州相應(yīng)的編號(hào),節(jié)點(diǎn)間有邊相連,說(shuō)明兩市州在空間上具有相鄰關(guān)系。根據(jù)此相鄰關(guān)系圖,建立各市州的空間權(quán)重矩陣如表2-2所示。
圖2-1湖南省各市州空間拓?fù)潢P(guān)系的相鄰關(guān)系圖(節(jié)點(diǎn)上的數(shù)字代表各市州編號(hào))
表2-2各市州基于鄰接標(biāo)準(zhǔn)的空間權(quán)重矩陣
利用湖南省各市州2004年到2006年連續(xù)3年的平均GDP增長(zhǎng)率(見(jiàn)表2-1)這個(gè)指標(biāo)來(lái)進(jìn)行分析。根據(jù)空間權(quán)重矩陣,計(jì)算所得的各市州全局Moran‘sI和局部G統(tǒng)計(jì)值分別見(jiàn)表2-3和表2-4。
表2-3全局空間自相關(guān)Moran’sI及其Z(I)值
由表2-4可以得到,由于Moran‘sI為正值,說(shuō)明各市州的GDP增長(zhǎng)率在空間上存在明顯的相關(guān)性,不是隨機(jī)分布的,而是存在必然的內(nèi)在聯(lián)系,GDP增長(zhǎng)率高的區(qū)域和GDP增長(zhǎng)率高的區(qū)域有相互鄰接的趨勢(shì),低增長(zhǎng)率區(qū)域與低增長(zhǎng)率區(qū)域有相互鄰接的趨勢(shì)。
表2-4局部G統(tǒng)計(jì)量及其Z(Gi)值
根據(jù)表2-5中的G統(tǒng)計(jì)量及其Z值,我們可以發(fā)現(xiàn)湖南省各市州局部區(qū)域之間既存在顯著的正的空間關(guān)聯(lián),又存在顯著的負(fù)的空間關(guān)聯(lián)。懷化、湘西、常德、郴州、邵陽(yáng)、張家界和永州市的Z值為負(fù),說(shuō)明這些市被平均GDP增長(zhǎng)率低的市所包圍;岳陽(yáng)、婁底、衡陽(yáng)、湘潭、株洲、長(zhǎng)沙和益陽(yáng)的Z值為正,說(shuō)明這些市被平均GDP增長(zhǎng)率高的市所包圍。
通過(guò)分析可以發(fā)現(xiàn),長(zhǎng)沙、湘潭、婁底、株洲、岳陽(yáng)五市州平均GDP增長(zhǎng)率較高的地區(qū)連成一片,形成湖南省東部地區(qū)的經(jīng)濟(jì)高速發(fā)展區(qū)域;常德和張家界連成一片,形成湖南省北部地區(qū)的經(jīng)濟(jì)高速發(fā)展區(qū)域;從而可以看出,增長(zhǎng)率較高的地區(qū)有相互鄰接的趨勢(shì);增長(zhǎng)率較低的地區(qū)有懷化、湘西、衡陽(yáng)、郴州、邵陽(yáng)、永州和益陽(yáng),即GDP增長(zhǎng)率較低的地區(qū)有相互鄰接的趨勢(shì),它們形成湖南省西南部的經(jīng)濟(jì)低速發(fā)展區(qū)域。作為省會(huì)城市的長(zhǎng)沙,同時(shí)也是湖南省經(jīng)濟(jì)發(fā)展的中心,其GDP增長(zhǎng)率明顯高于省內(nèi)其它城市,而其它增長(zhǎng)率較高的城市大部分都與長(zhǎng)沙為鄰,說(shuō)明長(zhǎng)沙的經(jīng)濟(jì)發(fā)展對(duì)相鄰地市的經(jīng)濟(jì)發(fā)展存在一定的帶動(dòng)作用。
我們可以對(duì)上述發(fā)現(xiàn)的知識(shí)進(jìn)行整理、加工,為進(jìn)一步分析奠定基礎(chǔ),同時(shí)為經(jīng)濟(jì)政策決策的制定提供一定的參考和支持。通過(guò)上述的例子,說(shuō)明了空間統(tǒng)計(jì)分析方法在確定、量化區(qū)域內(nèi)存在的空間關(guān)聯(lián)關(guān)系的正確性和有效性。
3結(jié)論
基于空間統(tǒng)計(jì)分析技術(shù)進(jìn)行空間關(guān)聯(lián)規(guī)則挖掘的方法,既考慮了空間對(duì)象的空間分布特征,又利用了空間對(duì)象的屬性數(shù)據(jù),因此是一種結(jié)合空間、屬性特征的空間數(shù)據(jù)挖掘方法。本文的實(shí)例證明了該方法所發(fā)現(xiàn)的空間關(guān)聯(lián)知識(shí)與實(shí)際相吻合,說(shuō)明空間統(tǒng)計(jì)學(xué)方法的有效性和實(shí)用性。但是,對(duì)于非數(shù)值型數(shù)據(jù)而言,空間統(tǒng)計(jì)學(xué)方法還存在一定的局限性。
參考文獻(xiàn)
[1]AgrawalR,ImielinskiT,SwamiA.Miningassociationrulesbetweensetsofitemsinlargedatabases.InProceedingsofthe1993InternationalConferenceonManagementofData(SIGMOD93),1993:207-216.
[2]AgrawalR,SrikantR.Fastalgorithmforminingassociationrulesinlargedatabases.InVLDB’94,1994:487-499.
[3]JongSooPark,Ming-SyanChen,PhilipS.Yu.AneffectiveHash-BasedAlgorithmforMiningAssociationRules.SIGMOD’95,1995:175-186.
[4]DonatoMalerba,FrancescaA.Lisi.AnILPMethodforSpatialAssociationRuleMining.
[5]H.Mannila,H.Toivonen,A.InkeriVerkamo.EfficientAlgorithmsforDiscoveringAssociationRules.1994:181-192.
[6]A.Savasere,E.Omiecinski,S.Navathe.AnEfficientAlgorithmforMiningAssociationRulesinLargeDatabases.Proceedingsofthe21stVLDBConference.1995:432-444.
[7]M.J.Zaki,S.Parthasarathy,M.Ogiharaetc.NewAlgorithmsforFastDiscoveryforAssociationRules.TechnicalReport,1995:1-24.
[8]J.Han,Yj.Fu.DiscoveryofMultiple-LevelAssociationRulesfromLargeDatabases.Proceedingsofthe21stVLDBConference.1995:420-431.
[9]AnselinL,GetisA.Spatialstatisticalanalysisandgeographicinformationsystem.AnnalsofRegionalScience,1992,26:19-33.
[10]陳斐,杜道生.空間統(tǒng)計(jì)分析與GIS在區(qū)域經(jīng)濟(jì)分析中的應(yīng)用[J].武漢大學(xué)學(xué)報(bào)(自然科學(xué)版),2002,Vol.27,No.4:391-396.
[11]呂安民.人口空間數(shù)據(jù)挖掘及其應(yīng)用方法研究[D].武漢大學(xué)博士學(xué)位論文,2002.
[12]馬榮華,黃杏元,朱傳耿.用ESDA技術(shù)從GIS數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)[J].遙感學(xué)報(bào),2002,Vol.6,No.2:102-108.
[13]http://www.hntj.gov.cn/,湖南統(tǒng)計(jì)信息網(wǎng).
文章標(biāo)題:基于空間統(tǒng)計(jì)學(xué)的空間關(guān)聯(lián)規(guī)則挖掘方法與應(yīng)用
轉(zhuǎn)載請(qǐng)注明來(lái)自:http://m.wangshangbanli.cn/fblw/jingji/tongji/1969.html
攝影藝術(shù)領(lǐng)域AHCI期刊推薦《Phot...關(guān)注:105
Nature旗下多學(xué)科子刊Nature Com...關(guān)注:152
中小學(xué)教師值得了解,這些教育學(xué)...關(guān)注:47
2025年寫管理學(xué)論文可以用的19個(gè)...關(guān)注:192
測(cè)繪領(lǐng)域科技核心期刊選擇 輕松拿...關(guān)注:64
及時(shí)開(kāi)論文檢索證明很重要關(guān)注:52
中國(guó)水產(chǎn)科學(xué)期刊是核心期刊嗎關(guān)注:54
國(guó)際出書(shū)需要了解的問(wèn)題解答關(guān)注:58
合著出書(shū)能否評(píng)職稱?關(guān)注:48
電信學(xué)有哪些可投稿的SCI期刊,值...關(guān)注:66
通信工程行業(yè)論文選題關(guān)注:73
SCIE、ESCI、SSCI和AHCI期刊目錄...關(guān)注:121
評(píng)職稱發(fā)論文好還是出書(shū)好關(guān)注:68
復(fù)印報(bào)刊資料重要轉(zhuǎn)載來(lái)源期刊(...關(guān)注:51
英文期刊審稿常見(jiàn)的論文狀態(tài)及其...關(guān)注:69
Web of Science 核心合集期刊評(píng)估...關(guān)注:59
經(jīng)濟(jì)論文范文
郵電論文 文化產(chǎn)業(yè)論文 特許經(jīng)營(yíng)論文 餐飲管理論文 房地產(chǎn)論文 人力資源論文 項(xiàng)目管理論文 工商企業(yè)管理論文 家政論文 物業(yè)論文 國(guó)際貿(mào)易論文 電子商務(wù)論文 審計(jì)論文 財(cái)會(huì)論文 統(tǒng)計(jì)論文 財(cái)稅論文 銀行論文 證券論文 保險(xiǎn)論文 金融論文 經(jīng)濟(jì)學(xué)論文 市場(chǎng)營(yíng)銷論文 旅游論文
SCI期刊分析
copyright © m.wangshangbanli.cn, All Rights Reserved
搜論文知識(shí)網(wǎng) 冀ICP備15021333號(hào)-3