論文:主分量分析和線性判別分析在分類問(wèn)題中的應(yīng)用
【摘 要】對(duì)于維數(shù)較多的研究對(duì)象,為了研究的方便,總希望先將維數(shù)降低。主分量分析(PCA)和Fisher線性判別分析(FDA)是廣泛應(yīng)用于模式識(shí)別各個(gè)領(lǐng)域的兩種常用方法。本文先利用主分量分析,將原始數(shù)據(jù)維數(shù)降低,然后再利用Fisher線性判別分析將維數(shù)再次降低,得到低維的數(shù)據(jù),實(shí)驗(yàn)結(jié)果表明了兩種方法結(jié)合的有效性。
【關(guān)鍵詞】主分量分析;Fisher線性判別;距離判別法
【Abstract】As to an object of multi dimension, we always hope to make its dimension reduced in order to facilitate the study on it。 Principal component analysis and Fisher linear discriminant analysis are two common methods widely used in various fields of pattern recognition。 This article reduced the dimension of original data, by the principal component analysis at first, and then use Fisher linear discriminant analysis to reduce the dimension once again, obtaining lower-dimensional data, finally experimental results demonstrated the effectiveness of two methods’ combination。
【Key words】Principle compoment analysis; Fisher linear discriminant analysis; A method of differentiating distances
引言
在生產(chǎn)p科研和日常生活中我們經(jīng)常會(huì)遇到判別分類問(wèn)題,在這些問(wèn)題中,已經(jīng)知道研究對(duì)象可以分為幾個(gè)類,而且對(duì)這些類別也已經(jīng)作了一些觀測(cè),取得了一批樣本數(shù)據(jù)。 我們需要對(duì)這些數(shù)據(jù)進(jìn)行處理,找到不同類別之間的顯著性區(qū)別和判別方法。
1 主分量分析和線性判別分析的原理
主分量分析的基本原理:把原來(lái)多個(gè)變量劃為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法,是一降維處理技術(shù)。主分量分析的基本思想:主分量分析是設(shè)法將原來(lái)眾多具有一定相關(guān)性的指標(biāo)(比如p個(gè)指標(biāo)),重新組合成一組新的互相無(wú)關(guān)的綜合指標(biāo)來(lái)代替原來(lái)的指標(biāo)。通常數(shù)學(xué)上的處理就是將原來(lái)p個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo) [3]。
Fisher線性判別分析的基本原理:將高維空間中的類映射到低維空間,并且要求在低維空間類與類之間較好區(qū)分,是一降維處理技術(shù)。Fisher線性判別分析的基本思想:對(duì)于多個(gè)類來(lái)講,我們希望類內(nèi)離散度越小越好,類間離散度越大越好。對(duì)于原始的類,我們想通過(guò)將其投影到低維空間,并且要求經(jīng)過(guò)投影后達(dá)到類內(nèi)離散度最小,類間離散度最大。在投影的過(guò)程中,如果投影到一維空間效果不是很好,我們可以將其維數(shù)增多[4]。
2 實(shí)例
現(xiàn)對(duì)三類品種的鳶尾屬(Iris)植物進(jìn)行研究,希望通過(guò)研究鳶尾屬植物的幾個(gè)主要指標(biāo),可以將一個(gè)未知樣本進(jìn)行歸類。對(duì)鳶尾屬植物的四個(gè)指標(biāo)進(jìn)行了統(tǒng)計(jì)。對(duì)統(tǒng)計(jì)數(shù)據(jù)作如下變換:
、賹(duì)所有樣本數(shù)據(jù)X進(jìn)行中心化標(biāo)準(zhǔn)化。
②對(duì)處理后的數(shù)據(jù)求解相關(guān)系數(shù)矩陣R得
、矍蠼釸的特征值λi和特征向量ei。
由上表可以看出,前三個(gè)特征值的累積貢獻(xiàn)率已達(dá)到99。485%,所以我們選取前三個(gè)特征值所對(duì)應(yīng)的特征向量為主成分,這樣我們就將四維空間降到三維空間。原始數(shù)據(jù)經(jīng)過(guò)主分量分析,位數(shù)降低,得到變換Y=X*E。
經(jīng)過(guò)主分量分析,原始數(shù)據(jù)已經(jīng)降到三維,我們將對(duì)得到的三維空間里的數(shù)據(jù)再次進(jìn)行降維處理。我們選取各類中的前40個(gè)樣本代表該類進(jìn)行研究。
④分別計(jì)算出各類的.樣本均值mk和所有樣本的均值m
、萦(jì)算類內(nèi)離散度矩陣Sw和類間離散度矩陣Sb
、抻(jì)算Sb和Sw的廣義特征值和特征向量
、邔(duì)Y進(jìn)行Fisher線性判別,得到變換Z=Y*W。
、嘤(jì)算經(jīng)過(guò)變換后所得到的類的均值
通過(guò)主分量分析和Fisher線性判別,我們將樣本由四維空間降到一維空間。由上面的計(jì)算,我們可以得到公式Z=X*E*W。
隨機(jī)選取45個(gè)樣本得到樣本組x,在選取樣本時(shí),前15個(gè)樣本是從第一類中抽取的,中間15個(gè)樣本是從第二類中抽取的,最后15個(gè)樣本是從第三類中抽取的。我們首先對(duì)需要判別的樣本進(jìn)行變換, 然后分別計(jì)算這45個(gè)樣本到三類均值的距離
表2中加粗的數(shù)字表示該樣本距離某類均值距離最小,也就是樣本屬于這個(gè)類。判別結(jié)果為前15個(gè)樣本判為第一類,中間16個(gè)樣本判為第二類,最后14個(gè)樣本判為第三類。其中第31個(gè)樣本通過(guò)距離判別判為第二類,而這個(gè)樣本是從第三類中抽取的;其他樣本判別均正確。在這次判別中,錯(cuò)誤率為1/45,我們認(rèn)為判別是比較合理的。對(duì)所有的樣本都進(jìn)行分類判別,其錯(cuò)誤率為4/150,我們認(rèn)為對(duì)數(shù)據(jù)的處理以及距離判別的方法是比較合理的。
3 小結(jié)
我們?cè)谘芯盔S尾屬植物的三個(gè)品種時(shí),首先運(yùn)用主分量分析,在這個(gè)過(guò)程中維數(shù)降低了一維,但我們保留了99。485%的原有信息,可以說(shuō)這一數(shù)據(jù)變換很有意義。在主分量分析之后,我們?cè)龠\(yùn)用Fisher線性判別分析,將數(shù)據(jù)進(jìn)行投影,投影到一維空間。然后我們選取了45個(gè)樣本進(jìn)行分類判別時(shí),判別結(jié)果比較理想,從而驗(yàn)證了兩次降維處理的有效性和距離判別的可行性。
【論文:主分量分析和線性判別分析在分類問(wèn)題中的應(yīng)用】相關(guān)文章:
大跨度橋梁非線性分析的論文04-27
垃圾分類現(xiàn)狀分析論文08-03
線性和非線性的區(qū)別08-20
論文:磁記錄和標(biāo)準(zhǔn)在磁卡分析中的應(yīng)用06-19
WEBVR和RIA技術(shù)在新媒體中的應(yīng)用分析論文06-12
“擴(kuò)倍法”在小學(xué)數(shù)學(xué)解題中的應(yīng)用論文06-22