基于關(guān)聯(lián)規(guī)則算法的高職英語教學中的分析研究論文
摘 要:本文重點討論數(shù)據(jù)挖掘算法在高職英語教學中的應用和研究,文中以無錫科技職業(yè)學院為模型,采用關(guān)聯(lián)規(guī)則算法挖掘該校所屬學生在三個學期之內(nèi)的英語成績的分布和相關(guān)影響結(jié)果。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則算法;英語教學
1 引言
近年來,隨著中國社會經(jīng)濟的飛速發(fā)展,市場經(jīng)濟體制的不斷完善,特別是加入WTO后,使中國企業(yè)有更多的機會在全球發(fā)達的市場中展示實力和發(fā)展自己的事業(yè),實現(xiàn)了跨國經(jīng)營。國際大學英語人才在社會經(jīng)濟發(fā)展中的作用也因此越來越受到各類企事業(yè)單位的重視。可是,市場對大學英語人才的需求是多元化的,它不僅需要傳統(tǒng)意義上的“學術(shù)型”人才,更需要“技術(shù)型”,“技能型”應用人才。為此,我們必須探討符合時代發(fā)展要求的人才培養(yǎng)模式,否則高職大學英語就不能形成自己的特色,就無法建立起有別于普通高職“大學英語”的課程模式!皬亩粫哂泻軓姷纳Γ簿蜎]有它發(fā)展的空間,甚至失去它作為一種高等教育類型存在的意義。”
本文研究的重點是探討具有高職大學英語課程教學中關(guān)于數(shù)據(jù)挖掘算法在應用課程目標、課程內(nèi)容,師資隊伍、教學方法、教學評價中所做的工作,這些是體現(xiàn)高職大學英語課程特色的關(guān)鍵所在。
2 關(guān)聯(lián)規(guī)則挖掘的建構(gòu)
關(guān)聯(lián)規(guī)則挖掘是尋找數(shù)據(jù)項中的有趣聯(lián)系,決定哪些事情將一起發(fā)生。關(guān)聯(lián)規(guī)則挖掘研究是近幾年研究較多的數(shù)據(jù)挖掘方法,在數(shù)據(jù)挖掘各種方法中應用的也最廣泛關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)可以分成兩個步驟:首先發(fā)現(xiàn)所有頻繁項集,然后用這些頻繁項集生成強關(guān)聯(lián)規(guī)則。Apriori算法是經(jīng)典的頻繁項目集生成算法,在數(shù)據(jù)挖掘界起著里程碑的`作用,它的基本思想是利用一個層次順序搜索的迭代方法來生成頻繁項集,即利用K-項集來生成(K+1)-項集,用候選項集Ck找頻繁項集Lk。這個方法要求多次掃描可能非常大的交易數(shù)據(jù)庫。而用于關(guān)聯(lián)規(guī)則挖掘的事物數(shù)據(jù)庫的規(guī)模通常是非常大的,這樣一來,開銷就非常大。而在有限的內(nèi)存容量下,系統(tǒng)I/O負載相當大,每次掃描數(shù)據(jù)庫的時間就會很長,這樣,其效率就非常低。
關(guān)聯(lián)規(guī)則挖掘的任務就是在事務數(shù)據(jù)庫D中找出具有用戶給定的最小支持度和最小置信度的強關(guān)聯(lián)規(guī)則。強關(guān)聯(lián)規(guī)則對應的項集必定是頻繁項集,而頻繁項集導出的關(guān)聯(lián)規(guī)則的置信度又可由頻繁項集和的支持率計算。于是,可以將關(guān)聯(lián)規(guī)則挖掘分解為以下兩個步驟:
步驟一:根據(jù)最小支持度找出D中所有的頻繁項集。
步驟二:根據(jù)頻繁項目集和最小置信度產(chǎn)生強關(guān)聯(lián)規(guī)則。
在上述兩個步驟中,步驟一的任務是迅速高效地找出D中全部的頻繁項集,關(guān)聯(lián)規(guī)則挖掘的整體性能由該步驟決定。因此,目前所有的關(guān)聯(lián)規(guī)則挖掘算法都集中在步驟一的研究上。步驟二是比較容易實現(xiàn)的,首先對于每個頻繁項集l,產(chǎn)生l的所有非空子集。然后對于每個l的非空子集s,如果,則輸出規(guī)則“s=>(l-s)”。
關(guān)聯(lián)算法如下:
輸入:交易數(shù)據(jù)庫D;最小支持度min_sup
輸出:交易數(shù)據(jù)庫D的頻繁項集L
1)L1={頻繁1項集};
2)for(k=2;Lk-1≠;k++) {
3) Ck=Apriori-gen(Lk-1,min_sup);//新的候選項目集
4) for 所有事務t∈D {
5) Ct=subset(Ck,t);//t中所包含的候選
6) for 所有候選c∈Ct
7) c.count++;
8) }
9) Lk={c∈Ck│c.count≥minsup}
10) }
11)return L=∪kLk
3 挖掘結(jié)果
下表1是學院2007級學生入學以來三次大學英語的成績,在數(shù)據(jù)挖掘階段,先用前述的算法掃描數(shù)據(jù)庫,得到最小支持度閾值min_sup的全體頻繁項集,再由頻繁項集導出規(guī)則知識,最后,對挖掘結(jié)果加以解釋并轉(zhuǎn)換成易于理解的顯式知識。
表1 學生英語成績樣本
xh
k1
k2
k3
100072351
86
85
75
100072352
88
82
69
100072353
81
86
79
100072354
84
85
77
100072355
78
85
83
100072356
82
87
84
100072357
65
83
89
實例的運行結(jié)果與分析:假定取事務數(shù)為10。要對表中的優(yōu)秀課程進行關(guān)聯(lián)規(guī)則挖掘,需要給出支持度和置信度。假定最小支持度為30%,置信度為50%。由上述分析得知,計算最終頻繁項集的各非空子集的置信度,刪除小于最小置信度閾值的記錄,最終產(chǎn)生關(guān)聯(lián)規(guī)則:
(1) k1,k2同時優(yōu)秀時,k3有大于67%的優(yōu)秀的可能;
(2) k1,k3同時優(yōu)秀時,k2有大于100%的優(yōu)秀的可能;
(3) k2,k3同時優(yōu)秀時,k1有大于100%的優(yōu)秀的可能;
(4) k1優(yōu)秀時,k2,k3有大于67%同時優(yōu)秀的可能;
(5) k3優(yōu)秀時,k1,k2有大于80%同時優(yōu)秀的可能。
參考文獻:
[1]邵峰晶、于忠清著.數(shù)據(jù)挖掘原理與算法[M].中國水利水電出版社,2008.8
[2]Robert Grossman.The Terabyte Challenge Disyte Challenge Discoverying Informationin Distributed and Massive Data[J]. American Association forArtificial Intelligence.CaliL 1991.
[3]林宇等著.數(shù)據(jù)倉庫原理與實踐[M].人民郵電出版社,2008.1
【基于關(guān)聯(lián)規(guī)則算法的高職英語教學中的分析研究論文】相關(guān)文章:
《中醫(yī)婦科學》證素診斷中關(guān)聯(lián)規(guī)則的運用論文01-29
高職英語教學中記憶標識作用論文07-23
關(guān)于高職英語教學中遺忘規(guī)律研究的論文07-23
高職英語教學中培養(yǎng)學生的關(guān)鍵能力論文06-29
CCD測量系統(tǒng)中基于自適應相關(guān)算法的動態(tài)目標跟蹤的論文06-16
有關(guān)高職英語教學論文06-22
高職英語教學中混合式教學的應用論文07-08