決策樹(shù)算法在高職院校成績(jī)分析中的應(yīng)用研究的論文
摘 要:高職院校的學(xué)生的成績(jī)是一項(xiàng)重要的數(shù)據(jù),它不僅是對(duì)學(xué)生學(xué)習(xí)情況的評(píng)價(jià),也是對(duì)教師教學(xué)質(zhì)量的檢查。本文研究了使用決策樹(shù)算法對(duì)學(xué)生的成績(jī)進(jìn)行挖掘分析,分析學(xué)生的畢業(yè)設(shè)計(jì)成績(jī)與基礎(chǔ)類課程、專業(yè)類課程以及專項(xiàng)實(shí)踐類課程之間隱藏的內(nèi)在聯(lián)系,指導(dǎo)教師在今后的教學(xué)中加強(qiáng)學(xué)生實(shí)踐操作能力的訓(xùn)練,進(jìn)而提高教學(xué)質(zhì)量。
關(guān)鍵詞:決策樹(shù); ID3算法; 數(shù)據(jù)挖掘 ;學(xué)生成績(jī)分析
1.引言
高職院校在多年的教學(xué)和管理工作中,積累了大量的教學(xué)管理數(shù)據(jù),這些數(shù)據(jù)中蘊(yùn)含了很多有價(jià)值的信息。如果利用數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)院教務(wù)管理系統(tǒng)中教師和學(xué)生的數(shù)據(jù)進(jìn)行挖掘,可以使教師更好的把握學(xué)生、把握教學(xué)過(guò)程,實(shí)現(xiàn)教學(xué)過(guò)程動(dòng)態(tài)化管理,為學(xué)校合理設(shè)置課程、優(yōu)化教育資源配置、提高教學(xué)質(zhì)量提供可靠的數(shù)據(jù)依據(jù),同時(shí)對(duì)提高學(xué)校教學(xué)和管理水平也有一定的幫助。[1]
數(shù)據(jù)挖掘(Data Mining),即數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),就是對(duì)龐大的數(shù)據(jù)集或數(shù)據(jù)庫(kù)進(jìn)行分析,挖掘出隱含的、未知的、用戶可能感興趣的和對(duì)決策有潛在價(jià)值的知識(shí)和規(guī)則,可以為用戶提供決策的依據(jù)[2]。決策樹(shù)算法是數(shù)據(jù)挖掘的核心算法之一,決策樹(shù)方法以樹(shù)型結(jié)構(gòu)表達(dá)最終分類結(jié)果的,也能生成If-Then形式的規(guī)則,便于使用者理解。
在教務(wù)管理系統(tǒng)中,學(xué)生的成績(jī)是一項(xiàng)重要的數(shù)據(jù),它不僅是對(duì)學(xué)生學(xué)習(xí)情況的評(píng)價(jià),也是對(duì)教師教學(xué)質(zhì)量的.檢查。本文中研究使用決策樹(shù)算法對(duì)學(xué)生的成績(jī)進(jìn)行挖掘分析,全面地分析學(xué)生的畢業(yè)設(shè)計(jì)成績(jī)與實(shí)踐類課程、專業(yè)類及基礎(chǔ)類課程中隱藏的內(nèi)在聯(lián)系,體現(xiàn)出學(xué)生課程之間有一定的相互關(guān)聯(lián)關(guān)系,可以及時(shí)指導(dǎo)教師在以后的教學(xué)工作中采取恰當(dāng)?shù)姆椒,加?qiáng)學(xué)生實(shí)踐操作能力的訓(xùn)練,指導(dǎo)學(xué)生進(jìn)行專業(yè)、基礎(chǔ)類課程的學(xué)習(xí),提高教學(xué)質(zhì)量。
2.決策樹(shù)算法
2.1決策樹(shù)算法基本概念
決策樹(shù)是一種常用的、直觀的分類歸納算法。決策樹(shù)是一種類似流程圖的樹(shù)狀結(jié)構(gòu),根據(jù)層次的不同,結(jié)點(diǎn)分為根結(jié)點(diǎn)、內(nèi)部結(jié)點(diǎn)和葉結(jié)點(diǎn)三種類型。[3] 每個(gè)結(jié)點(diǎn)對(duì)應(yīng)一個(gè)樣本集,樹(shù)的最高層結(jié)點(diǎn)就是根結(jié)點(diǎn),對(duì)應(yīng)整個(gè)樣本集,內(nèi)部結(jié)點(diǎn)對(duì)應(yīng)一個(gè)類標(biāo)志。根結(jié)點(diǎn)和內(nèi)部結(jié)點(diǎn)都包含一個(gè)對(duì)樣本屬性的測(cè)試,根據(jù)測(cè)試的結(jié)果將樣本集劃分為兩個(gè)或多個(gè)子集,每個(gè)子集生成一個(gè)分支,分支用測(cè)試屬性值來(lái)標(biāo)識(shí)。葉結(jié)點(diǎn)包含一個(gè)類標(biāo)志,表示對(duì)應(yīng)樣本集的類別。決策樹(shù)的中間結(jié)點(diǎn)通常用矩形表示;而葉子結(jié)點(diǎn)常用橢圓表示。
決策樹(shù)的構(gòu)造包括兩個(gè)步驟,一是生成決策樹(shù),二是進(jìn)行剪枝。決策樹(shù)的生成是從一個(gè)根結(jié)點(diǎn)開(kāi)始,從下到下的遞歸過(guò)程,通過(guò)不斷地將訓(xùn)練樣本分割成子集來(lái)構(gòu)造決策樹(shù),從根結(jié)點(diǎn)開(kāi)始對(duì)該樣本的屬性進(jìn)行測(cè)試,根據(jù)測(cè)試結(jié)果確定下一個(gè)結(jié)點(diǎn),直至到達(dá)葉結(jié)點(diǎn)為止。決策樹(shù)的剪枝是對(duì)樹(shù)結(jié)構(gòu)進(jìn)行修剪,刪除多余分支的過(guò)程,得到一棵最小期望錯(cuò)誤率的決策樹(shù)。
2.2 ID3算法
ID3算法是決策樹(shù)學(xué)習(xí)算法中最有影響力、使用最廣泛的一種決策樹(shù)算法。ID3的基本思想是自頂向下遞歸地使用搜索訓(xùn)練樣本集,是一種典型的貪心算法,在決策樹(shù)的每個(gè)結(jié)點(diǎn)處測(cè)試每一個(gè)屬性,用信息增益作為屬性的選擇標(biāo)準(zhǔn),選擇信息增益最大的屬性作為決策樹(shù)結(jié)點(diǎn),從而構(gòu)建決策樹(shù)。[4]在算法中,在決策樹(shù)結(jié)點(diǎn)屬性的選擇上使用信息論中熵(Entropy)的概念來(lái)完成。
2.2.1 信息熵
信息熵是各自信息量的期望,用信息熵可以用來(lái)度量整個(gè)信息源X整體的不確性。設(shè)樣本數(shù)據(jù)集為X, n是信號(hào)源所有可能的符號(hào)數(shù),ai是可能取到的值,P(ai)是取值為ai的概率。其信息熵如下:
2.2.3平均信息增益
信息增益表示兩個(gè)信息量之間的差值,在進(jìn)行分類屬性的選擇時(shí),應(yīng)該選擇最大的信息增益作為分類屬性。信息增益如下:
Gain(XY)= H(X)-H(XY)
3.決策樹(shù)算法在教學(xué)質(zhì)量分析中的應(yīng)用
學(xué)生的畢業(yè)設(shè)計(jì)通常是學(xué)生對(duì)三年來(lái)所學(xué)的各種基礎(chǔ)素養(yǎng)類課程、專業(yè)類課程、專項(xiàng)實(shí)踐類課程的綜合掌握,是體現(xiàn)一個(gè)學(xué)生的綜合素質(zhì)的重要依據(jù),也是教師培養(yǎng)學(xué)生的教學(xué)質(zhì)量的重要體現(xiàn)。因此,通過(guò)對(duì)學(xué)生的畢業(yè)設(shè)計(jì)和各種基礎(chǔ)課、專業(yè)課及專業(yè)實(shí)踐課的考試成績(jī)的挖掘,分析出其中的關(guān)系,為今后教師調(diào)整教學(xué)方案提供依據(jù)。
決策樹(shù)算法對(duì)學(xué)生成績(jī)進(jìn)行分析,是將決策樹(shù)的相關(guān)算法應(yīng)用于學(xué)生成績(jī)挖掘,對(duì)大量的考試成績(jī)數(shù)據(jù)進(jìn)行分析,從而更好的分析和預(yù)測(cè)成績(jī)數(shù)據(jù)。[5]其主要過(guò)程如下:
3.1數(shù)據(jù)收集
數(shù)據(jù)收集階段主要工作是從教務(wù)管理系統(tǒng)中收集與挖掘相關(guān)的學(xué)生成績(jī)數(shù)據(jù),并進(jìn)行簡(jiǎn)單的統(tǒng)計(jì)分析,檢查這些學(xué)生成績(jī)數(shù)據(jù)是否完整。
在進(jìn)行數(shù)據(jù)挖掘之前,主要收集了我院2008級(jí)軟件技術(shù)專業(yè)0801班42名學(xué)生不同學(xué)期的課程成績(jī)作為原始數(shù)據(jù),一共選擇了9門(mén)課程。學(xué)生成績(jī)表的主要內(nèi)容包括學(xué)號(hào)及各門(mén)課程成績(jī)。進(jìn)行分類整理后,得到學(xué)生成績(jī)數(shù)據(jù)表。
學(xué)號(hào)
計(jì)算機(jī)網(wǎng)絡(luò)基礎(chǔ)
C語(yǔ)言程序設(shè)計(jì)
WEB開(kāi)發(fā)技術(shù)
數(shù)據(jù)庫(kù)原理與應(yīng)用
ASP.NET程序設(shè)計(jì)
C#程序設(shè)計(jì)
數(shù)據(jù)庫(kù)設(shè)計(jì)與開(kāi)發(fā)
基于C#的ASP.NET應(yīng)用程序設(shè)計(jì)
基于C#的Windows應(yīng)用程序設(shè)計(jì)
畢業(yè)設(shè)計(jì)
100080563
80
80
76
74
90
89
良好
良好
良好
中等
100080575
85
86
88
76
92
94
良好
優(yōu)秀
優(yōu)秀
優(yōu)秀
100080593
60
75
95
69
79
80
中等
及格
及格
及格
……
其中計(jì)算機(jī)網(wǎng)絡(luò)基礎(chǔ)、C語(yǔ)言程序設(shè)計(jì)、WEB開(kāi)發(fā)技術(shù)三門(mén)為基礎(chǔ)類課程,數(shù)據(jù)庫(kù)原理與應(yīng)用、ASP.NET程序設(shè)計(jì)、C#程序設(shè)計(jì)三門(mén)為專業(yè)類課程,數(shù)據(jù)庫(kù)設(shè)計(jì)與開(kāi)發(fā)、基于C#的ASP.NET應(yīng)用程序設(shè)計(jì)、基于C#的Windows應(yīng)用程序設(shè)計(jì)三門(mén)為專項(xiàng)實(shí)踐類課程。
3.2數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理的主要工作就是檢查數(shù)據(jù)庫(kù)中不完整的、含噪聲的,不一致的的數(shù)據(jù),并且進(jìn)行清理,除去噪音,填補(bǔ)記錄中遺漏的數(shù)據(jù)值、刪除無(wú)效數(shù)據(jù)等,提高挖掘算法的精度和有效性。并且要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,生成新的屬性或記錄,使之適合數(shù)據(jù)挖掘處理的格式,預(yù)處理后的數(shù)據(jù)可以節(jié)省數(shù)據(jù)處理的時(shí)間。
在學(xué)生成績(jī)表中,對(duì)學(xué)生因缺考、緩考、違紀(jì)、休學(xué)、退學(xué)等情況產(chǎn)生的成績(jī)記錄的缺失,可考慮進(jìn)行清理,刪除這些記錄,確保表格數(shù)據(jù)的完整。最后形成有效數(shù)據(jù)共42條記錄。
3.3數(shù)據(jù)轉(zhuǎn)換
將收集到的數(shù)據(jù)信息轉(zhuǎn)換為一個(gè)數(shù)據(jù)模型, 決策樹(shù)算法中使用的是離散型數(shù)據(jù),學(xué)生成績(jī)是連續(xù)型的,因此,要將其數(shù)據(jù)屬性進(jìn)行離散化處理。
學(xué)生成績(jī)的成績(jī)?cè)u(píng)價(jià)指標(biāo)可分為三個(gè)等級(jí),A:85-100(優(yōu)秀),B:70-84(良好),C:69以下(一般)。離散化后的學(xué)生成績(jī)表如下圖所示:
學(xué)號(hào)
基礎(chǔ)課
專業(yè)課
專項(xiàng)實(shí)踐課
畢業(yè)設(shè)計(jì)
100080563
B
B
B
B
100080575
A
A
A
A
100080593
B
C
C
C
……
3.4 數(shù)據(jù)分類挖掘
根據(jù)生成的分析模型,利用決策樹(shù)算法對(duì)數(shù)據(jù)進(jìn)行挖掘,具體情況如下。
學(xué)生成績(jī)表中樣本類別屬性為畢業(yè)設(shè)計(jì),首先計(jì)算出畢業(yè)設(shè)計(jì)的信息熵。畢業(yè)設(shè)計(jì)成績(jī)分為A(優(yōu)秀)、B(良好)、C(一般)三種類別,其中優(yōu)秀為3人,良好為28人,一般為11人,根據(jù)公式計(jì)算其信息熵如下:
(3)根據(jù)專項(xiàng)實(shí)踐課成績(jī)計(jì)算條件熵。
專項(xiàng)實(shí)踐課成績(jī)?yōu)?quot;A"人數(shù)為7人。其中畢業(yè)設(shè)計(jì)成績(jī)?yōu)?quot;A"的2人,為"B"的5人,為"C"的0人。專項(xiàng)實(shí)踐課成績(jī)?yōu)?quot;B"人數(shù)為25人,其中畢業(yè)設(shè)計(jì)成績(jī)?yōu)?quot;A"的1人,為"B"的16人,為"C"的8人。專項(xiàng)實(shí)踐課成績(jī)?yōu)?quot;C"人數(shù)為10人。其中畢業(yè)設(shè)計(jì)成績(jī)?yōu)?quot;A"的0人,為"B"的7人,為"C"的3人。因此其條件熵為:
H(X專項(xiàng)實(shí)踐課)=
=1.022
其信息增益為:
Gain(專項(xiàng)實(shí)踐課)=1.168-1.022=0.146
由上述計(jì)算可見(jiàn),專項(xiàng)實(shí)踐課成績(jī)屬性所獲得的信息增益最大,被作為根結(jié)點(diǎn),并依次取專業(yè)課成績(jī)、基礎(chǔ)課成績(jī)屬性做為分支結(jié)點(diǎn)。通過(guò)構(gòu)造和剪枝后,形成如圖所示的決策樹(shù):
3.5 結(jié)果分析
通過(guò)對(duì)上述決策樹(shù)的分析,可得出如下結(jié)論:
專項(xiàng)實(shí)踐、專業(yè)課、基礎(chǔ)課成績(jī)均優(yōu)秀的同學(xué),畢業(yè)設(shè)計(jì)成績(jī)優(yōu)秀。專項(xiàng)實(shí)踐優(yōu)秀、專業(yè)課成績(jī)一般的同學(xué),無(wú)論基礎(chǔ)課成績(jī)?nèi)绾,畢業(yè)設(shè)計(jì)成績(jī)均為一般。由決策樹(shù)分析可見(jiàn),專項(xiàng)實(shí)踐、專業(yè)課、基礎(chǔ)課在學(xué)生的綜合素質(zhì)的培養(yǎng)中起到了不同程度的作用。專項(xiàng)實(shí)踐課對(duì)學(xué)生的綜合能力的培養(yǎng)有重要的影響,但不是絕對(duì)因素,基礎(chǔ)課和專業(yè)課的教學(xué)安排,對(duì)學(xué)生的實(shí)踐能力的訓(xùn)練起到了很大的支撐作用。因此,在專業(yè)的課程安排和教師的教學(xué)組織中,要注重學(xué)生的知識(shí)的學(xué)習(xí)與技能的訓(xùn)練的有機(jī)結(jié)合,提高學(xué)生的綜合能力。
4.結(jié)束語(yǔ)
利用決策樹(shù)分類算法的ID3 算法對(duì)學(xué)生的成績(jī)進(jìn)行分析,構(gòu)造出學(xué)生成績(jī)分析決策樹(shù),可以挖掘出學(xué)生的畢業(yè)設(shè)計(jì)成績(jī)與基礎(chǔ)課程、專業(yè)課程、專項(xiàng)實(shí)踐課程之間的隱藏關(guān)系,同時(shí)也挖掘出各類課程的學(xué)習(xí)對(duì)學(xué)生綜合素質(zhì)培養(yǎng)的影響。教師可以根據(jù)分析結(jié)果在今后的教學(xué)過(guò)程中,注重加強(qiáng)學(xué)生的專業(yè)能力培養(yǎng)、實(shí)踐能力訓(xùn)練,培養(yǎng)出合格的高端技能型人才。
參考文獻(xiàn):
[1]丁智斌,袁方,董賀偉.數(shù)據(jù)挖掘在高校學(xué)生學(xué)習(xí)成績(jī)分析中的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì).2006.2(590-592)
[2]邵峰晶,于忠清,王金龍,孫仁誠(chéng). 數(shù)據(jù)挖掘原理與算法[M].北京:科學(xué)出版社.2009.
[3]陳安,陳寧,周龍?bào)J.數(shù)據(jù)挖掘技術(shù)及應(yīng)用[M].北京:科學(xué)出版社.2006.
[4]廖芹,郝志峰,陳志宏.數(shù)據(jù)挖掘與數(shù)學(xué)建模[M].北京:國(guó)防工業(yè)出版社.2010.
[5]邢曉宇,余建坤,陳磊.決策樹(shù)算法在學(xué)生考試成績(jī)中的應(yīng)用[J].云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版).2009.1(77-80)
【決策樹(shù)算法在高職院校成績(jī)分析中的應(yīng)用研究的論文】相關(guān)文章:
高職院校體育文化的定位分析論文10-04
淺析高職院校中的創(chuàng)業(yè)教育論文12-10
高職院校體育教學(xué)中的研究論文10-16
基于關(guān)聯(lián)規(guī)則算法的高職英語(yǔ)教學(xué)中的分析研究論文09-10