論文:大數(shù)據(jù)在高校中的應(yīng)用研究
高校大數(shù)據(jù)及其處理架構(gòu)
高校中匯聚著大量的信息,從學(xué)生角度來看,包括聯(lián)系方式等基本信息,食堂消費(fèi)、住宿晚歸等生活信息,選課、課后作業(yè)、借閱圖書、成績等學(xué)習(xí)信息,參與的社團(tuán)、競賽、講座等第二課堂信息;從教師角度來看,包含教學(xué)任務(wù)、課件等教學(xué)信息,論文著作、科學(xué)研究數(shù)據(jù)等科研信息;從管理者的角度來看,包含學(xué)校的資產(chǎn)信息、師資信息、招生就業(yè)信息等。同時隨著移動互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)等新技術(shù)的興起,學(xué)校師生主動產(chǎn)生和由設(shè)備自動收集的信息越來越多,如微博、微信等社交信息,各類搜索點(diǎn)擊記錄信息等。上述信息存在著數(shù)據(jù)量大、結(jié)構(gòu)復(fù)雜、產(chǎn)生頻率快的特點(diǎn)。這導(dǎo)致利用常用軟件工具捕獲、管理和處理此類數(shù)據(jù)所耗費(fèi)時問超過了可容忍的時問。
大數(shù)據(jù)的處理流程與一般數(shù)據(jù)的處理過程類似,可以定義為在合適工具的輔助下對廣泛異構(gòu)的數(shù)據(jù)源進(jìn)行抽取和集成,將結(jié)果按照一定的標(biāo)準(zhǔn)統(tǒng)一存儲,利用合適的數(shù)據(jù)分析技術(shù)對存儲的數(shù)據(jù)進(jìn)行分析從中提取有益的知識,并利用恰當(dāng)?shù)姆绞綄⒔Y(jié)果展現(xiàn)給終端用戶。具體來說可以分為數(shù)據(jù)抽取與集成、數(shù)據(jù)分析和數(shù)據(jù)展示。
數(shù)據(jù)抽取與集成
大數(shù)據(jù)的數(shù)據(jù)來源非常廣泛,既包括傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,也包括半結(jié)構(gòu)化數(shù)據(jù),以及以視頻、音頻、文本和其他形式存在的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)抽取和集成要解決的主要問題就是收集各種碎片化的數(shù)據(jù),對數(shù)據(jù)進(jìn)行清洗,保證數(shù)據(jù)質(zhì)量,同時根據(jù)時問演進(jìn)小斷更新數(shù)據(jù)模式,確定數(shù)據(jù)實(shí)體及其之問的關(guān)系,最終將數(shù)據(jù)按照統(tǒng)一的格式進(jìn)行存儲,以便提供給 上層用來進(jìn)行數(shù)據(jù)分析。
目前高校已經(jīng)基本建立了完備的管理信息系統(tǒng)、學(xué)習(xí)管理系統(tǒng)等,在統(tǒng)一數(shù)據(jù)中心中積累了大量的結(jié)構(gòu)化數(shù)據(jù);同時各類系統(tǒng)中還散布著大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)經(jīng)過一定處理后,可以轉(zhuǎn)化為更容易分析使用的結(jié)構(gòu)化數(shù)據(jù)。
數(shù)據(jù)分析
經(jīng)過抽取和集成得到的數(shù)據(jù),需要經(jīng)過分析挖掘其潛在的價值。傳統(tǒng)的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析等方法仍然可以用來對數(shù)據(jù)進(jìn)行分析,只是需要根據(jù)大數(shù)據(jù)的特征進(jìn)行調(diào)整。首先,為了實(shí)現(xiàn)對海量數(shù)據(jù)的分析,需要依據(jù)模型,將數(shù)據(jù)拆分處理,然后再將結(jié)果匯總,一個完整的分析可能會經(jīng)過多層類似的處理過程;其次,大數(shù)據(jù)的應(yīng)用通常具有實(shí)時性的特點(diǎn),數(shù)據(jù)的價值會隨著時問的流逝而遞減,因此分析方法需要平衡處理的效率和準(zhǔn)確率;最后,大數(shù)據(jù)一般構(gòu)建在云計(jì)算平臺之上,分析方法需要考慮與云計(jì)算平臺的集成或做為一種云服務(wù)。
數(shù)據(jù)展示
數(shù)據(jù)分析得到的分析結(jié)果,需要以直觀可理解的方式呈獻(xiàn)給最終用戶,在大數(shù)據(jù)時代,數(shù)據(jù)分析產(chǎn)生的結(jié)果有可能也是非常大量的,且結(jié)果之問的關(guān)聯(lián)關(guān)系復(fù)雜、數(shù)據(jù)維度更多,數(shù)據(jù)可視化技術(shù)通過更加適合人類思維的圖形化的方式展示數(shù)據(jù)分析結(jié)果,已經(jīng)被證明是展示數(shù)據(jù)分析結(jié)果非常有效的方法。常見的可視化方法有:多維疊加式數(shù)據(jù)可視化、數(shù)據(jù)在空問、時問坐標(biāo)中的變化和對比等,當(dāng)然要將枯燥的信息轉(zhuǎn)換為美麗的、令人印象深刻的圖形,需要較高的技術(shù)素養(yǎng)和藝術(shù)素養(yǎng)。
大數(shù)據(jù)在高校中的典型應(yīng)用
很多高校正在使用大數(shù)據(jù)分析技術(shù)解決遇到的實(shí)際問題,如美國德克薩斯大學(xué)利用大數(shù)據(jù)技術(shù)分析學(xué)校用戶使用行為產(chǎn)生的數(shù)據(jù),確定用戶行為異常,審計(jì)基礎(chǔ)環(huán)境,制定安全防護(hù)措施。其他的一些應(yīng)用場景包括分析學(xué)生參與網(wǎng)絡(luò)課堂產(chǎn)生的數(shù)據(jù),進(jìn)而確定如何改進(jìn)課程講述方式,達(dá)到因材施教的教育目標(biāo)。
高校可以在就業(yè)情況分析、學(xué)習(xí)行為分析、學(xué)科規(guī)劃、心理咨詢、校友聯(lián)絡(luò)等方面借助大數(shù)據(jù)分析技術(shù),挖掘數(shù)據(jù)中潛在的價值。
就業(yè)情況分析
當(dāng)前市場經(jīng)濟(jì)高速發(fā)展、高校小斷擴(kuò)招、就業(yè)制度改革小斷深化和畢業(yè)生數(shù)量逐年增加、社會整體就業(yè)形勢日益嚴(yán)峻,大學(xué)生就業(yè)問題己經(jīng)越來越成為目前大家共同關(guān)心的話題,研究大學(xué)生就業(yè)問題具有緊迫性和重要性。本文提出在大數(shù)據(jù)分析框架下的就業(yè)問題分析思路。
1.數(shù)據(jù)來源
傳統(tǒng)的就業(yè)分析一般從就業(yè)單位、就業(yè)地區(qū)、所在院系專業(yè)、性別、簽約類別、就業(yè)年份等維度來分析,得到的只是一般意義上的統(tǒng)計(jì)結(jié)果,對于指導(dǎo)單個學(xué)生的就業(yè)以及預(yù)測未來的就業(yè)情況發(fā)揮的作用比較有限。應(yīng)用大數(shù)據(jù)分析技術(shù),就可以將學(xué)生就業(yè)模型涉及到的學(xué)習(xí)情況、社團(tuán)信息、生活信息、校外實(shí)習(xí)、參加的競賽及獲獎情況、所投公司當(dāng)年的招聘計(jì)劃、歷屆學(xué)生在所投公司的表現(xiàn)等眾多的信息進(jìn)行收集。以上海財(cái)經(jīng)大學(xué)為例,可以從各類系統(tǒng)中抽取學(xué)生的各類信息,構(gòu)成就業(yè)分析模型所需的各類數(shù)據(jù)。
2.數(shù)據(jù)抽取與存儲
針對數(shù)據(jù)來源的小同,我們采取小同的數(shù)據(jù)抽取方式,對于結(jié)構(gòu)良好的各信息系統(tǒng)的數(shù)據(jù),我們采用ETI工具如Kettle將數(shù)據(jù)抽取到數(shù)據(jù)庫中;對于Web網(wǎng)頁這類非結(jié)構(gòu)化數(shù)據(jù),通過進(jìn)行抓取,對數(shù)據(jù)進(jìn)行索引后存儲到數(shù)據(jù)庫中。數(shù)據(jù)庫是一個開源的高可靠性、高性能、可伸縮、并非建立在關(guān)系模型基礎(chǔ)上的分布式數(shù)據(jù)庫,用以存儲大規(guī)模結(jié)構(gòu)化數(shù)據(jù)。
3.數(shù)據(jù)分析
將就業(yè)分析模型所需的數(shù)據(jù)存儲在數(shù)據(jù)庫后,可以利用數(shù)據(jù)進(jìn)行查詢和分析。提供了一種簡單的類SQI查詢語言,適合數(shù)據(jù)倉庫的統(tǒng)計(jì)分析。通過我們可以實(shí)現(xiàn)傳統(tǒng)數(shù)據(jù)倉庫所實(shí)現(xiàn)的對就業(yè)數(shù)據(jù)的匯總統(tǒng)計(jì)分析,而且可以容易的擴(kuò)展其存儲能力和計(jì)算能力。
除了數(shù)據(jù)統(tǒng)計(jì)分析之外,我們還可以利用About這個機(jī)器學(xué)習(xí)工具對數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)使用先驗(yàn)知識對數(shù)據(jù)進(jìn)行分類;無監(jiān)督學(xué)習(xí)則由計(jì)算機(jī)自己學(xué)習(xí)處理數(shù)據(jù),并在做出判斷后給予一定的激勵或懲罰。在進(jìn)行就業(yè)分析時,我們可以使用About已經(jīng)實(shí)現(xiàn)的具體方法。首先是協(xié)作篩選,通過分析已就業(yè)學(xué)生的成績、參加的社團(tuán)活動、關(guān)注的行業(yè)、性格特點(diǎn)、就業(yè)單位、就業(yè)崗位等,計(jì)算學(xué)生之問的相似度,為即將畢業(yè)的學(xué)生推薦適合的就業(yè)單位和崗位,提供個性化的服務(wù);其次是聚類,這是一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,我們可以通過小同的維度將未能及時就業(yè)的學(xué)生進(jìn)行分析,從中找出其共同的特點(diǎn),再通過比較在校學(xué)生的相關(guān)屬性,及時對學(xué)生給出預(yù)警,以便其在后續(xù)的學(xué)習(xí)和生活中加以改進(jìn)。
4.數(shù)據(jù)展示
在數(shù)據(jù)展示層,我們可以使用軟件將分析的結(jié)果進(jìn)行可視化的展示,將數(shù)據(jù)與美觀的圖表完美地結(jié)合在一起,它包含非常多的預(yù)定義的圖表格式,同時還可以將時問、地圖等多種維度在單一的圖表中進(jìn)行展示。
學(xué)習(xí)行為分析
為了支持學(xué)生的自主學(xué)習(xí),高校一般都有自己的學(xué)習(xí)管理系統(tǒng)等。這些學(xué)習(xí)管理系統(tǒng)為學(xué)生、教師提供了課程學(xué)習(xí)和交流的空問。美國教育部教育技術(shù)辦公室認(rèn)為教育數(shù)據(jù)分為鍵擊層、回答層、學(xué)期層、學(xué)生層、教室層、教師層和學(xué)校層,數(shù)據(jù)就寓居在這些小同的層之中。一般高校每年的開課數(shù)在數(shù)千門,學(xué)生數(shù)在數(shù)萬人,產(chǎn)生的數(shù)據(jù)量非常大。應(yīng)用大數(shù)據(jù)分析技術(shù)使得監(jiān)控學(xué)生的每一個學(xué)習(xí)行為變?yōu)榱丝赡,學(xué)生在回答一個問題時用了多長時問,哪些問題被跳過了,為了回答問題而作的研究工作等都可以獲得,用這些學(xué)生學(xué)習(xí)的'行為檔案創(chuàng)造適應(yīng)性的學(xué)習(xí)系統(tǒng)能夠提高學(xué)生的學(xué)習(xí)效果。
學(xué)科規(guī)劃
促進(jìn)學(xué)科交叉融合發(fā)展,構(gòu)筑有生命力的學(xué)科生態(tài),打造突顯核心競爭力的高水平學(xué)科是學(xué)校學(xué)科規(guī)劃的重要任務(wù)。借助大數(shù)據(jù)分析技術(shù),充分收集各學(xué)科的教學(xué)狀態(tài)數(shù)據(jù)、科研項(xiàng)目數(shù)據(jù)、前沿發(fā)展動態(tài)等信息,從而分析學(xué)科建設(shè)存在的小足,確定學(xué)科未來發(fā)展的方向,發(fā)掘出潛在的具有國際視野的學(xué)科帶頭人。
自理咨詢
論壇、微博等平臺上每天都會產(chǎn)生由評論、帖子、留言等數(shù)據(jù),這些數(shù)據(jù)集反映了師生的思想情況、情感走向和行為動態(tài),對這些數(shù)據(jù)進(jìn)行科學(xué)的存儲、管理并使用大數(shù)據(jù)技術(shù)進(jìn)行有效的分析利用,建立師生思想情感模型,對掌握師生心理健康程度,有針對性地加強(qiáng)對師生的心理輔導(dǎo)有著重要的意義。
校友聯(lián)絡(luò)
校友資源猶如一座座寶藏,對高校的發(fā)展建設(shè)有著小可替代的重要作用,是高校工作的重要組成部分。有效地把校友聯(lián)絡(luò)起來、團(tuán)結(jié)起來,對學(xué)校的建設(shè)和發(fā)展具有重要意義。利用傳統(tǒng)的管理方法,僅校友信息收集就要耗費(fèi)大量的時問和精力。利用大數(shù)據(jù)技術(shù),收集各類社交網(wǎng)站上的非結(jié)構(gòu)化數(shù)據(jù),通過分類、聚類等數(shù)據(jù)挖掘方法,確定校友身份并收集其聯(lián)系方式、參加的活動信息等,可以大大提高校友數(shù)據(jù)收集的效率,為以后利用校友資源提供良好的基礎(chǔ)。
應(yīng)用難點(diǎn)與對策
大數(shù)據(jù)在高校應(yīng)用的美好前景令人神往,但目前大數(shù)據(jù)的應(yīng)用還存在很多應(yīng)用難點(diǎn),主要有數(shù)據(jù)集成困難、數(shù)據(jù)分析方法有待改進(jìn)和數(shù)據(jù)隱私問題。
數(shù)據(jù)集成
在很多高校中,因?yàn)楣芾硇畔⑾到y(tǒng)設(shè)計(jì)時未考慮到對一些過程數(shù)據(jù)的收集,導(dǎo)致在分析時缺乏必要的數(shù)據(jù)來源,需要對應(yīng)用系統(tǒng)進(jìn)行擴(kuò)展;同時對于定義良好的結(jié)構(gòu)化數(shù)據(jù)很多高校也尚未很好的集成。在大數(shù)據(jù)時代,異構(gòu)的數(shù)據(jù)類型、廣泛存在的數(shù)據(jù)來源、參差小齊的數(shù)據(jù)質(zhì)量給數(shù)據(jù)集成帶來了新的挑戰(zhàn)。高校應(yīng)該探索融合結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一模型,同時提高數(shù)據(jù)采集的質(zhì)量,強(qiáng)化數(shù)據(jù)文化。
數(shù)據(jù)分析方法
半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的迅猛增長,給傳統(tǒng)的聚類、關(guān)聯(lián)分析等數(shù)據(jù)挖掘技術(shù)帶來了巨大的沖擊和挑戰(zhàn)。一方面,很多應(yīng)用場景要求數(shù)據(jù)的實(shí)時分析;另一方面缺乏對半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的先驗(yàn)知識,難以構(gòu)建其問的關(guān)聯(lián)關(guān)系。高校需要緊密跟蹤業(yè)界對大數(shù)據(jù)分析方法的研究動態(tài),同時通過高校問的協(xié)作溝通探索新型的數(shù)據(jù)分析方法。
數(shù)據(jù)隱私
大數(shù)據(jù)分析的數(shù)據(jù)基礎(chǔ)必然建立在獲取更多個人信息之上,而且通過分析還可以使數(shù)據(jù)之問產(chǎn)生關(guān)聯(lián)關(guān)系,進(jìn)而揭示更多的個人隱私。然而為了保護(hù)隱私就將所有數(shù)據(jù)加以隱藏,那么數(shù)據(jù)的價值就無法體現(xiàn)。這種矛盾在相當(dāng)長的時問內(nèi)必將一直存在,需要通過技術(shù)和制度的完善逐步解決。
移動互聯(lián)等技術(shù)的小斷興起給高校的發(fā)展帶來了極大的挑戰(zhàn),為了應(yīng)對這種挑戰(zhàn),高校應(yīng)當(dāng)充分發(fā)揮大數(shù)據(jù)在其中的支撐作用。在人才培養(yǎng)、科學(xué)研究和管理等方面廣泛收集過程數(shù)據(jù),結(jié)合可視化技術(shù)充分分析和挖掘蘊(yùn)含在數(shù)據(jù)之中的豐富價值。同時我們需要在高校內(nèi)倡導(dǎo)和強(qiáng)化數(shù)據(jù)文化,建立持久運(yùn)作的收集、分析數(shù)據(jù)并將分析結(jié)果轉(zhuǎn)換為教育決策和實(shí)踐的體系,真正發(fā)揮大數(shù)據(jù)在高校發(fā)展中的價值。