數(shù)據(jù)挖掘技術(shù)在科技期刊網(wǎng)站中的應(yīng)用論文
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,學(xué)術(shù)研究環(huán)境較以前更加開放,對(duì)傳統(tǒng)的科技出版業(yè)提出了開放性、互動(dòng)性和快速性的要求; 因此,以信息技術(shù)為基礎(chǔ)的現(xiàn)代數(shù)字化出版方式對(duì)傳統(tǒng)的科技出版業(yè)產(chǎn)生著深刻的影響。為了順應(yīng)這一趨勢(shì),不少科技期刊都進(jìn)行了數(shù)字化建設(shè),構(gòu)建了符合自身情況、基于互聯(lián)網(wǎng)B /S 結(jié)構(gòu)的稿件處理系統(tǒng)。
以中華醫(yī)學(xué)會(huì)雜志社為代表的部分科技期刊出版集團(tuán)均開發(fā)使用了發(fā)行系統(tǒng)、廣告登記系統(tǒng)、在線銷售系統(tǒng)以及站。這些系統(tǒng)雖然積累了大量的原始用戶業(yè)務(wù)數(shù)據(jù); 但從工作系統(tǒng)來看,由于數(shù)據(jù)本身只屬于編輯部的業(yè)務(wù)數(shù)據(jù),因此一旦相關(guān)業(yè)務(wù)工作進(jìn)行完畢,將很少再對(duì)這些數(shù)據(jù)進(jìn)行分析使用。
隨著目前人工智能和機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,研究人員發(fā)現(xiàn)利用最新的數(shù)據(jù)挖掘方法可以對(duì)原始用戶業(yè)務(wù)數(shù)據(jù)進(jìn)行有效分析和學(xué)習(xí),找出其中數(shù)據(jù)背后隱含的內(nèi)在規(guī)律。這些有價(jià)值的規(guī)律和寶貴的經(jīng)驗(yàn)將對(duì)后續(xù)科技期刊經(jīng)營(yíng)等工作提供巨大的幫助。
姚偉欣等指出,從STM 期刊出版平臺(tái)的技術(shù)發(fā)展來看,利用數(shù)據(jù)存取、數(shù)據(jù)管理、關(guān)聯(lián)數(shù)據(jù)分析、海量數(shù)據(jù)分析等數(shù)據(jù)挖掘技術(shù)將為科技期刊的出版和發(fā)行提供有力的幫助。通過使用數(shù)據(jù)挖掘( data mining) 等各種數(shù)據(jù)處理技術(shù),人們可以很方便地從大量不完全且含有噪聲或相對(duì)模糊的實(shí)際數(shù)據(jù)中,提取隱藏在其中有價(jià)值的信息,從而對(duì)后續(xù)科技期刊出版工作起到重要的知識(shí)發(fā)現(xiàn)和決策支持的作用。
1 數(shù)據(jù)挖掘在科技期刊中應(yīng)用的現(xiàn)狀
傳統(tǒng)的數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)的處理功能包括增、刪、改、查等。這些技術(shù)均無法發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的關(guān)聯(lián)和規(guī)則,更無法根據(jù)現(xiàn)有數(shù)據(jù)對(duì)未來發(fā)展的趨勢(shì)進(jìn)行預(yù)測(cè),F(xiàn)有數(shù)據(jù)挖掘的任務(wù)可以分為對(duì)數(shù)據(jù)模型進(jìn)行分類或預(yù)測(cè)、數(shù)據(jù)總結(jié)、數(shù)據(jù)聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系發(fā)現(xiàn)、異常或例外點(diǎn)檢測(cè)以及趨勢(shì)發(fā)現(xiàn)等,但目前國(guó)內(nèi)科技期刊行業(yè)利用數(shù)據(jù)挖掘方法進(jìn)行大規(guī)模數(shù)據(jù)處理仍處在起步階段。張品純等對(duì)中國(guó)科協(xié)所屬的科技期刊出版單位的現(xiàn)狀進(jìn)行分析后發(fā)現(xiàn),中國(guó)科協(xié)科技期刊出版單位多為單刊獨(dú)立經(jīng)營(yíng),單位的規(guī)模較小、實(shí)力較弱,多數(shù)出版單位不具備市場(chǎng)主體地位。這樣就導(dǎo)致國(guó)內(nèi)大部分科技期刊既沒有能力進(jìn)行數(shù)據(jù)挖掘,也沒有相應(yīng)的數(shù)據(jù)資源準(zhǔn)備。以數(shù)據(jù)挖掘技術(shù)應(yīng)用于期刊網(wǎng)站為例,為了進(jìn)行深入的數(shù)據(jù)分析,期刊經(jīng)營(yíng)人員需要找到稿件與讀者之間、讀者群體之間隱藏的內(nèi)在聯(lián)系。目前,數(shù)據(jù)挖掘的基本步驟為: 1) 明確數(shù)據(jù)挖掘的對(duì)象與目標(biāo);2) 確定數(shù)據(jù)源; 3) 建立數(shù)據(jù)模型; 4) 建立數(shù)據(jù)倉(cāng)庫(kù); 5)數(shù)據(jù)挖掘分析; 6) 對(duì)象與目標(biāo)的數(shù)據(jù)應(yīng)用和反饋。
2 期刊數(shù)據(jù)的資源整合
編輯部從稿件系統(tǒng)、發(fā)行系統(tǒng)、廣告系統(tǒng)、站等各個(gè)系統(tǒng)中將相關(guān)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換和整理,然后加載到數(shù)據(jù)倉(cāng)庫(kù)中。進(jìn)一步,根據(jù)業(yè)務(wù)應(yīng)用的范圍和緊密度,建立相關(guān)數(shù)據(jù)集市。期刊數(shù)據(jù)資源的整合過程從數(shù)據(jù)體系上可分為數(shù)據(jù)采集層、數(shù)據(jù)存儲(chǔ)處理層和數(shù)據(jù)展現(xiàn)層。
要獲得能夠適合企業(yè)內(nèi)部多部門均可使用、挖掘和分析的數(shù)據(jù),可以從業(yè)務(wù)的關(guān)聯(lián)性分析數(shù)據(jù)的準(zhǔn)確性、一致性、有效性和數(shù)據(jù)的內(nèi)在關(guān)聯(lián)性。
3 期刊數(shù)據(jù)的信息挖掘
信息挖掘?yàn)榱藦牟煌N類和形式的業(yè)務(wù)進(jìn)行抽取、變換、集成數(shù)據(jù),最后將其存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù),并要對(duì)數(shù)據(jù)的質(zhì)量進(jìn)行維護(hù)和管理。數(shù)據(jù)挖掘可以有效地識(shí)別讀者的閱讀行為,發(fā)現(xiàn)讀者的閱讀模式和趨勢(shì),對(duì)網(wǎng)站改進(jìn)服務(wù)質(zhì)量、取得更好的用戶黏稠度和滿意度、提高科技期刊經(jīng)營(yíng)能力有著重要的意義。作為一個(gè)分析推薦系統(tǒng),我們將所分析的統(tǒng)計(jì)結(jié)果存儲(chǔ)于服務(wù)器中,在用戶或決策者需要查詢時(shí),只需輸入要找尋的用戶信息,系統(tǒng)將從數(shù)據(jù)庫(kù)中抽取其個(gè)人信息,并處理返回到上網(wǎng)時(shí)間分布、興趣點(diǎn)所在、適配業(yè)務(wù)及他對(duì)于哪些業(yè)務(wù)是有價(jià)值客戶,甚至包括他在什么時(shí)段對(duì)哪類信息更感興趣等。只有這些信息才是我們的使用對(duì)象所看重和需要的。
網(wǎng)站結(jié)構(gòu)挖掘是挖掘網(wǎng)站中潛在的鏈接結(jié)構(gòu)模式。通過分析一個(gè)網(wǎng)頁(yè)的鏈接、鏈接數(shù)量以及鏈接對(duì)象,建立網(wǎng)站自身的鏈接結(jié)構(gòu)模式。在此過程中,如果發(fā)現(xiàn)某一頁(yè)面被較多鏈接所指向,則說明該頁(yè)面信息是有價(jià)值的,值得期刊工作人員做更深層次的挖掘。網(wǎng)站結(jié)構(gòu)挖掘在具體應(yīng)用時(shí)采用的結(jié)構(gòu)和技術(shù)各不相同; 但主要過程均包括預(yù)處理、模式發(fā)現(xiàn)和模式分析3 部分。為了反映讀者興趣取向,就需要對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)按用戶進(jìn)行抽樣分析,得到興趣點(diǎn)的統(tǒng)計(jì)結(jié)果,而個(gè)人的興趣分析也可基于此思路進(jìn)行。下面以《中華醫(yī)學(xué)雜志》為例做一介紹。
預(yù)處理預(yù)處理是網(wǎng)站結(jié)構(gòu)挖掘最關(guān)鍵的一個(gè)環(huán)節(jié),其處理得到的數(shù)據(jù)質(zhì)量直接關(guān)系到使用數(shù)據(jù)挖掘和模式分析方法進(jìn)行分析的結(jié)果。預(yù)處理步驟包括數(shù)據(jù)清洗、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充和事件識(shí)別。以《中華醫(yī)學(xué)雜志》網(wǎng)站www. nmjc. net. cn 的日志分析為例。首先給出一條已有的Log,其內(nèi)容為“2014-03-04 12: 13: 47 W3SVC80003692 172. 22. 4. 3GET /index. asp-80-123. 185. 247. 49Mozilla /5. 0 +( Windows + NT + 6. 1; + WOW64 ) + AppleWebKit /537. 36 + ( KHTML,+ like + Gecko) + Chrome /28. 0.1500. 95 + Safari /537. 36 + SE + 2. X + MetaSr + 1. 0200 0 0”。從Log 的內(nèi)容,工作人員可以得到相關(guān)信息,如用戶IP、用戶訪問頁(yè)面事件、用戶訪問的頁(yè)面、用戶請(qǐng)求的方法、返回HTTP 狀態(tài)以及用戶瀏覽的上一頁(yè)面等內(nèi)容。
由于服務(wù)器同時(shí)部署了多個(gè)編輯部網(wǎng)站,這就要求工作人員必須對(duì)得到的訪問www. nmjc. net. cn 日志,去除由爬蟲軟件產(chǎn)生的記錄。這些記錄一般都會(huì)在日志結(jié)尾包含“Spider”的字樣。同時(shí),還需要去除不是由GET 請(qǐng)求產(chǎn)生的日志以及請(qǐng)求資源不是頁(yè)面類型的日志。最后,工作人員還需要去除訪問錯(cuò)誤的請(qǐng)求,可以根據(jù)日志中請(qǐng)求的狀態(tài)進(jìn)行判斷。一般認(rèn)為,請(qǐng)求狀態(tài)在( 200, 300) 范圍內(nèi)是訪問正確的日志,其他如403、400 和500 等都是訪問錯(cuò)誤的日志。用戶識(shí)別可以根據(jù)用戶的IP 地址和用戶的系統(tǒng)信息來完成。只有在IP 地址和系統(tǒng)信息都完全一致的情況下,才識(shí)別為一個(gè)用戶。會(huì)話識(shí)別是利用面向時(shí)間的探索法,根據(jù)超時(shí)技術(shù)來識(shí)別一個(gè)用戶的多次會(huì)話。如果用戶在一段時(shí)間內(nèi)沒有任何操作,則認(rèn)為會(huì)話結(jié)束。用戶在規(guī)定時(shí)間后重新訪問,則被認(rèn)為不屬于此次會(huì)話,而是下次會(huì)話的開始。
利用WebLogExplore 分析日志、用戶和網(wǎng)頁(yè)信息在獲得了有效的日志數(shù)據(jù)后,工作人員可以利用一些有效數(shù)據(jù)挖掘算法進(jìn)行模式發(fā)現(xiàn)。目前,主要的數(shù)據(jù)挖掘方法有統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則、分類、聚類以及序列模式等技術(shù)。本文主要討論利用Apriori 算法來發(fā)現(xiàn)科技期刊日志數(shù)據(jù)中的關(guān)聯(lián)規(guī)則。本質(zhì)上數(shù)據(jù)挖掘不是用來驗(yàn)證某個(gè)假定的模式的正確性,而是在數(shù)據(jù)庫(kù)中自己尋找模型,本質(zhì)是一個(gè)歸納的過程。支持度( Support) 的公式定義為: Support ( A≥B) = P( A ∪B) 。支持度可以用于度量事件A 與B 同時(shí)出現(xiàn)的概率。如果事件A 與B 同時(shí)出現(xiàn)的概率較小,說明事件A 與B 的關(guān)系不大; 如果事件A 與B 同時(shí)出現(xiàn)非常頻繁,則說明事件A 與B 總是相關(guān)的。置信度( Confidence) 的公式定義為: Confidence( A≥B) = P( A | B) 。置信度揭示了事件A 出現(xiàn)時(shí),事件B 是否也會(huì)出現(xiàn)或有多大概率出現(xiàn)。如果置信度為100%,則事件A 必然會(huì)導(dǎo)致事件B 出現(xiàn)。置信度太低,說明事件A 的出現(xiàn)與事件B 是否出現(xiàn)關(guān)系不大。
對(duì)所有的科技期刊日志數(shù)據(jù)進(jìn)行預(yù)處理后,利用WebLogExplore 軟件可得到日志匯總表。表中存儲(chǔ)了所有用戶訪問網(wǎng)站頁(yè)面的詳細(xì)信息,工作人員可將其導(dǎo)入數(shù)據(jù)庫(kù)中。以查看到所選擇用戶訪問期刊頁(yè)面的詳細(xì)信息。
同樣,在WebLogExplore 軟件中選擇感興趣的頁(yè)面,可以查看所有用戶訪問該頁(yè)面的統(tǒng)計(jì)信息,如該頁(yè)面的訪問用戶數(shù)量等。工作人員可以對(duì)用戶訪問排名較高的頁(yè)面進(jìn)行進(jìn)一步的模式分析。
步驟1: 將圖2 日志信息匯總表中的數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)中,建立日志總表。
步驟2: 在數(shù)據(jù)庫(kù)中建立一個(gè)新表命名為tj。
步驟3: 通過查詢程序得到日志總表中每一個(gè)用戶訪問的頁(yè)面,同時(shí)做distinct 處理。
步驟4: 將查詢得到的用戶訪問頁(yè)面記錄進(jìn)行判斷。如果用戶訪問過排名前20 位的某個(gè)頁(yè)面,則在數(shù)據(jù)庫(kù)中寫入true,否則寫入false。依次循環(huán)判斷寫入數(shù)據(jù)庫(kù)中。
步驟5: 統(tǒng)計(jì)每個(gè)訪問排名靠前頁(yè)面的支持度,設(shè)置一維項(xiàng)目集的最小閥值( 10%) 。
步驟6: 統(tǒng)計(jì)大于一維閥值的頁(yè)面,寫入數(shù)組,并對(duì)數(shù)組內(nèi)部頁(yè)面進(jìn)行兩兩組合,統(tǒng)計(jì)每個(gè)組合2 個(gè)頁(yè)面值均為true 時(shí)的二維項(xiàng)目集的支持度。
步驟7: 設(shè)置二維項(xiàng)目集支持度的閥值,依次統(tǒng)計(jì)三維項(xiàng)目集支持度和置信度( A≥B) ,即當(dāng)A 頁(yè)面為true 時(shí),統(tǒng)計(jì)B 頁(yè)面為true 的數(shù)量,除以A 為true 的數(shù)量。設(shè)置相應(yīng)的.置信度閥值,找到訪問排名靠前頁(yè)面之間較強(qiáng)的關(guān)聯(lián)規(guī)則。
4 數(shù)據(jù)挖掘技術(shù)應(yīng)用的意義
1) 對(duì)頻繁訪問的用戶,可以使用用戶識(shí)別技術(shù)分析此用戶的歷史訪問記錄,得到他經(jīng)常訪問的頁(yè)面。當(dāng)該用戶再次登錄系統(tǒng)時(shí),可以對(duì)其進(jìn)行個(gè)性化提示或推薦。這樣,既方便用戶使用,也可將系統(tǒng)做得更加友好。很多OA 期刊網(wǎng)站,不具備歷史瀏覽記錄的功能; 但瀏覽記錄對(duì)用戶來講其實(shí)十分重要,隱含了用戶對(duì)文章的篩選過程,所以對(duì)用戶經(jīng)常訪問的頁(yè)面需要進(jìn)行優(yōu)化展示,不能僅僅提供鏈接地址,需要將文章題名、作者、關(guān)鍵詞等信息以列表的方式予以顯示。
2) 由數(shù)據(jù)挖掘技術(shù)而產(chǎn)生的頻繁項(xiàng)目集的分析,可以對(duì)網(wǎng)站的結(jié)構(gòu)進(jìn)行改進(jìn)。支持度很高的頁(yè)面,說明該頁(yè)面的用戶訪問量大。為了方便用戶以及吸引更多的讀者,可以將這些頁(yè)面放置在更容易被訪問的位置,科技期刊的網(wǎng)站內(nèi)容一般以年、卷、期的形式展示。用戶如果想查看某一篇影響因子很高的文章,也必須通過年卷期的方式來查看,非常不方便而且頁(yè)面友好性不高。通過數(shù)據(jù)挖掘的分析,編輯部可以把經(jīng)常被訪問或者高影響因子的文章放在首頁(yè)展示。
3) 對(duì)由數(shù)據(jù)挖掘技術(shù)產(chǎn)生的頻繁項(xiàng)目集的分析,可以發(fā)現(xiàn)用戶的關(guān)注熱點(diǎn)。若某些頁(yè)面或項(xiàng)目被用戶頻繁訪問,則可以用這些數(shù)據(jù)對(duì)用戶進(jìn)行分析。一般來說科技期刊的讀者,每個(gè)人的專業(yè)和研究方向都是不同的,編輯部可以通過數(shù)據(jù)挖掘技術(shù)來判斷讀者的研究方向和感興趣的熱點(diǎn),對(duì)每一個(gè)用戶進(jìn)行有針對(duì)性的內(nèi)容推送和消息發(fā)送。
4) 網(wǎng)站管理者可以根據(jù)在不同時(shí)間內(nèi)頻繁項(xiàng)目集的變化情況對(duì)科技期刊網(wǎng)站進(jìn)行有針對(duì)性的調(diào)整,比如加入更多關(guān)于該熱點(diǎn)的主題資源。目前大多數(shù)科技期刊網(wǎng)站首頁(yè)的內(nèi)容,均為編輯部工作人員后臺(tái)添加、置頂、高亮來吸引用戶的; 通過數(shù)據(jù)挖掘技術(shù),完全可以擯棄這種展示方式。編輯部網(wǎng)站的用戶訪問哪些頁(yè)面頻繁,系統(tǒng)便會(huì)自動(dòng)將這些頁(yè)面的文章推向首頁(yè),不需要編輯部的人工干預(yù),整個(gè)網(wǎng)站實(shí)現(xiàn)自動(dòng)化運(yùn)行。
5 后記
本文重點(diǎn)討論了數(shù)據(jù)挖掘技術(shù)與科技期刊網(wǎng)站頁(yè)面之間的關(guān)系。其實(shí)我們還可以從很多方面進(jìn)行數(shù)據(jù)挖掘,比如可以對(duì)網(wǎng)站的用戶和內(nèi)容進(jìn)行數(shù)據(jù)挖掘,通過分析可以為后期的期刊經(jīng)營(yíng)做好鋪墊。
有一點(diǎn)很重要,沒有一種數(shù)據(jù)挖掘的分析方法可以應(yīng)付所有的需求。對(duì)于某一種問題,數(shù)據(jù)本身的特性會(huì)影響你的選擇,需要用到許多不同的數(shù)據(jù)挖掘方法以及技術(shù)從數(shù)據(jù)中找到最佳的模型。
在目前深化文化體制改革,推動(dòng)社會(huì)主義文化大發(fā)展、大繁榮的政治形勢(shì)下,利用數(shù)據(jù)挖掘技術(shù)從中進(jìn)行提取、分析和應(yīng)用,能有效地幫助企業(yè)了解客戶、改進(jìn)系統(tǒng)、制訂合理的市場(chǎng)策略、提高企業(yè)的銷售水平和利潤(rùn)。通過利用數(shù)據(jù)挖掘技術(shù)準(zhǔn)確定位優(yōu)質(zhì)客戶,向客戶提供更精確、更有價(jià)值的個(gè)性化服務(wù)。這將成為未來科技期刊經(jīng)營(yíng)十分重要的突破點(diǎn)和增長(zhǎng)點(diǎn)。
【數(shù)據(jù)挖掘技術(shù)在科技期刊網(wǎng)站中的應(yīng)用論文】相關(guān)文章:
科研管理中數(shù)據(jù)挖掘技術(shù)的應(yīng)用論文10-21
數(shù)據(jù)挖掘在CRM中的應(yīng)用論文04-10
網(wǎng)絡(luò)營(yíng)銷中數(shù)據(jù)挖掘技術(shù)的應(yīng)用論文07-07
高校管理中數(shù)據(jù)挖掘技術(shù)的應(yīng)用途徑論文10-28
數(shù)據(jù)挖掘在培訓(xùn)管理中的應(yīng)用論文07-02
數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情危機(jī)管理中的應(yīng)用論文10-20
高校管理中數(shù)據(jù)挖掘技術(shù)的研究論文07-03
大數(shù)據(jù)挖掘在智游應(yīng)用中的探究論文04-13
淺談數(shù)據(jù)挖掘技術(shù)及其在高等學(xué)校教學(xué)中的應(yīng)用教育論文07-05