專利數(shù)據(jù)挖掘的論文
一、專利數(shù)據(jù)挖掘
數(shù)據(jù)挖掘技術(shù)是延伸和擴(kuò)展了傳統(tǒng)分析方法,可以發(fā)現(xiàn)傳統(tǒng)分析方法不能發(fā)現(xiàn)的內(nèi)容和規(guī)律,并且它將人們從單調(diào)、枯燥的閱讀專利文獻(xiàn)的工作中解放出來,使用計(jì)算機(jī)代替了人類勞動(dòng),這樣不僅提高了效率,而且提升了準(zhǔn)確度。因此,數(shù)據(jù)挖掘作為一個(gè)專利分析的強(qiáng)有力工具被引入到專利分析中來,并且得到快速的發(fā)展應(yīng)用。專利數(shù)據(jù)挖掘流程應(yīng)考慮的問題:一是用數(shù)據(jù)挖掘解決什么樣的問題;二是為進(jìn)行數(shù)據(jù)挖掘所做的數(shù)據(jù)準(zhǔn)備;三是數(shù)據(jù)挖掘的各種分析算法。故專利數(shù)據(jù)挖掘的一般過程通常按照以下步驟來完成:領(lǐng)會(huì)數(shù)據(jù)挖掘的目的,獲取分析所用的數(shù)據(jù)集合,探索、清理和預(yù)處理數(shù)據(jù),選擇要使用的數(shù)據(jù)挖掘技術(shù),使用算法解決問題,解釋算法的結(jié)果。而其一般流程可簡(jiǎn)化為三個(gè)階段:數(shù)據(jù)準(zhǔn)備→數(shù)據(jù)挖掘→結(jié)果解釋和評(píng)價(jià)。本文采用簡(jiǎn)化的流程進(jìn)行實(shí)證分析。
二、石家莊地區(qū)制藥企業(yè)專利數(shù)據(jù)挖掘
本文對(duì)石家莊地區(qū)制藥企業(yè)的專利數(shù)據(jù)進(jìn)行挖掘分析,挖掘?qū)ο笫侨A北制藥集團(tuán)公司、石家莊制藥集團(tuán)有限公司、石家莊神威藥業(yè)股份有限公司、石家莊四藥股份、河北以嶺藥業(yè)股份有限公司、石家莊市華曙制藥集團(tuán)、河北醫(yī)科大學(xué)制藥廠、河北圣雪大成制藥有限責(zé)任公司等地址在石家莊且具有一定代表性的藥企,希望通過這些藥企數(shù)據(jù)能夠找到石家莊地區(qū)制藥領(lǐng)域的核心組成,并能為藥企更好地發(fā)展提供有力的信息支持。IPC號(hào)是目前權(quán)威的專利技術(shù)主題的標(biāo)識(shí)編碼之一,基本包含了各行各業(yè)的專利信息,是一個(gè)龐大的專利信息體系。目前國(guó)內(nèi)外很多分析方法及技術(shù)大部分是基于專利的IPC分類號(hào)來分析專利技術(shù)主題的,此分析方法有一定的參考價(jià)值和科學(xué)性,而且對(duì)于具有大量專利信息的分析具有很好的總結(jié)概括效果。本文以專利全部IPC號(hào)為分析對(duì)象,并且構(gòu)建IPC號(hào)之間的關(guān)聯(lián)規(guī)則,在最大程度上揭示隱含的專利技術(shù)關(guān)聯(lián)性,從而為石家莊地區(qū)制藥企業(yè)專利技術(shù)的發(fā)展提供參考。
1.數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)來源的準(zhǔn)確與否是數(shù)據(jù)分析與挖掘的基礎(chǔ),是數(shù)據(jù)分析與挖掘的根本。本文所使用的石家莊地區(qū)制藥領(lǐng)域?qū)@麛?shù)據(jù)由萬方數(shù)據(jù)公司提供,以制藥企業(yè)地址為石家莊為檢索條件,搜索出了包括從1985—2014年間石家莊地區(qū)制藥領(lǐng)域?qū)@?44條,分別分布在A、B、C、D、E、F、G、H八個(gè)大部。對(duì)專利數(shù)據(jù)庫(kù)中的644條專利進(jìn)行篩選,根據(jù)“分類號(hào)”字段限制,它涉及專利信息的分類,有些IPC所涉及的范圍與石家莊地區(qū)制藥領(lǐng)域沒有聯(lián)系或聯(lián)系很小,不宜保留。根據(jù)“申請(qǐng)人(專利權(quán)人)”字段的限制,剔除與石家莊地區(qū)制藥不相關(guān)或制藥企業(yè)地址不在石家莊地區(qū)的專利。最后篩選出590條最符合該領(lǐng)域特點(diǎn)的專利。由于IPC號(hào)在幾乎所有現(xiàn)存數(shù)據(jù)庫(kù)中均是以一個(gè)字段存儲(chǔ)一個(gè)專利的所有IPC分類號(hào)的,形如:A61K38/26、A61K9/08、A61K47/12、A61P3/10,且每個(gè)專利一般都有好幾個(gè)分類號(hào),而每個(gè)企業(yè)又研究大量的專利,所以在進(jìn)行專利分析之前,需要對(duì)專利IPC號(hào)進(jìn)行數(shù)據(jù)整理。由于過于細(xì)致的IPC分類號(hào)并不利于專利主題的分析與揭示,所以本文中采用專利小類分析,就是取IPC號(hào)的前4位。并將申請(qǐng)人與其對(duì)應(yīng)的多條IPC號(hào)進(jìn)行拆分,拆分后的數(shù)據(jù)項(xiàng)有773條,即顯示每個(gè)申請(qǐng)人對(duì)應(yīng)的一條IPC分類號(hào)。
2.數(shù)據(jù)挖掘。本文數(shù)據(jù)挖掘過程將采用Excel和SQLsever2005軟件,首先對(duì)所得到的數(shù)據(jù)導(dǎo)入SQLserver2005進(jìn)行挖掘,利用SQLserver2005可以直接進(jìn)行IPC號(hào)的關(guān)聯(lián)規(guī)則挖掘,然后對(duì)專利信息進(jìn)行分析。
3.數(shù)據(jù)挖掘結(jié)果與分析。基于關(guān)聯(lián)規(guī)則制作依賴關(guān)系網(wǎng)絡(luò)圖,可以更加直觀地看到各個(gè)IPC號(hào)之間的關(guān)聯(lián)和依賴狀態(tài)。
。1)以A61K、C12N、C12P、C07D、C07C為中心的核心專利技術(shù)群。這些專利的IPC分類號(hào)是關(guān)鍵部分藥物組成的.各種化合物即藥物主要成分的重要聚集組。A61K(醫(yī)用、牙科用等的配置品)是項(xiàng)集次數(shù)最多的,即支持度較高的,C12P(發(fā)酵或使用酶的方法合成目標(biāo)化合物或組合物或從外消旋混合物中分離旋光異構(gòu)體)、C12N(微生物或酶;其組合物)、C07D(雜環(huán)環(huán)合物,例如鄰氯芐星青霉素的合成)、C07C(無環(huán)和碳環(huán)化合物)通過專利相關(guān)知識(shí)我們已經(jīng)知道這些都是藥物的合成成分,即土霉素、鏈霉素、青霉素等多種抗生素和維生素的主要成分組成,是制藥領(lǐng)域的核心。這也是和石家莊地區(qū)制藥企業(yè)的核心領(lǐng)域相符合的。另外這些專利主題的相互關(guān)聯(lián)、依賴說明了石家莊地區(qū)制藥企業(yè)在該領(lǐng)域具有很好的布局網(wǎng)絡(luò),在研發(fā)數(shù)量上也占有一定優(yōu)勢(shì),所以說是石家莊地區(qū)制藥企業(yè)的主要研究領(lǐng)域。
。2)以B65G、C12M為中心的輔助設(shè)備專利技術(shù)群。藥品的生產(chǎn)離不開設(shè)備的支持,所以設(shè)備方面的專利也能體現(xiàn)制藥企業(yè)的技術(shù)水平。在圖1中也能體現(xiàn)出來,專利間有著很強(qiáng)的依賴性和關(guān)聯(lián)性,在核心專利周邊有B65G(運(yùn)輸或貯存裝置,例如裝載或傾斜用輸送機(jī)、車間輸送機(jī)系統(tǒng)、氣動(dòng)管道輸送機(jī))、C12M(酶學(xué)或微生物學(xué)裝置),這些是制藥的輔助技術(shù)手段,與中心專利是相互聯(lián)系的,也是制藥過程中必不可少的,在這些方面的提高有利于制藥核心領(lǐng)域的發(fā)展。先進(jìn)藥品的研制離不開先進(jìn)制藥設(shè)備支持,所以設(shè)備水平的提高也是關(guān)鍵的。如圖3所示,石家莊地區(qū)制藥企業(yè)在這一方面的技術(shù)依賴網(wǎng)絡(luò)也已經(jīng)形成,說明在此技術(shù)領(lǐng)域也已經(jīng)擁有較強(qiáng)實(shí)力。但與中心主要專利相比,輔助設(shè)備專利技術(shù)還是需要不斷提高的。
三、總結(jié)
對(duì)專利的研究有著巨大的潛在價(jià)值,我們能通過數(shù)據(jù)挖掘技術(shù)對(duì)專利進(jìn)行挖掘,發(fā)現(xiàn)隱含在其中的有用信息,為企業(yè)的有效發(fā)展提供保障。石家莊地區(qū)制藥企業(yè)在專利方面是河北省此領(lǐng)域的發(fā)達(dá)企業(yè),所以發(fā)現(xiàn)其中隱含的價(jià)值及蘊(yùn)含的規(guī)律能帶動(dòng)河北省制藥行業(yè)快速發(fā)展,同時(shí)也能發(fā)現(xiàn)自己存在的問題。總的來說,我們只有利用挖掘工具把數(shù)據(jù)轉(zhuǎn)化為有用的信息,才能幫助企業(yè)制定有效的決策,才能在市場(chǎng)競(jìng)爭(zhēng)中獲得優(yōu)勢(shì)地位。本文有很多不足之處,還有待更為深入的研究。
【專利數(shù)據(jù)挖掘的論文】相關(guān)文章:
數(shù)據(jù)挖掘論文07-15
數(shù)據(jù)挖掘論文03-31
網(wǎng)絡(luò)數(shù)據(jù)挖掘規(guī)劃論文04-03
大數(shù)據(jù)自動(dòng)分析與數(shù)據(jù)挖掘探討的論文04-26
數(shù)據(jù)挖掘在CRM中的應(yīng)用論文04-10
數(shù)據(jù)挖掘技術(shù)在WEB的運(yùn)用論文04-26