1. <rp id="zsypk"></rp>

      2. 基于可擴(kuò)展的網(wǎng)頁(yè)關(guān)鍵信息抽取研究論文

        時(shí)間:2021-04-14 16:23:04 論文 我要投稿

        基于可擴(kuò)展的網(wǎng)頁(yè)關(guān)鍵信息抽取研究論文

          1 引言

        基于可擴(kuò)展的網(wǎng)頁(yè)關(guān)鍵信息抽取研究論文

          網(wǎng)頁(yè)的關(guān)鍵信息是網(wǎng)頁(yè)的最基本的信息,它體現(xiàn)了該網(wǎng)頁(yè)和其他網(wǎng)頁(yè)的差別。常見(jiàn)的關(guān)鍵信息有正文、作者、來(lái)源、發(fā)布時(shí)間等。在網(wǎng)絡(luò)輿情監(jiān)控、網(wǎng)絡(luò)情報(bào)分析、搜索引擎等重大網(wǎng)絡(luò)應(yīng)用中,這些關(guān)鍵信息都是后期分析挖掘必不可少的基礎(chǔ)數(shù)據(jù)。需要利用網(wǎng)絡(luò)信息抽取技術(shù)從網(wǎng)頁(yè)中抽取出這些關(guān)鍵信息。從某種角度上講,關(guān)鍵信息的抽取質(zhì)量直接決定了網(wǎng)絡(luò)應(yīng)用服務(wù)的效果。因此,網(wǎng)頁(yè)的關(guān)鍵信息抽取研究具有重大的應(yīng)用價(jià)值。

          隨著網(wǎng)頁(yè)規(guī)模呈指數(shù)級(jí)增長(zhǎng),在網(wǎng)絡(luò)應(yīng)用中,模板無(wú)關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法以其特有的優(yōu)勢(shì)成為信息抽取環(huán)節(jié)的主流算法。該算法通常針對(duì)特定需求,利用一些經(jīng)驗(yàn)規(guī)則處理特定領(lǐng)域或特定格式的網(wǎng)頁(yè)。因?yàn)槌槿∵^(guò)程無(wú)需人工干預(yù),所以此類算法越來(lái)越多地應(yīng)用于實(shí)際網(wǎng)絡(luò)環(huán)境中。基于模板的信息抽取算法充分利用了動(dòng)態(tài)網(wǎng)頁(yè)的規(guī)律:網(wǎng)頁(yè)是由同一個(gè)模板生成的,屬于模板的符號(hào)不會(huì)變化,變化的只是模板中填充的數(shù)據(jù)。因此,該算法在對(duì)動(dòng)態(tài)網(wǎng)頁(yè)進(jìn)行抽取時(shí)能夠取得較高的精度。

          但是,這兩類抽取算法也存在著其固有的缺陷。模板無(wú)關(guān)的全自動(dòng)抽取算法通常基于過(guò)強(qiáng)的假設(shè)。在處理多樣性日益顯著的網(wǎng)頁(yè)時(shí),常常因?yàn)槟承┚W(wǎng)頁(yè)不符合假設(shè),而導(dǎo)致出現(xiàn)抽取精度不能滿足需求的情況;并且由于使用過(guò)多規(guī)則,導(dǎo)致抽取效率低的情況。使用基于模板的信息抽取算法進(jìn)行抽取時(shí),需先針對(duì)某類網(wǎng)頁(yè)學(xué)習(xí)出模板,后人工標(biāo)注。面對(duì)日益增多的數(shù)據(jù)源,會(huì)導(dǎo)致網(wǎng)絡(luò)應(yīng)用的運(yùn)維代價(jià)過(guò)大;同時(shí)日益復(fù)雜的網(wǎng)頁(yè)使得模板的準(zhǔn)確性下降,從而導(dǎo)致抽取精度下降。

          針對(duì)上述模板無(wú)關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法的缺陷,本文進(jìn)行了深入研究。本文的貢獻(xiàn)主要有以下兩點(diǎn)。首先,提出了一種可擴(kuò)展的網(wǎng)頁(yè)關(guān)鍵信息抽取框架。該框架通過(guò)輸入訓(xùn)練網(wǎng)頁(yè)或其他算法的抽取結(jié)果,生成關(guān)鍵信息模板集。再通過(guò)模板的正交過(guò)濾算法,生成候選的關(guān)鍵信息模板。最后通過(guò)模板的特征過(guò)濾算法,生成最終的關(guān)鍵信息模板。利用該模板可快速、準(zhǔn)確地從同類型網(wǎng)頁(yè)中抽取關(guān)鍵信息。該框架很好地融合了模板無(wú)關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法,使得兩類算法能夠充分發(fā)揮各自的優(yōu)點(diǎn),并在缺點(diǎn)方面互相彌補(bǔ)。實(shí)驗(yàn)結(jié)果表明,該框架能夠在抽取精度、抽取效率方面有本質(zhì)上的提高。此外,該框架具有很好的可擴(kuò)展性,框架中的一些關(guān)鍵環(huán)節(jié)可根據(jù)需求進(jìn)行替換。其次,本文提出了模板的正交過(guò)濾算法,該算法將訓(xùn)練網(wǎng)頁(yè)或其他算法的抽取結(jié)果分成若干份,生成若干個(gè)模板,再通過(guò)模板的正交過(guò)濾算法,過(guò)濾掉模板中的噪音部分,得到候選模板。將該算法引入基于模板的抽取算法中,能夠從本質(zhì)上提高生成的模板的準(zhǔn)確性,最后的實(shí)驗(yàn)結(jié)果也充分驗(yàn)證了這一結(jié)論。

          2 相關(guān)工作

          網(wǎng)頁(yè)信息抽取是一種針對(duì)網(wǎng)絡(luò)數(shù)據(jù)源和網(wǎng)頁(yè)進(jìn)行深度處理和加工的過(guò)程。由于網(wǎng)頁(yè)的復(fù)雜性和多樣性,使得網(wǎng)頁(yè)信息抽取算法也越來(lái)越多。常見(jiàn)的網(wǎng)頁(yè)信息抽取算法主要可分為4類:包裝器語(yǔ)言、包裝器歸納、基于模板的信息抽取和模板無(wú)關(guān)的全自動(dòng)信息抽取。由于包裝器語(yǔ)言和包裝器歸納都需要過(guò)多的人工干預(yù),所以在實(shí)際的工程應(yīng)用中,基于模板的信息抽取算法和模板無(wú)關(guān)的全自動(dòng)信息抽取算法以其較強(qiáng)的實(shí)用性占據(jù)了主流的位置。基于模板的信息抽取通常基于這樣的假設(shè):待抽取的網(wǎng)頁(yè)是由同一個(gè)模板生成的,屬于模板的'符號(hào)不會(huì)變化,變化的只是模板中填充的數(shù)據(jù)。符合這種生成模型的網(wǎng)頁(yè)都可以利用網(wǎng)頁(yè)模板分析方法來(lái)抽取。互聯(lián)網(wǎng)上大量存在的動(dòng)態(tài)網(wǎng)頁(yè)是由機(jī)器生成的(例如論壇)網(wǎng)頁(yè)。基于模板的信息抽取的工作流程是:

          1)利用多個(gè)同類型網(wǎng)頁(yè)中具有共性的不變的部分生成一個(gè)模板;

          2)根據(jù)模板對(duì)同類型網(wǎng)頁(yè)進(jìn)行抽取。因?yàn)榇祟愃惴ㄟ^(guò)濾了網(wǎng)頁(yè)中的大量模板,只留下了數(shù)據(jù),同時(shí)自動(dòng)還原出了數(shù)據(jù)的結(jié)構(gòu),使得用戶在付出較小人工代價(jià)的同時(shí),能夠獲得較為準(zhǔn)確的關(guān)鍵信息。因此此類算法一直都是網(wǎng)絡(luò)應(yīng)用中的主流算法。但是該類算法具有這樣的缺陷:首先需要針對(duì)同類型的網(wǎng)頁(yè)生成一個(gè)模板。模板的準(zhǔn)確性直接決定了后續(xù)信息抽取的精確度。隨著網(wǎng)頁(yè)復(fù)雜性以及同一類型網(wǎng)頁(yè)的差異性的增大,生成的模板準(zhǔn)確性隨之降低。模板無(wú)關(guān)的全自動(dòng)信息抽取算法進(jìn)一步提高了信息抽取的自動(dòng)化程度。此類算法通常利用一些經(jīng)驗(yàn)規(guī)則處理特定領(lǐng)域或特定格式的網(wǎng)頁(yè),例如,經(jīng)典的全自動(dòng)信息抽取算法MDR。該算法的缺陷在于通常基于過(guò)強(qiáng)的假設(shè)。以網(wǎng)頁(yè)正文抽取為例。網(wǎng)頁(yè)的正文往往是各大網(wǎng)絡(luò)應(yīng)用都需要的關(guān)鍵信息,有不少針對(duì)正文抽取的模板無(wú)關(guān)的全自動(dòng)抽取算法。CoreEx是通過(guò)計(jì)算DOM 樹(shù)中的鏈接文本比來(lái)確定正文所在的范圍。CETR是通過(guò)標(biāo)簽的密度來(lái)確定正文所在的范圍。CETD結(jié)合了二者優(yōu)點(diǎn)。這些算法自動(dòng)化程度高,通用性強(qiáng),但是效率較低,且假設(shè)過(guò)強(qiáng),精確度不如基于模板的算法。VIPS是一種通用性較強(qiáng)的算法,但是它需要渲染網(wǎng)頁(yè)。因此這種方法的效率較低。

          在以往的文獻(xiàn)中,較少看到將模板無(wú)關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法結(jié)合使用的相關(guān)研究。在本文提出的框架中,巧妙地將這兩種算法有機(jī)地結(jié)合起來(lái),使得二者能夠取長(zhǎng)補(bǔ)短,從本質(zhì)上提高信息抽取的質(zhì)量。

        【基于可擴(kuò)展的網(wǎng)頁(yè)關(guān)鍵信息抽取研究論文】相關(guān)文章:

        基于數(shù)據(jù)抽取與訂閱實(shí)現(xiàn)數(shù)據(jù)共享分析及研究論文10-30

        合理定價(jià)評(píng)審抽取研究論文03-30

        有關(guān)合理定價(jià)評(píng)審抽取的研究論文04-03

        基于多單片機(jī)的串口擴(kuò)展設(shè)計(jì)論文11-17

        基于科技信息共享云服務(wù)機(jī)制研究論文11-02

        基于Web的農(nóng)機(jī)推廣信息系統(tǒng)的研究與設(shè)計(jì)論文11-02

        基于GIS的農(nóng)業(yè)動(dòng)態(tài)信息共享網(wǎng)絡(luò)平臺(tái)研究論文11-07

        基于CDI0理念下的《網(wǎng)頁(yè)設(shè)計(jì)》教學(xué)思考與研究的論文01-11

        基于視覺(jué)搜索因素的網(wǎng)頁(yè)設(shè)計(jì)論文11-15

        99热这里只有精品国产7_欧美色欲色综合色欲久久_中文字幕无码精品亚洲资源网久久_91热久久免费频精品无码
          1. <rp id="zsypk"></rp>

          2. 午夜视频在线观看一区 | 麻豆精选在线播放网站 | 亚洲国产精品高清一线久久 | 一级全黄大片在线观看播放 | 一区二区三区四区国产精品视频 | 特黄特色的大片在线观看 |