垂直搜索引擎核心技術(shù)研究及展望論文
垂直搜索引擎與計(jì)算機(jī)領(lǐng)域多個(gè)方面的發(fā)展與應(yīng)用息息相關(guān),其關(guān)鍵技術(shù)更是促進(jìn)計(jì)算機(jī)領(lǐng)域進(jìn)一步發(fā)展的重要突破口。所以,對(duì)于垂直搜索引擎關(guān)鍵技術(shù)的研究具有十分重要的意義。我國(guó)計(jì)算機(jī)領(lǐng)域雖然對(duì)垂直搜索引擎關(guān)鍵技術(shù)方面進(jìn)行了一定的研究,并且其研究應(yīng)用在實(shí)際的計(jì)算機(jī)應(yīng)用中也取得了十分有效的成績(jī)。然而,隨著科學(xué)技術(shù)的發(fā)展,對(duì)計(jì)算機(jī)技術(shù)要求不斷提高的同時(shí),對(duì)于垂直搜索引擎的關(guān)鍵技術(shù)也有了新的要求。因此,在今后的發(fā)展中,相關(guān)領(lǐng)域的專(zhuān)業(yè)人士要加強(qiáng)對(duì)垂直搜索引擎關(guān)鍵技術(shù)的重視和研究,進(jìn)而在更大程度上提高垂直搜索引擎關(guān)鍵技術(shù)的應(yīng)用水平。
一、垂直搜索引擎概述
1. 垂直搜索引擎的概念
所謂的垂直搜索引擎實(shí)際上就是搜索引擎的一個(gè)分支、是搜索引擎的細(xì)化。也就是說(shuō),垂直搜索引擎所搜索的信息更加具有行業(yè)性,更加具有專(zhuān)業(yè)化。用計(jì)算機(jī)領(lǐng)域的專(zhuān)業(yè)術(shù)語(yǔ)來(lái)講就是“對(duì)網(wǎng)頁(yè)庫(kù)中的某類(lèi)專(zhuān)門(mén)的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶(hù)”.因而,垂直搜索引擎更加受到某些專(zhuān)業(yè)性、行業(yè)性比較強(qiáng)的用戶(hù)的歡迎。
2. 通用搜索引擎與垂直搜索引擎的不同
垂直搜索引擎與通用搜索引擎最大的區(qū)別和不同就是對(duì)于搜索信息范圍的不同。我們從字面上來(lái)理解通用二字就可以知道,通用搜索引擎適用于任何一類(lèi)信息的搜索,只不過(guò)其缺點(diǎn)就是搜索的范圍比較大,需要操作者在搜索之后對(duì)信息進(jìn)行進(jìn)一步的篩選。而垂直搜索引擎則能很好的避免這一問(wèn)題,其搜索都是針對(duì)于某一行業(yè)的專(zhuān)業(yè)搜索,因而能夠在最快的時(shí)間內(nèi)為操作者提供最有效的信息。從當(dāng)前社會(huì)的發(fā)展來(lái)看,人們對(duì)計(jì)算機(jī)要求的不斷提升,相信這種垂直搜索引擎將會(huì)受到越來(lái)越多人的喜愛(ài)。
二、垂直搜索引擎的關(guān)鍵技術(shù)
從上述分析中可知,垂直搜索引擎是計(jì)算機(jī)領(lǐng)域中的一個(gè)發(fā)展重點(diǎn),并且垂直搜索引擎相比于通用搜索引擎而言,更加適合于未來(lái)人們對(duì)計(jì)算機(jī)應(yīng)用的需要。所以,對(duì)垂直搜索引擎關(guān)鍵技術(shù)的研究勢(shì)必要提上日程。筆者在此主要從以下幾個(gè)方面對(duì)垂直搜索引擎的關(guān)鍵技術(shù)進(jìn)行了研究,希望以下這些研究能夠?yàn)榇怪彼阉饕骊P(guān)鍵技術(shù)的研究發(fā)展提供一些參考。
1. 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
網(wǎng)絡(luò)爬蟲(chóng)技術(shù)是垂直搜索引擎中一項(xiàng)十分重要的關(guān)鍵技術(shù),該技術(shù)是一種能夠自動(dòng)抓取網(wǎng)頁(yè)程序的技術(shù),因而是搜索引擎中的重要組成成員。而也是這一重要地位決定了網(wǎng)絡(luò)爬蟲(chóng)技術(shù)工作流程的復(fù)雜性。該技術(shù)在具體的工作過(guò)程中是需要對(duì)網(wǎng)頁(yè)進(jìn)行大量的分析后,來(lái)丟掉每一個(gè)與搜索信息無(wú)關(guān)的連接,與從同時(shí),將分析后留下的連接在放入等待抓取的地方,進(jìn)而進(jìn)行下一步的抓取與篩選。
廣度優(yōu)先和深度優(yōu)先是網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的兩個(gè)策略,兩種策略以其各自的優(yōu)勢(shì)為該技術(shù)的應(yīng)用提供便捷。此外,在使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的過(guò)程中,還需要意識(shí)到一點(diǎn),即每一個(gè)被該技術(shù)抓取的網(wǎng)頁(yè)都將會(huì)被計(jì)算機(jī)的系統(tǒng)儲(chǔ)存,并且這些網(wǎng)頁(yè)會(huì)通過(guò)多個(gè)方面的分析和過(guò)濾后建成相應(yīng)的索引。
2. 網(wǎng)頁(yè)信息抽取技術(shù)
所謂的`網(wǎng)頁(yè)信息抽取技術(shù)指的就是用網(wǎng)頁(yè)作為信息源頭,在網(wǎng)頁(yè)中搜索計(jì)算機(jī)使用者需要的或者是感興趣的信息。網(wǎng)頁(yè)信息抽取技術(shù)的優(yōu)勢(shì)是其所搜索出的信息經(jīng)過(guò)了多個(gè)方面的處理,將原有網(wǎng)頁(yè)上的信息處理的更具有結(jié)構(gòu)化、清晰化,切格式也比較統(tǒng)一,F(xiàn)有的網(wǎng)頁(yè)信息抽取技術(shù)主要有三種抽取方法:基于自然語(yǔ)言處理的方式、基于包裝器歸納的方式、基于 HTML 結(jié)構(gòu)的信息抽取。三種方法都為垂直搜索引擎做出了突出的貢獻(xiàn)。并且隨著未來(lái)電子商務(wù)領(lǐng)域的不斷發(fā)展,這種網(wǎng)頁(yè)信息抽取的搜索引擎方法將發(fā)揮更大的應(yīng)用價(jià)值。
3. 中文分詞技術(shù)
除了以上兩種垂直搜索引擎關(guān)鍵技術(shù)外,中文分詞技術(shù)也是最為常用的一種垂直搜索引擎技術(shù)。該種技術(shù)對(duì)于文本的處理速度是十分快速的,而該種技術(shù)也是由于其快速性被廣泛的應(yīng)用。中文分詞技術(shù)的方法有很多,如基于字符串的匹配、基于統(tǒng)計(jì)的方法等,都是垂直搜索殷勤中的重要方法。然而,在實(shí)際中文分詞技術(shù)的應(yīng)用中,由于網(wǎng)絡(luò)語(yǔ)言發(fā)展的比較快,各種新穎的網(wǎng)絡(luò)新詞層出不窮,而這一點(diǎn)也成為了中文分詞技術(shù)應(yīng)用的重要挑戰(zhàn)。
三、垂直搜索引擎的發(fā)展空間
從上述垂直搜索引擎關(guān)鍵技術(shù)的研究中我們可以發(fā)現(xiàn),當(dāng)前的關(guān)鍵技術(shù)的應(yīng)用已經(jīng)取得了很大的成就,并且隨著關(guān)鍵技術(shù)的進(jìn)一步研究,將會(huì)有越來(lái)越多的行業(yè)意識(shí)到垂直搜索引擎價(jià)值性。同時(shí),隨著當(dāng)前市場(chǎng)發(fā)展的多元化、專(zhuān)業(yè)化,垂直搜索引擎這種適合專(zhuān)業(yè)性、行業(yè)性領(lǐng)域發(fā)展的技術(shù)勢(shì)必會(huì)在未來(lái)的搜索行業(yè)中占有舉足輕重的地位,并且將計(jì)算機(jī)領(lǐng)域的發(fā)展推向另一個(gè)高潮。
以上僅僅只是筆者對(duì)于垂直搜索引擎關(guān)鍵技術(shù)的幾個(gè)主要方面的分析,然而,事實(shí)上,其關(guān)鍵技術(shù)涉及的方面比較多,再加之筆者對(duì)于垂直搜索引擎方面的研究能力有限,因而僅僅憑借以上對(duì)于垂直搜索引擎關(guān)鍵技術(shù)的研究來(lái)促進(jìn)該方面技術(shù)的發(fā)展和應(yīng)用是遠(yuǎn)遠(yuǎn)不夠的。因此,對(duì)于垂直搜索引擎關(guān)鍵技術(shù)的研究還有待進(jìn)行進(jìn)一步的探索。
四、結(jié)語(yǔ)
綜上所述,對(duì)于垂直搜索引擎關(guān)鍵技術(shù)的研究不僅僅有利于提高該技術(shù)在計(jì)算機(jī)領(lǐng)域的進(jìn)一步應(yīng)用,同時(shí)更有利于促進(jìn)計(jì)算機(jī)領(lǐng)域的全面發(fā)展。然而,垂直搜索引擎關(guān)鍵技術(shù)的研究涉及的內(nèi)容比較多,并且每一項(xiàng)關(guān)鍵技術(shù)都十分復(fù)雜,再加之垂直搜索引擎相關(guān)領(lǐng)域工作人士對(duì)于其關(guān)鍵技術(shù)的研究還沒(méi)有達(dá)到一定的深度和廣度,因而不利于實(shí)際關(guān)鍵技術(shù)的應(yīng)用和發(fā)展。所以,在今后垂直搜索引擎領(lǐng)域的發(fā)展中,要加強(qiáng)對(duì)其關(guān)鍵技術(shù)的重視和研究,并且要從其關(guān)鍵技術(shù)的多個(gè)角度、多個(gè)方面進(jìn)行分析,從而研究出更好、更有利于促進(jìn)垂直搜索引擎關(guān)鍵技術(shù)應(yīng)用與發(fā)展的方法與措施。
參考文獻(xiàn):
[1] 王曉偉 . 垂直搜索引擎若干關(guān)鍵技術(shù)的研究 [J]. 浙江大學(xué)學(xué)報(bào) ,2007,(5)。
[2] 李副銘 . 垂直搜索引擎的研究與設(shè)計(jì) [D]. 電子科技大學(xué)學(xué)報(bào) ,2009,(9)。
[3] 劉世濤 . 簡(jiǎn)析搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)的搜索策略 [J]. 阜陽(yáng)師范學(xué)院學(xué)報(bào) ,2006,(9)。
【垂直搜索引擎核心技術(shù)研究及展望論文】相關(guān)文章:
基于lucene的垂直搜索引擎的研究與設(shè)計(jì)論文11-02
垂直綠化的設(shè)計(jì)研究論文11-04
藍(lán)牙技術(shù)研究論文10-23
關(guān)于垂直專(zhuān)業(yè)化分工論文04-03
論文展望怎么寫(xiě)04-09
論文的總結(jié)和展望09-22
宋詩(shī)研究的展望論文10-21
關(guān)于搜索引擎的研究論文11-04
鉗工技術(shù)研究論文03-30