隨著網(wǎng)絡(luò)技術(shù)和信息技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們獲取信息的一個(gè)重要途徑。現(xiàn)有的搜索引擎面臨的最大一個(gè)問題就是返回的結(jié)果集中包含大量重復(fù)的信息。如何更有效地幫助用戶獲取所需要的信息,能夠快速、準(zhǔn)確地為用戶提供信息,是網(wǎng)絡(luò)信息服務(wù)面臨的新課題。優(yōu)化搜索結(jié)果可以采用多種手段,如通過提取網(wǎng)頁的特征進(jìn)行基于內(nèi)容的信息檢索,利用用戶反饋的信息進(jìn)一步精確檢索結(jié)果,將結(jié)果集中的重復(fù)信息盡可能地消除等。
由于網(wǎng)絡(luò)信息分布的特點(diǎn),網(wǎng)站上的信息存在相互轉(zhuǎn)載及鏡像站點(diǎn)等情況。出現(xiàn)相同網(wǎng)頁主要有以下幾種情形:網(wǎng)頁的URL完全相同;網(wǎng)頁的URL形式不同,但網(wǎng)站域名所對(duì)應(yīng)的IP是相同的;URL雖然不同,但網(wǎng)頁內(nèi)容完全相同;URL不同,為不同的網(wǎng)頁形式,但網(wǎng)頁上主要內(nèi)容是相同的。本文主要討論對(duì)于網(wǎng)頁內(nèi)容重復(fù)性的消除。