|
|||
|
大連網(wǎng)頁(yè)制作:網(wǎng)頁(yè)制作與爬行抓取、搜索處理關(guān)系
閱讀次數(shù):143 | 發(fā)布時(shí)間: 2019-12-16
爬行抓取是引擎搜索開始工作的第一步,主要內(nèi)容是完成數(shù)據(jù)的抓取工作。
搜索引擎蜘蛛程序是通過(guò)大連網(wǎng)頁(yè)制作的網(wǎng)頁(yè)的鏈接去尋找網(wǎng)頁(yè),然后從網(wǎng)站的一個(gè)網(wǎng)頁(yè)(通常是首頁(yè))開始,讀取大連網(wǎng)頁(yè)制作的網(wǎng)頁(yè)的內(nèi)容,找到頁(yè)面中的其他的鏈接,通過(guò)鏈接去查找下一個(gè)網(wǎng)頁(yè),一直這樣循環(huán)下去,一直到把網(wǎng)站的所有網(wǎng)頁(yè)都讀取完為止。如果網(wǎng)站的內(nèi)容質(zhì)量不高或者有大量重復(fù)信息,蜘蛛程序就沒(méi)有"耐心"抓取網(wǎng)站里的所有信息了。
要是把整個(gè)網(wǎng)絡(luò)當(dāng)成是一個(gè)網(wǎng)站,這樣蜘蛛程序就能用這個(gè)程序把網(wǎng)絡(luò)上所有的頁(yè)面都讀取。但是,在實(shí)際的工作中,搜索引擎蜘蛛程序是不能抓取所有的互聯(lián)網(wǎng)信息的,畢竟蜘蛛程序的帶寬資源、時(shí)間都不是無(wú)限的,它不可能"爬"到所有的頁(yè)面。因?yàn)檫@些因素的限制,引擎搜索就只能爬行和抓取網(wǎng)絡(luò)信息的一小部分。
抓取網(wǎng)頁(yè)后,是通過(guò)分析索引來(lái)對(duì)采集回來(lái)的頁(yè)面進(jìn)行分析,提取相關(guān)信息,然后根據(jù)相關(guān)的算法來(lái)進(jìn)行大量的雜亂的計(jì)算,然后會(huì)得到頁(yè)面中針對(duì)頁(yè)面的內(nèi)容還有超鏈接的每一個(gè)關(guān)鍵字的重要性,然后用這些數(shù)據(jù)來(lái)建立頁(yè)面索引數(shù)據(jù)庫(kù)。
任何搜索引擎在進(jìn)行內(nèi)容索引的時(shí)候都是以文字為內(nèi)容的。引擎搜索在抓取到網(wǎng)頁(yè)的時(shí)候,并不是只有訪問(wèn)的用戶可以看到的文字內(nèi)容,還包含大量的HTML前端代碼、CSS代碼、JavaScript代碼等對(duì)排名沒(méi)有作用的內(nèi)容。抓取頁(yè)面之后,引擎搜索就得對(duì)這些信息進(jìn)行處理,從HTML前端的代碼中區(qū)分標(biāo)簽、代碼,抓取有利于網(wǎng)站的排名處理的網(wǎng)頁(yè)內(nèi)容。 一大串字符中,除去這些HTML代碼后,剩下的文字只有"英國(guó)虛擬主機(jī)商Host1Plus發(fā)布中文站"一行。通過(guò)這個(gè)例子可以看出,搜索引擎在抓取頁(yè)面代碼后,要取出有用的文字信息,可以方便下面的排名工作。
|
|||
| 感謝您關(guān)注致遠(yuǎn)服軟 致遠(yuǎn)服軟專業(yè)為企業(yè)提供:大連網(wǎng)站建設(shè)、大連網(wǎng)站制作、大連網(wǎng)頁(yè)設(shè)計(jì)等服務(wù),歡迎來(lái)電來(lái)函咨詢。 |