前幾天有個(gè)朋友在MSN里面問搜索引擎友好指的是什么,這是個(gè)涉及面挺寬的問題,今天從幾方面談一下大概。
假設(shè)我們從搜索引擎蜘蛛的角度去看待一個(gè)網(wǎng)頁,在抓取,索引和排名的時(shí)候會(huì)遇到哪些問題呢?解決了這些問題的網(wǎng)站設(shè)計(jì)就是搜索引擎友好的。
搜索引擎蜘蛛能不能找到你的網(wǎng)頁?
要讓搜索引擎找到你的主頁你就必須要有外部鏈接,在找到你的主頁之后,還必須能找到你的更深的內(nèi)容頁,也就要求你要有良好的網(wǎng)站結(jié)構(gòu),符合邏輯,可能是一個(gè)扁平的,可能是一個(gè)樹狀的。
而且這些網(wǎng)頁之間要有良好的鏈接結(jié)構(gòu),這些鏈接以文字鏈接最好,圖像鏈接也可以,但是JavaScript鏈接,下拉菜單鏈接,flash鏈接等就會(huì)有問題。
一般推薦網(wǎng)站需要有一個(gè)網(wǎng)站地圖,把所有重要的欄目和網(wǎng)頁都列進(jìn)去。如果網(wǎng)站比較大,網(wǎng)站地圖還可以分成幾個(gè)。
網(wǎng)站的所有頁面都要能從主頁開始,順著鏈接找到,最好在3,4次點(diǎn)擊之內(nèi)。
搜索引擎蜘蛛找到網(wǎng)頁后能不能抓取網(wǎng)頁?
網(wǎng)頁的URL必須是可以被抓取的,如果網(wǎng)頁是由數(shù)據(jù)庫動(dòng)態(tài)生成的,那么URL一般要經(jīng)過改寫成靜態(tài)的,也就是去掉那些URL中問號(hào)參數(shù)之類的東西, 也要去掉Session ID。技術(shù)上倒不是搜索引擎不能讀取這種URL,但是為了避免陷入無限循環(huán),搜索引擎蜘蛛通常要遠(yuǎn)離這類URL。
還有如果你的網(wǎng)站是一個(gè)整個(gè)的flash,那也沒辦法讀取。雖然搜索引擎在努力想讀取flash信息,但目前為止收效甚微。
還有框架結(jié)構(gòu)(frame),在網(wǎng)站剛出現(xiàn)的時(shí)候,框架結(jié)構(gòu)風(fēng)行一時(shí),現(xiàn)在還有不少網(wǎng)站在用,這是搜索引擎蜘蛛的大敵。有的時(shí)候可以抓取,但別自找麻煩。
還有盡量去除不必要的搜索引擎不能讀的東西,像音頻文件,圖片,彈出窗口等。
搜索引擎蜘蛛抓取網(wǎng)頁之后,怎樣提煉有用信息?
網(wǎng)頁的HTML碼必須很優(yōu)化,也就是格式標(biāo)簽占的越少越好,真正內(nèi)容占的越多越好,整個(gè)文件越小越好。把CSS,JavaScript等放在外部文件。
把關(guān)鍵詞放在應(yīng)該出現(xiàn)的地方。
檢查網(wǎng)頁對(duì)不同操作系統(tǒng),不同browser的兼容性。檢查是否符合W3C標(biāo)準(zhǔn)。
只有搜索引擎能順利找到你的所有網(wǎng)頁,抓取這些網(wǎng)頁并取出其中真正的有相關(guān)性的內(nèi)容,這個(gè)網(wǎng)站才可以被視為是搜索引擎友好的。