前幾天有個朋友在MSN里面問搜索引擎友好指的是什么,這是個涉及面挺寬的問題,今天從幾方面談一下大概。
假設我們從搜索引擎蜘蛛的角度去看待一個網(wǎng)頁,在抓取,索引和排名的時候會遇到哪些問題呢?解決了這些問題的網(wǎng)站設計就是搜索引擎友好的。
搜索引擎蜘蛛能不能找到你的網(wǎng)頁?
要讓搜索引擎找到你的主頁你就必須要有外部鏈接,在找到你的主頁之后,還必須能找到你的更深的內容頁,也就要求你要有良好的網(wǎng)站結構,符合邏輯,可能是一個扁平的,可能是一個樹狀的。
而且這些網(wǎng)頁之間要有良好的鏈接結構,這些鏈接以文字鏈接最好,圖像鏈接也可以,但是JavaScript鏈接,下拉菜單鏈接,flash鏈接等就會有問題。
一般推薦網(wǎng)站需要有一個網(wǎng)站地圖,把所有重要的欄目和網(wǎng)頁都列進去。如果網(wǎng)站比較大,網(wǎng)站地圖還可以分成幾個。
網(wǎng)站的所有頁面都要能從主頁開始,順著鏈接找到,最好在3,4次點擊之內。
搜索引擎蜘蛛找到網(wǎng)頁后能不能抓取網(wǎng)頁?
網(wǎng)頁的URL必須是可以被抓取的,如果網(wǎng)頁是由數(shù)據(jù)庫動態(tài)生成的,那么URL一般要經過改寫成靜態(tài)的,也就是去掉那些URL中問號參數(shù)之類的東西, 也要去掉Session ID。技術上倒不是搜索引擎不能讀取這種URL,但是為了避免陷入無限循環(huán),搜索引擎蜘蛛通常要遠離這類URL。
還有如果你的網(wǎng)站是一個整個的flash,那也沒辦法讀取。雖然搜索引擎在努力想讀取flash信息,但目前為止收效甚微。
還有框架結構(frame),在網(wǎng)站剛出現(xiàn)的時候,框架結構風行一時,現(xiàn)在還有不少網(wǎng)站在用,這是搜索引擎蜘蛛的大敵。有的時候可以抓取,但別自找麻煩。
還有盡量去除不必要的搜索引擎不能讀的東西,像音頻文件,圖片,彈出窗口等。
搜索引擎蜘蛛抓取網(wǎng)頁之后,怎樣提煉有用信息?
網(wǎng)頁的HTML碼必須很優(yōu)化,也就是格式標簽占的越少越好,真正內容占的越多越好,整個文件越小越好。把CSS,JavaScript等放在外部文件。
把關鍵詞放在應該出現(xiàn)的地方。
檢查網(wǎng)頁對不同操作系統(tǒng),不同browser的兼容性。檢查是否符合W3C標準。
只有搜索引擎能順利找到你的所有網(wǎng)頁,抓取這些網(wǎng)頁并取出其中真正的有相關性的內容,這個網(wǎng)站才可以被視為是搜索引擎友好的。