Sitemap(站點地圖)是一種文件,站長可通過該文件列出網站上的網頁,將網站內容的組織結構告知搜索引擎。神馬等搜索引擎網頁抓取工具會讀取此文件,以便更加智能地抓取網站內容
Sitemap(站點地圖)是一種文件,站長可通過該文件列出網站上的網頁,將網站內容的組織結構告知搜索引擎。神馬等搜索引擎網頁抓取工具會讀取此文件,以便更加智能地抓取網站內容
理想狀況下,如果您的網站網頁間關聯得當,神馬的網頁抓取工具便能夠發現其中的大多數網頁。即便如此,提交站點地圖仍有助于搜索引擎更加有效地抓取網站,尤其是當網站符合以下某個條件時:1.網站為新建網站且指向該網站的外部鏈接不多。搜索引擎的網頁抓取工具通過跟蹤網頁之間的鏈接來抓取網頁,如果沒有其他網站鏈接到您的網頁,可能不會發現您的網頁。2.網站規模很大。?在這種情況下,神馬的網頁抓取工具可能會在抓取時漏掉部分新網頁。3.網站中大量內容頁之間互不關聯或缺少有效鏈接。?如果您的網站網頁沒有自然地相互引用,那么您可以在站點地圖中列出這些網頁,以確保搜索引擎不會漏掉您的網頁。
需要注意的是,神馬搜索會按正常流程分析、處理Sitemap,但不保證一定會抓取及索引您提交的所有網址,不保證其在搜索結果中的排名。
Sitemap格式:
神馬搜索支持的Sitemap文件包括標準xml文件和索引型xml文件。標準xml文件最多包含10,000條url,如果url超過10,000條可采用索引型xml文件,索引型xml限定最多不超過三層。
標準xml文件格式示例:
<?xml version="1.0" encoding="utf-8"?>
??<!-- XML文件需以utf-8編碼-->
??<urlset>
????<!--必填-->
????<url>
????????<!--必填,定義某一個鏈接的入口,每一條數據必須要用<url>和</url>來標示 -->
http://www.wuxujia.cn/aiqing/167.html
????????<!--必填,URL長度限制在256字節內-->
????????<lastmod>2014-05-01</lastmod>
????????<!--更新時間標簽,非必填,用來表示最后更新時間-->
????????<changefreq>daily</changefreq>
????????<!--更新頻率標簽,非必填,用來告知引擎頁面的更新頻率 -->
????????<priority>0.5</priority>
????????<!--優先級標簽,優先級值0.0-1.0,用來告知引擎該條url的優先級-->
?????</url>
?????<url>
????????<loc>http://m.domain.com/123.xhtml</loc>
????????<lastmod>2014-05-01</lastmod>
????????<changefreq>daily</changefreq>
????????<priority>0.8</priority>
????</url>
??</urlset>
索引xml文件格式示例:
1.頂層Sitemap格式
<sitemapindex>
??<sitemap>
????<loc>
?????http://www.abc.com/sitemap_v2/detail_new/index/index_1.xml
????</loc>
??<lastmod>2013-12-18 12:59:12</lastmod>
??<!--更新時間標簽,必填,用來表示xml文件最后更新時間-->
</sitemap>
</sitemapindex>
2.中間層Sitemap格式(非必要,視url數量而定)
<sitemapindex>
?? <sitemap>
????<loc>
?????http://www.abc.com/sitemap_v2/detail_new/1/1.xml
????</loc>
????<lastmod>2013-12-18 12:59:12</lastmod>
??</sitemap>
</sitemapindex>