新建的網(wǎng)站,這個(gè)robots是什么意思?
網(wǎng)友解答: Robots協(xié)議(也稱為爬蟲協(xié)議、機(jī)器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁
Robots協(xié)議(也稱為爬蟲協(xié)議、機(jī)器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
簡介 網(wǎng)友解答:當(dāng)一個(gè)搜索蜘蛛訪問網(wǎng)站時(shí),首先訪問根目錄WWW下是否存在robots.txt,若存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍。
01-認(rèn)識(shí)robots.txt(1)robots.txt是搜索引擎訪問網(wǎng)站時(shí)查看的第一個(gè)文件,決定著蜘蛛能或不能訪問。
(2)若存在robots.txt文件,蜘蛛會(huì)按照該文件來確定訪問的范圍;若不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有頁面。
(3)robots.txt必須放在一個(gè)站點(diǎn)的根目錄下,且文件名必須全部小寫(真實(shí)的服務(wù)器就使用ftp上傳)。
(4)建議就算允許所抓取所有內(nèi)容,也要建一個(gè)空的robots.txt文件。
(5)可將sitemap網(wǎng)站地圖放置robots.txt文件(地圖寫法:http://abc.com/sitemap.html)。
02-robots.txt的寫法(1)允許所有搜索引擎訪問網(wǎng)站所有內(nèi)容
User-agent: *
Disallow:
(2)禁止所有搜索引擎訪問網(wǎng)站所有內(nèi)容
User-agent: *
Disallow: /
(3)只允許百度搜索引擎抓取
User-agent: Baiduspider
Disallow: /
(4)如果我們禁止除百度外的一切搜索引擎索引
User-agent: Baiduspider
Disallow:
robots.txt文件其實(shí)就是告訴蜘蛛哪些頁面可以抓取,哪些頁面不能訪問。