快捷搜索

网站robots文件规则及其设置

    在上一篇《学会这几招!新站不收录都难》给大家分享了关于新站不收录问题,在网站优化中robots.txt文件的编写可以说直接影响SEO优化效果,俗话说,细节决定成败,robot.txt到底要怎么写呢?今天广州SEO给大家详细讲解下“网站robots.txt文件规则及其设置”;
Robots文件作用及写法注意事项

一、robots.txt文件是什么

    robots.txt文件简单理解为就是告诉搜索引擎蜘蛛,我们的网站上哪些内容可以被抓取,哪些不能抓取。当搜索引擎蜘蛛访问我们网站时,第一件事就是检查网站根目录是否存在robots.txt文件,如果存在则会遵守robots.txt文件所编写的规则抓取相应的内容;

例如本站的robots.txt文件规则:

User-agent: *
Disallow: /plus/ad_js.php
Disallow: /plus/advancedsearch.php
Disallow: /plus/car.php
Disallow: /plus/carbuyaction.php
Disallow: /plus/shops_buyaction.php
Disallow: /plus/erraddsave.php
Disallow: /plus/posttocar.php
Disallow: /plus/disdls.php
Disallow: /plus/feedback_js.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /include
Disallow: /templets
Sitemap:http://www.liuhaiseo.com/sitemap.xml

腾讯网robots.txt文件规则:

User-agent: *

Disallow: 

Sitemap: http://www.qq.com/sitemap_index.xml

 

二、robots.txt文件作用

    为什么网站都要写robots.txt文件呢?主要有以下四点:

1、网站安全(防止重要信息泄露)
2、节省网站流量(减少蜘蛛访问页面)
3、引导蜘蛛爬取网站地图(有利于网站收录)
4、禁止搜索引擎蜘蛛收录隐私页面(保护网站重要信息)

三、robots.txt文件写法

“/” 前面有一个英文状态下空格;

Disallow: /禁止访问

例如:”Disallow:/plus/ad_js.php”禁止访问/plus/as_js.php文件,”Disallow:/a/”,”Disallow:/b/”禁止访问a,b文件。

Allow: /允许访问

User-agent: /描述搜索引擎robots的名字

我们知道搜索引擎爬虫有多个种类,Baiduspider、Googlebot、360spider、Sosospider等等。
例如:User-agent: Baiduspider表示定义百度蜘蛛,那么名为”Baiduspider”就受到 ” User-agent: Baiduspider”后面的Disallow和Allow的规则限制。”User-agent: *”表示定义所有蜘蛛。

例如本站robots.txt文件规则表示:允许所有搜索引擎蜘蛛访问,且禁止抓取”Disallow: /”下文件。
腾讯网robots.txt文件规则表示:允许所有搜索引擎蜘蛛访问所有文件。

多种搜索引擎蜘蛛
四、robots.txt文件存在位置

    存放在网站根目录下,并且robots.txt文件名所有字母必须为小写。

五、注意事项

    在编写robots.txt文件时,User-agent、Disallow、Allow第一个字母均为大写,后面的字母小写,并且在 ”:”后面必须带一个英文字符空格,网站上线之前建议写好robots.txt文件禁止蜘蛛访问,如果还不会写可以参考网上robots.txt写法,以免给网站收录带来不必要的麻烦。

总结:以上就是广州SEO分享的个人经验,如果你还不会robots.txt文件写法,可以联系刘海帮忙解决!





您可能还会对下面的文章感兴趣: