有关robots.txt
刚刚建立网站才三天而已,而且也没有做任何的博客营销之类的宣传,所以猜测应该没有什么访客,但是去后台看一下发现已经有几个访问用户,而且他们提交访问的文件均为robots.txt,于是搜索了一下,发现这个文件是专门提供给网络爬虫/网络机器人使用的。
这个文件主要是提供给像GOOGLE这样的搜索引擎的网络爬虫服务器使用的,他所包含的内容用来告知搜索引擎一个网站是否要或者哪一部分允许被搜索引擎索引。
这个文件通常都放在根目录下面,比如说我的网站是themoney4u.net,这个文件的位置是themoney4u.net/robots.txt。
这个文件的格式通常只有两项,大多数的robots.txt 只包含两项:
User-agent: *
Disallow:
第一行的意思是规则适用于所有的爬虫机器人,第二行的意思是没有禁止索引的部分,这也是通常的写法,因为我们不仅不反对搜索引擎的索引(一些发送垃圾邮件的爬虫服务器除外),而且还期望越早被搜索引擎收录越好。
如果是特制某些目录不希望被搜索引擎索引到,可以类似如下的书写:
User-agent: *
Disallow: /cgi-bin/
Disallow: /temp/
在disallow部分中添加不希望被索引的部分即可。
扩充阅读:
声明:本站遵循署名-非商业性使用-相同方式共享3.0共享协议,转载请注明出处
随机文章:

最近评论