哪吒机器人提醒:

提醒:Dawn.w/s weblog
【标题】不应忽视robots.txt的存在
【摘要】robots.txt 文件是存放在 wwwroot 根目录下的纯文本文件,看似简单但作用很大。搜索引擎蜘蛛会先寻找该文件,再以此进行抓取和编制索引的工作,robots.txt 文件限定了搜索引擎蜘蛛可抓取的内容,你可以全部禁止,也可以有针对性。由于搜索引擎蜘蛛只在根目录下寻找该文件,因此放在子目录下是不起作用的。例:http://yoursite.com/robots.txt错:http://yoursite.com/a/robots.txtrobots.txt 的格式可分两部分:User-agent:Disallow/Allow:“User-agent:“ 该部分是对搜索引擎类别的设置,比如 “User-agent:Googlebot” 是对Google的设置。该部分至少要有一句,你也可以分别对多种搜索引擎设置多句,或者干脆设置成全部 “User-agent:*” 。“Disallow:“与”Allow:“选择其一,参数可以是完整的URL。如果针对http与https这样两个不同协议可以有不同设置,就在分别部署 robots.txt 的时候分别使用Disallow和Al... (04-11 09:30)