IT资讯
当前位置:集趣网 > IT资讯 >  安全

禁止搜索引擎收录的方法

2020-05-21 11:49:36 卢松松博客 卢松松博客 编辑:玉米 浏览数:33集趣网

1. 什么是robots.txt文件? 引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用...

1. 什么是robots.txt文件?

引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明 该网站中不想被引擎收录的部分或者指定引擎只收录特定的部分。

请注意,仅当您的网站包含不希望被引擎收录的内容时,才需要使用robots.txt文件。如果您希望引擎收录网站上所有内容,请勿建立robots.txt文件。          

2. robots.txt文件放在哪里?

robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如 http://www.a**.com)时,首先会检查该网站中是否存在http://www.a**.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

3. 我在robots.txt中设置了禁止百度收录我网站的内容,为何还出现在百度结果中?

如果其他网站链接了您robots.txt文件中设置的禁止收录的网页,那么这些网页仍然可能会出现在百度的结果中,但您的网页上的内容不会被抓取、建入索引和显示,百度结果中展示的仅是其他网站对您相关网页的描述。

4. 禁止引擎跟踪网页的链接,而只对网页建索引

如果您不想引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记置入网页的<HEAD> 部分:
<meta name="robots" content="nofollow">
如果您不想百度追踪某一条特定链接,百度还支持更精确的控制,请将此标记直接写在某条链接上:
<a href="&rvpu;tjhojo.qiq&rvpu;" rel="nofollow">signin</a>
要允许其他引擎跟踪,但仅防止百度跟踪您网页的链接,请将此元标记置入网页的<HEAD> 部分:
<meta name="Baiduspider" content="nofollow">

5. 禁止引擎在结果中显示网页快照,而只对网页建索引

要防止所有引擎显示您网站的快照,请将此元标记置入网页的<HEAD>部分:
<meta name="robots" content="noarchive">
要允许其他引擎显示快照,但仅防止百度显示,请使用以下标记:
<meta name="Baiduspider" content="noarchive">
注:此标记只是禁止百度显示该网页的快照,百度会继续为网页建索引,并在结果中显示网页摘要。

6. 我想禁止百度图片收录某些图片,该如何设置?

禁止Baiduspider抓取网站上所有图片、禁止或允许Baiduspider抓取网站上的某种特定格式的图片文件可以通过设置robots实现,请参考“robots.txt文件用法举例”中的例10、11、12。

7. robots.txt文件的格式

"robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
"<field>:<optional space><value><optionalspace>"
在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:

User-agent:

该项的值用于描述引擎robot的名字。在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受 到"robots.txt"的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效, 在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。如果在"robots.txt"文件中,加入"User- agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。

Disallow:

该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpa**.html、/help /index.html,而"Disallow:/help/"则允许robot访问/help.html、/helpa**.html,不能访问 /help/index.html。"Disallow:"说明允许robot访问该网站的所有url,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"不存在或者为空文件,则对于所有的引擎robot,该网站都是开放的。

Allow:

该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头 的URL 是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、 /hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

使用"*"and"$":
Baiduspider支持使用通配符"*"和"$"来模糊匹配url。
"$" 匹配行结束符。
"*" 匹配0或多个任意字符。

注:我们会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,我们会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。          

8. URL匹配举例

9. robots.txt文件用法举例

User-agent: Baiduspider
Allow: /

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

10. robots.txt文件参考资料

robots.txt文件的更具体设置,请参看以下链接:

Web Server Administrator's Guide to the Robots Exclusion Protocol

HTML Author's Guide to the Robots Exclusion Protocol

 The original 1994 protocol description, as currently deployed

The revised Internet-Draft specification, which is not yet completed or implemented

来源:卢松松博客,欢迎分享,(QQ/微信:13340454)

分享到:

版权与免责声明:

凡未注明"稿件来源"的内容均为转载稿,本网转载出于传递更多信息的目的;如转载稿涉及版权问题,请作者联系我们,同时对于用户评论等信息,本网并不意味着赞同其观点或证实其内容的真实性;


本文地址:http://www.zjzgh.net/news/2020/05/21/92343689.html

转载本站原创文章请注明来源:集趣网

行业聚焦

Gear VR 设备停产,三星手机 9 月底完全砍掉 XR/VR 内容服务

IT之家5月21日消息 三星去年已停止生产Gear VR设备。近期,三星宣布将终止三星XR,该服务提供VR内容,例如360度图像和视频。三星还将从微软...[详细]

巨子纷繁入局同享电单车赛道再燃烽火

  原标题:同享电单车赛道再燃烽火    同享单车战局落定,巨子们又将目光瞄准了电单车。不少二、三、四线城市的居民好像在一夜之间发现,街头多了各色同享电单车、电...[详细]

谷歌量子核算硬件规划负责人辞职称团队内定见相左

  新浪科技讯北京时间4月21日上午音讯,据外媒报导,谷歌首席执行官桑德尔·皮查伊(Sundar Pichai)将公司量子核算硬件实验室的最新效果,比作是莱特兄...[详细]

联想推出电动滑板车M2:30公里续航,售价1999元

IT之家4月28日消息 联想Lenovo 电动滑板车M2现已开启预约,30公里续航,售价1999元,首发1699元。IT之家了解到,联想电动滑板车M2...[详细]

最赚钱的加密货币领域是借贷

  在加密货币世界,人们很容易专注于两类最常见的代币:智能合约类代币(如以太坊)和货币类代币(如比特币)。但是,若查看过去 90 日及过去 1 年加密货币的投资...[详细]

科技趋势

更多

升级Win10系统之后一开机就蓝屏且电脑不断重启怎么解决?

 

  升级Win10系统之后一开机就蓝屏且电脑不断重启怎么解决?这一点其实和用户使用的计算机硬件环境有...[详细]

荣耀Play4T Pro开售:麒麟810+22.5W快充,1499元起

 

IT之家4月14日消息 荣耀Play4T Pro于4月9日发布,搭载麒麟810芯片,支持22.5W快充,现已正...[详细]

来了!苹果官宣:6 月 22 日起召开 WWDC20 虚拟全球开发者大会

 

IT之家5月6日消息苹果现已宣布将于 6 月 22 日开始以虚拟形式举行年度全球开发者大会,届时将通过 App...[详细]

Uber要求一切司机和骑手佩带口罩屡次违背或遭停用

 

  新浪科技讯 北京时间5月14日早间音讯,据外媒报导,Uber(优步)周三表明,跟着世界各国开端放松旨在遏止新冠病毒传...[详细]

525首销仅售199元,搭载Wi

 

今日,荣耀官方微博发布预热海报,宣布将在5月25日荣耀路由3首销日当天发起“遇墙还强”超强信号覆盖大挑战直播活动。据悉,...[详细]

  • 1
  • 2
  • 3
  • 4
  • 5
  • 一周排行每月关注
  • 01小米卢伟冰:Redmi Note 8/Pro 系列全球销量突破 3000 万台
  • 02索尼一季度仅卖出40万部手机创前史新低
  • 03升级Win10系统之后一开机就蓝屏且电脑不断重启怎么解决?
  • 04台媒:乐虎国际维一官网向台积电紧急下7亿美元大单,生产5/7nm芯片
  • 05ProtonMail Bridge上线Linux平台:为邮件客户端提供安全解决方案
  • 06Win10任务管理器里面的GPU占用率到底是怎么算的?
  • 07小鹏汽车超长续航智能轿跑P7正式发布 补贴售价22.99
  • 08搜索引擎蜘蛛抓取配额是什么?
  • 09外媒:特斯拉上海工厂或采用新冲压工艺
  • 10小米 MIX Alpha 环绕屏工程机拆解图曝光