从google删除内容

・7 分钟阅读

最好还是用 <meta name="Googlebot" content="Follow,NoIndex"> 如果你希望google将它删除,则在已编入索引的网页上进行索引,这种方式比使用robots.txt阻塞要快得多。

注意:删除代码段也会删除缓存的页。

阻止Google显示你网页的代码片段


<meta NAME="GOOGLEBOT" CONTENT="NOSNIPPET">


删除过时的"死"链接

Google定期自动更新其整个索引,当我们浏览网页时,我们会找到新的页面,丢弃死链接,并自动更新链接,现在过时的链接很可能会在我们下次抓取时"淡出"索引。

注意:请确保你返回真实的404错误,即使你选择显示HTML页面对用户友好,如果http标头仍返回状态代码200或正常,它将无法返回显示"File not Found "的页面。

删除缓存页

Google会自动获取它抓取并存档的每个页面的"快照"。这个"缓存"版本允许你的终端用户检索网页,如果原始页面不可用,则为(网页服务器网络临时故障),缓存页面显示在Google上一次爬网时,显示在用户上面,并在页面顶部显示一个缓存版本,用户可以通过选择搜索结果页面上的"Cached "链接来访问缓存版本。

禁止所有搜索引擎为你的站点显示一个"缓存"链接


<meta name="robots" content="noarchive" />


允许其他搜索引擎显示一个"缓存"链接,只阻止Google,


<meta name="googlebot" content="noarchive" />


注意:这个标签只删除页面的"缓存"链接,Google将继续为该网页编制索引,并且显示一个代码段。

删除整个网站

如果你想从Google的索引中排除整个网站

从搜索引擎中删除站点,并防止所有机器人在以后爬上它,


User-agent: *
Disallow: /


注意:请注意,Googlebot不会将401/403响应("Unauthorized "/"Forbidden ")解释为robots.txt提取,作为请求不抓取任何网页的请求网站 。

仅从Google移除你的站点,并防止只在未来将网站爬网,


User-agent: Googlebot
Disallow: /


允许bot对所有网页进行索引,但是,不支持https页面,

每个端口必须有自己的robots.txt文件,特别是,如果您通过http和https提供内容,则每个协议都需要一个单独的robots.txt文件。


User-agent: *
Allow: /


对于https协议(https:/// )


User-agent: *
Disallow: /


删除网站的一部分

选项1:robots.txt

删除特定目录(例如,lems )下的所有页面,


User-agent: Googlebot
Disallow: /lems


删除特定文件类型(例如,.gif )的所有文件,


User-agent: Googlebot
Disallow: /*.gif$


要删除动态生成的页面,你可以使用这个robots.txt条目,


User-agent: Googlebot
Disallow: /*?


选项2:元标记

另一个标准,可以更方便逐页使用,涉及向HTML页面添加META标记,以告诉机器人不要索引页面。

阻止所有机器人对你站点上的网页进行索引


<meta name="robots" content="noindex, nofollow" />


允许其他机器人在你的站点上索引该页面,防止Google的机器人对页面进行索引,


<meta name="googlebot" content="noindex, nofollow" />


允许机器人在你的网站上索引网页,但是,指示他们不要跟随出站链接,


<meta name="robots" content="nofollow" />


从Google搜索图像中删除图像

希望Google排除在你的站点上出现的dogs.jpg图像


User-agent: Googlebot-Image
Disallow: /images/dogs.jpg


删除你网站上所有图片的索引


User-agent: Googlebot-Image
Disallow: /


删除特定文件类型(例如,包含.jpg,但是,不包括.gif图像)的所有文件


User-agent: Googlebot-Image
Disallow: /*.gif$


删除RSS或Atom提要

由于Feedfetcher请求来自于用户的显式操作,所以,Feedfetcher被设计用来忽略robots.txt准则。

Google不能限制对公开可用提要的访问,如果你的提要是由博客服务提供的,你应该使用它们来限制对你的提要的访问,

删除转换转换页面

通过手机上的Google网页搜索,用户可以在Google索引中搜索桌面网络浏览器中的所有内容。因为这些内容不是专为手机和设备编写的,因此可能无法正常显示,Google会通过分析原始HTML代码,并且将它转换为自动翻译(或"转码")这些页面,变成移动格式。为了确保最高的质量和最可用的网页显示在手机或设备上,Google可以调整,调整或转换图像。

为了节省带宽,google bot每天只下载robots.txt文件一次或者每当我们从服务器获取很多页面时,因此,Googlebot需要花些时间了解一下robots.txt文件的变化,此外,Googlebot分布在多台计算机上。每一个都有自己的robots.txt文件记录。

另外,处理robots.txt文件和robots.txt标准的方式之间有一个小的差别,标准说我们应该遵守第一个适用的规则,而且Googlebot遵守最长的(即最具体的)适用规则。这种更直观的实践符合人们实际做的,以及他们希望我们做什么。

例如考虑以下robots.txt file:


User-Agent: *
Allow: /
Disallow: /cgi-bin


显然,这里站长的意图是让机器人爬行除/cgi-bin目录之外的所有东西,这就是我们所做的。

讨论
190929089 profile image