从google删除内容
190929089
・7 分钟阅读
最好还是用 <meta name="Googlebot" content="Follow,NoIndex">
如果你希望google将它删除,则在已编入索引的网页上进行索引,这种方式比使用robots.txt阻塞要快得多。
注意:删除代码段也会删除缓存的页。
阻止Google显示你网页的代码片段
<meta NAME="GOOGLEBOT" CONTENT="NOSNIPPET">
删除过时的"死"链接
Google定期自动更新其整个索引,当我们浏览网页时,我们会找到新的页面,丢弃死链接,并自动更新链接,现在过时的链接很可能会在我们下次抓取时"淡出"索引。
注意:请确保你返回真实的404错误,即使你选择显示HTML页面对用户友好,如果http标头仍返回状态代码200或正常,它将无法返回显示"File not Found "的页面。
删除缓存页
Google会自动获取它抓取并存档的每个页面的"快照"。这个"缓存"版本允许你的终端用户检索网页,如果原始页面不可用,则为(网页服务器网络临时故障),缓存页面显示在Google上一次爬网时,显示在用户上面,并在页面顶部显示一个缓存版本,用户可以通过选择搜索结果页面上的"Cached "链接来访问缓存版本。
禁止所有搜索引擎为你的站点显示一个"缓存"链接
<meta name="robots" content="noarchive" />
允许其他搜索引擎显示一个"缓存"链接,只阻止Google,
<meta name="googlebot" content="noarchive" />
注意:这个标签只删除页面的"缓存"链接,Google将继续为该网页编制索引,并且显示一个代码段。
删除整个网站
如果你想从Google的索引中排除整个网站
从搜索引擎中删除站点,并防止所有机器人在以后爬上它,
User-agent: *
Disallow: /
注意:请注意,Googlebot不会将401/403响应("Unauthorized "/"Forbidden ")解释为robots.txt提取,作为请求不抓取任何网页的请求网站 。
仅从Google移除你的站点,并防止只在未来将网站爬网,
User-agent: Googlebot
Disallow: /
允许bot对所有网页进行索引,但是,不支持https页面,
每个端口必须有自己的robots.txt文件,特别是,如果您通过http和https提供内容,则每个协议都需要一个单独的robots.txt文件。
User-agent: *
Allow: /
对于https协议(https:/// )
User-agent: *
Disallow: /
删除网站的一部分
选项1:robots.txt
删除特定目录(例如,lems )下的所有页面,
User-agent: Googlebot
Disallow: /lems
删除特定文件类型(例如,.gif )的所有文件,
User-agent: Googlebot
Disallow: /*.gif$
要删除动态生成的页面,你可以使用这个robots.txt条目,
User-agent: Googlebot
Disallow: /*?
选项2:元标记
另一个标准,可以更方便逐页使用,涉及向HTML页面添加META标记,以告诉机器人不要索引页面。
阻止所有机器人对你站点上的网页进行索引
<meta name="robots" content="noindex, nofollow" />
允许其他机器人在你的站点上索引该页面,防止Google的机器人对页面进行索引,
<meta name="googlebot" content="noindex, nofollow" />
允许机器人在你的网站上索引网页,但是,指示他们不要跟随出站链接,
<meta name="robots" content="nofollow" />
从Google搜索图像中删除图像
希望Google排除在你的站点上出现的dogs.jpg图像
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
删除你网站上所有图片的索引
User-agent: Googlebot-Image
Disallow: /
删除特定文件类型(例如,包含.jpg,但是,不包括.gif图像)的所有文件
User-agent: Googlebot-Image
Disallow: /*.gif$
删除RSS或Atom提要
由于Feedfetcher请求来自于用户的显式操作,所以,Feedfetcher被设计用来忽略robots.txt准则。
Google不能限制对公开可用提要的访问,如果你的提要是由博客服务提供的,你应该使用它们来限制对你的提要的访问,
删除转换转换页面
通过手机上的Google网页搜索,用户可以在Google索引中搜索桌面网络浏览器中的所有内容。因为这些内容不是专为手机和设备编写的,因此可能无法正常显示,Google会通过分析原始HTML代码,并且将它转换为自动翻译(或"转码")这些页面,变成移动格式。为了确保最高的质量和最可用的网页显示在手机或设备上,Google可以调整,调整或转换图像。
为了节省带宽,google bot每天只下载robots.txt文件一次或者每当我们从服务器获取很多页面时,因此,Googlebot需要花些时间了解一下robots.txt文件的变化,此外,Googlebot分布在多台计算机上。每一个都有自己的robots.txt文件记录。
另外,处理robots.txt文件和robots.txt标准的方式之间有一个小的差别,标准说我们应该遵守第一个适用的规则,而且Googlebot遵守最长的(即最具体的)适用规则。这种更直观的实践符合人们实际做的,以及他们希望我们做什么。
例如考虑以下robots.txt file:
User-Agent: *
Allow: /
Disallow: /cgi-bin
显然,这里站长的意图是让机器人爬行除/cgi-bin目录之外的所有东西,这就是我们所做的。