网络爬虫和用户

・13 分钟阅读

在万维网上,既有坏机器人也有不错的机器人,你肯定想避免的坏机器人,因为这些机器人消耗你的CDN带宽,占用服务器资源,并窃取你的内容。另一方面,好的机器人(也称为网络爬虫)应该小心地处理,因为它们是使内容与搜索引擎,比如,Google , Bing 和 Yahoo . 阅读以下内容的信息 10个网页爬虫和user-agent 确保你正确地处理它们。

Web爬虫也称网站蜘蛛或互联网机器人,是以自动化方式浏览内容的程序,爬虫可以查看各种数据,比如,内容,页面链接,断链接,站点地图和HTML代码验证。

web crawler

Google,Bing和Yahoo等搜索引擎使用抓取工具正确索引下载的网页,以便用户在搜索时更快,更有效地找到它们。没有网络爬虫,就没有什么办法可以告诉他们你的网站有新的和新鲜的内容,sitemap也可以在这个过程中扮演角色,所以 在大多数情况下,网络爬虫是一个好东西,但是,有时候,当爬虫可能不断轮询站点时,也有时候会发生调度和加载问题,而这就是 robots.txt文件 此文件可以帮助控制爬网流量,并且确保它不会使你的服务器失效。

user agent

Web爬网程序通过使用以下内容将自己的标识发生到Web服务器,User-agent 在一个HTTP请求中,每个爬虫都有自己唯一的标识符,大多数时候,你需要检查你的web服务器引用日志来查看网络爬虫流量。

robots.txt

通过在web服务器的根目录中放置robots.txt文件,你可以为网络爬虫定义规则,例如,允许或不允许 它们必须遵循,你可以应用适用于所有机器人的通用规则,并指定它特定的特性,User-agent 字符串。

robots file

示例1

本示例指示所有搜索引擎机器人不索引网站的任何内容,这是通过禁止你网站的root "/"来定义的。


User-agent: *
Disallow: /

示例2

本示例实现与前一个示例相反的功能,在这种情况下,指令仍然应用于所有用户代理,但是在Disallow指令中没有定义任何内容,这意味着可以对所有内容编制索引。


User-agent: *
Disallow:
robots.txt CDN

最好的10个网络爬虫和机器人

有数百个网络爬虫和机器人,但是,下面是10个流行的网络爬虫和机器人。

1. GoogleBot

Googlebot 显然是当今互联网上最流行的网络爬虫之一,因为它被用来搜索搜索谷歌引擎内容的内容,Google爬虫网站的一个好处是他们为我们提供了大量的工具和控制过程。

googlebot - web crawlers

USER-AGENT

User-agent: Googlebot

完整USER-AGENT字符串

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

robots.txt 中的google google示例

本示例显示了与定义的指令有关的更细粒度,在这里,这些指令只与Googlebot相关,更具体地说,它告诉Google不要索引一个特定页面: your-page.html 。


User-agent: Googlebot
Disallow: /no-index/your-page.html

除了谷歌搜索爬虫网站之外,还有9个额外的网络爬虫:

网络爬虫USER-AGENT字符串
Googlebot NewsGooglebot-News
Googlebot ImagesGooglebot-Image/1.0
Googlebot VideoGooglebot-Video/1.0
Google Mobile (featured phone )SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6.2.3.3 .c. 1.101 (GUI) MMP/2.0 (compatible ; Googlebot-Mobile/2.1 ; http://www.google.com/bot.html)
Google SmartphoneMozilla/5.0 (Linux ; Android 6.0.1 ; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML , like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible ; Googlebot/2.1 ; http://www.google.com/bot.html)
Google Mobile Adsense(compatible ; Mediapartners-Google/2.1 ; http://www.google.com/bot.html)
谷歌AdsenseMediapartners-Google
Google AdsBot (ppc目标网页质量)AdsBot-Google (+http://www.google.com/adsbot.html)
Google应用程序爬虫(获取移动资源)AdsBot-Google-Mobile-Apps

你可以使用 抓取工具 在Google搜索控制台测试Google如何在你的站点上抓取或呈现网址,查看google bot是否可以访问你网站上的网页,它是如何呈现页面的以及是否被阻止浏览任何网页资源(像图像或脚本)。

fetch as google

您还可以查看每天的Googlebot抓取统计信息,下载的千字节数量以及下载页面所花费的时间。

googlebot crawl stats

请参见 文稿。

Google

另一个你可能看到的弹出窗口是Google+ ,当用户共享Google+或应用程序写入应用程序时,Google+尝试获取内容,并且创建链接内容摘要,此服务与抓取和索引你网站的google bot不同,这些请求不遵守robots.txt或其他爬网机制,因为这是用户发起的请求。

USER-AGENT

Google (+https://developers.google.com/+/web/snippet/)

2. Bingbot

Bingbot是微软在2010年为他们的Bing搜索引擎提供的一种网络爬虫,这是以前的MSN bot的替代品。

bingbot - webcrawlers

USER-AGENT

Bingbot

完整USER-AGENT字符串

Mozilla/5.0 (compatible; Bingbot/2.0; +http://www.bing.com/bingbot.htm)

Bing也有一个与Google非常相似的工具,名为Fetch as Bingbot,Bing网站站长工具 ,通过Bingbot获取,您可以请求抓取页面,并且向我们显示,因为我们的抓取工具会看到它。

fetch as bingbot

请参见 Bingbot robots.txt 文稿。

3. Slurp Bot

雅虎搜索结果来自雅虎网页爬虫 和必应的网站,因为很多雅虎现在都是以Bing为动力的,网站应该允许Yahoo Slurp访问,以便在Yahoo移动搜索结果中出现。

slurp yahoo

此外,侦听器还执行以下操作:

  • 从合作伙伴网站收集内容,以便包含在雅虎新闻,雅虎财经和雅虎体育中,
  • 通过网站访问网页以确认准确性,并提高Yahoo内容的用户个性化,

USER-AGENT

Slurp

完整USER-AGENT字符串

Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

请参见 Slurp robots.txt 文稿。

4. DuckDuckBot

DuckDuckBot是网络爬虫 DuckDuckGo是一个最近很受欢迎的搜索引擎,因为它以隐私着称而不跟踪你。

duckduckbot

USER-AGENT

DuckDuckBot

完整USER-AGENT字符串

DuckDuckBot/1.0; (+http://duckduckgo.com/duckduckbot.html)

它尊重WWW::RobotRules 并源自这些IP地址:

  • 72.94.249.34
  • 72.94.249.35
  • 72.94.249.36
  • 72.94.249.37
  • 72.94.249.38

5. Baiduspider

Baiduspider 是中国百度搜索引擎的官方名称爬行蜘蛛,它抓取网页,并且返回对百度索引的更新,百度是中国领先的搜索引擎,它占中国大陆搜索引擎市场的80%份额。

Baiduspider

USER-AGENT

Baiduspider

完整USER-AGENT字符串

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

除了百度搜索爬虫网站之外,他们还拥有6个额外的网络爬虫:

网络爬虫USER-AGENT字符串
搜索图像Baiduspider-image
视频搜索Baiduspider-video
新闻搜索Baiduspider-news
百度wishlistsbaiduspider偏好
百度联合baiduspider cpro
业务搜索Baiduspider-ads
其他搜索页Baiduspider

请参见 robots.txt 文稿。

6. Yandex Bot

YandexBot是网络爬虫之一,是俄罗斯最大的搜索引擎之一,Yandex ,据LiveInternet称,截至2015年12月31日的三个月,他们占俄罗斯所有搜索流量的57.3%。

yandex bot

USER-AGENT

YandexBot

完整USER-AGENT字符串

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

YandexBot可以显示许多不同的USER-AGENT字符串,这些字符串在你的服务器日志中,查看完整的列表 Yandex机器人Yandex robots.txt 文稿。

7.搜狗蜘蛛#

搜狗蜘蛛是Sogou.com的网络爬虫,在2004年推出了中国领先的搜索引擎,从2016年04月的排名来看,在互联网上排名为103,注意: Sogou蜘蛛不尊重 robots.txt 因特网标准,因此在许多网站上由于抓取过多而被禁止。

Sogou Spider

User-Agents


Sogou Pic Spider/3.0( http://www.sogou.com/docs/help/webmasters.htm#07)
Sogou head spider/3.0( http://www.sogou.com/docs/help/webmasters.htm#07)
Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
Sogou Orion spider/3.0( http://www.sogou.com/docs/help/webmasters.htm#07)
Sogou-Test-Spider/4.0 (compatible; MSIE 5.5; Windows 98)

8. Exabot

Exabot是Exalead的网络爬虫,它是一个基于法国的搜索引擎,它成立于2000年,目前已有超过160亿页索引。

exa bot

User-Agents


Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Exabot-Thumbnails)
Mozilla/5.0 (compatible; Exabot/3.0; +http://www.exabot.com/go/robot)

请参见 Exabot robots.txt 文稿。

9. Facebook外部热播#

Facebook允许其用户向其他Facebook用户发送有趣的网页内容链接,在Facebook系统中,如何临时显示与web内容相关的某些图像或细节,如网页标题或嵌入标记,系统检索此信息

facebook share.

他们的主要爬行机器人之一是Facebot,它旨在帮助提高广告性能。

User-Agents


facebot
facebookexternalhit/1.0 (+http://www.facebook.com/externalhit_uatext.php)
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

请参见 Facebot robots.txt 文稿。

10.Alexa爬虫

Ia_archiver是亚马逊互联网排名Alexa的网络爬虫,你可能知道,他们收集信息来显示本地和国际网站的排名。

alexa crawler

USER-AGENT

ia_archiver

完整USER-AGENT字符串

ia_archiver (+http://www.alexa.com/site/help/webmasters; crawler@alexa.com)

请参见 Ia_archiver robots.txt 文稿。

  1. keycdn zones
  2. keycdn edit zone
  3. keycdn zone advanced features
  4. block bad bots

蜘蛛的资源

也许你在日志中看到了一些USER-AGENT字符串,这里有几个很好的资源,你可以在其中查找流行的坏机器人,爬虫。

Caio Almeida也有一个很好的名单 crawler-user-agents Github项目

190929089 profile image