只允许谷歌和Bing抓取网站
190929089
・1 分钟阅读
是的,这意味着他们不允许抓取任何东西。
你可能希望省略 *
在 /bedven/bedrijf/*
,
在原始的robots.txt规范中 *
没有特殊意义,只是像其他的角色一样,所以,它只会禁止抓取字面上具有该字符的页面,*
在他们的URL中。
虽然谷歌并不遵循robots.txt规范,因为他们使用,*
作为"任何字符序列"的通配符,它不需要 对于他们在这种情况下:/bedven/bedrijf/*
和 /bedven/bedrijf/
意思是完全一样 阻止其路径的所有URL开始 带 /bedven/bedrijf/
。
最后,你可以将robots.txt减少到两条记录,因为记录可以有多重User-agent
行:
User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10
User-agent: *
Disallow: /