百度蜘蛛Baiduspider的真假如何分辨-狐狸库

实际上，我们的日志中，有很多的baiduspider是他人伪装的，要想解决这个问题。我们必须在验证baiduspider真伪上下功夫，这篇文章详细的介绍了爬虫的鉴别方法。

我们在根据网站日志分析搜索引擎蜘蛛抓取网页的记录时，实际上很多站点都是有一些伪装称baiduspider的到访者的。这些数据会严重影响我们对日志分析后的判断。

这些到访者，为什么会伪装为baiduspider来访问我们的网站呢？最典型的就是采集你内容的那些人。他们知道很多工具是能够看到哪些ip访问网站的量过大的。例如某一个ip今天访问你网站1万次，那正常吗？肯定是不正常的。但他要是baiduspdier呢？呵呵，那就正常了。

Mozilla/5.0(compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html）

Mozilla/5.0(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)

Mozilla/5.0(Linux;u;Android4.2.2;zh-cn;)AppleWebKit/534.46(KHTML,likeGecko)Version/5.1MobileSafari/10600.6.3(compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

Mozilla/5.0(iPhone;CPUiPhoneOS9_1likeMacOSX)AppleWebKit/601.1.46(KHTML,likeGecko)Version/9.0Mobile/13B143Safari/601.1(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)

如上是包含了百度的常规爬虫，和渲染爬虫render的。这两个爬虫的区别符已经用红色字体标出来了。

可以通过DNS反查方式来解决这个问题。根据平台不同验证方法不同，如linux/windows/os三种平台下的验证方法分别如下：

1、在linux平台下，您可以使用hostip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以.baidu.com或.baidu.jp的格式命名，非.baidu.com或.baidu.jp即为冒充。

2、在windows平台或者IBMOS/2平台下，您可以使用nslookupip命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入nslookupxxx.xxx.xxx.xxx（IP地址）就能解析ip，来判断是否来自Baiduspider的抓取，Baiduspider的hostname以.baidu.com或.baidu.jp的格式命名，非.baidu.com或.baidu.jp即为冒充。

3、在macos平台下，您可以使用dig命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入digxxx.xxx.xxx.xxx（IP地址）就能解析ip，来判断是否来自Baiduspider的抓取，Baiduspider的hostname以.baidu.com或.baidu.jp的格式命名，非.baidu.com或.baidu.jp即为冒充。

文章来源：黎青松SEO博客

来源地址：http://www.alitaohuo.com/SEObaike/SEOrumenjiaocheng/2005.html

温馨提示：本文最后更新于2022/10/20 01:11:20。若文章内容或图片失效，请留言或联系站长反馈！

也想出现在这里？点击联系我们吧

本站除原创内容，其余内容均收集自互联网，仅限用于学习和研究目的，本站不对其内容的合法性、可用性承担任何责任。本站禁止以任何形式发布或转载任何违法相关信息，若您发现请立即向站长举报；用户投稿一切资源内容不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
如有版权内容，其版权均归原作者所有，本站虽力求保存原有版权信息，但因众多资源经多次转载，已无法确定其真实来源，故敬请原作者谅解！为尊重作者劳动成果，请购买正版支持作者，谢谢！若您对「HULIKU.COM」所载资源作品版权归属存有异议，请发送邮箱：ihuliku@qq.com 进行处理。
本站资源文件大多存储至云盘，如您发现图片或链接失效，请联系站长或作者，我们将及时进行更新。资源都是经过站长或作者收集测试优化后进行发布分享。如若转载请在贵站文内以超链形式注明狐狸库文章出处，谢谢合作！

THE END