几个爬虫框架简单罗列总结

时间:2019-09-05
本文章向大家介绍几个爬虫框架简单罗列总结,主要包括几个爬虫框架简单罗列总结使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

最近工作需要,用了4天的时间简单研究了4个java自动化测试框架,目前选用了cdp4j,运行较稳定。暂时选用这种方案。

基于内核:htmlunit、ui4j

基于浏览器的自动化:cdp4j、Selenium

记录几个以缺点为主的评价,当然也看具体需求、能力、成员开发习惯等等综合考量。

htmlunit:js和css兼容性极差

ui4j:在互动上还是差点

cdp4j:需要chrome 等支持,基于 chrome开发工具协议跟chrome进行通信。在鼠标模拟上需要自己写java代码前台模拟。整个Demo运行比较稳定

Selenium:有了鼠标模拟,是前台模拟。引入驱动包后可以操作Chrome或者火狐进行通信操作。但经常timeout,不知道我哪里设置有问题?

PS:cdp4j、Selenium同样可以操作基于chromium开发出的浏览器,就不举例了。

源代码也不贴了,不堪入眼

原文地址:https://www.cnblogs.com/xiaojieblog/p/11465894.html