Java代理IP池 ( Proxy Pool ) - 改进版
时间:2022-07-22
本文章向大家介绍Java代理IP池 ( Proxy Pool ) - 改进版,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
背景
前段时间,写java爬虫来爬网易云音乐的评论。不料,爬了一段时间后ip被封禁了。由此,想到了使用ip代理,但是找了很多的ip代理网站,很少有可以用的代理ip。 于是,抱着边学习的心态,Fork了一个代理ip池。
相关技术及环境
技术: SpringBoot,SpringMVC, Hibernate, MySQL, Redis , Maven, Lombok, BootStrap-table,多线程并发 环境: JDK1.8 , IDEA
开源地址
源作者开源地址:
https://github.com/chenerzhu/proxy-pool
现改进版Fork 地址
https://github.com/hiparker/proxy-pool
实现功能
通过ip代理池,提供高可用的代理ip,可用率达到95%以上。
- 通过接口获取代理ip 通过访问接口,如:http://127.0.0.1:8080/proxyIp 返回代理ip的json格式
{
"code":200,
"data":[
{
"available":true,
"ip":"1.10.186.214",
"lastValidateTime":"2018-09-25 20:31:52",
"location":"THThailand",
"port":57677,
"requestTime":0,
"responseTime":0,
"type":"https",
"useTime":3671
}
],
"message":"success"
}
- 通过页面获取代理ip 通过访问url,如:http://127.0.0.1:8080 返回代理ip列表页面。
- 提供代理ip测试接口及页面 通过访问url, 如:http://127.0.0.1:8080/test (get)测试代理ip的可用性;通过接口 http://127.0.0.1:8080/test ](post data: {"ip": "127.0.0.1","port":8080} ) 测试代理ip的可用性。
- 提供代理ip - txt 接口及页面 通过访问url, 如:http://127.0.0.1:8000/proxyAllByTXT (get)
- 如要返回json格式的接口 可自行开发
设计思路
模块划分
- 爬虫模块:爬取代理ip网站的代理IP信息,先通过队列再保存进数据库。
- 数据库同步模块:设置一定时间间隔同步数据库IP到redis缓存中。
- 缓存redis同步模块:设置一定时间间隔同步redis缓存到另一块redis缓存中。
- 缓存redis代理ip校验模块:设置一定时间间隔redis缓存代理ip池校验。
- 前端显示及接口控制模块:显示可用ip页面,及提供ip获取api接口。
IP来源
- 代理ip均来自爬虫爬取,有些国内爬取的ip大多都不能用,代理池的ip可用ip大多是国外的ip。爬取的网站有:http://www.xicidaili.com/nn ,http://www.data5u.com/free/index.shtml ,https://free-proxy-list.net ,https://www.my-proxy.com/free-proxy-list.html ,http://spys.one/en/free-proxy-list/ , https://www.proxynova.com/proxy-server-list/ ,https://www.proxy4free.com/list/webproxy1.html ,http://www.gatherproxy.com/ 。
- 可接入收费代理ip接口(目前已开发收费代理 txt接入方式)
- 可配置IP白名单
- 软件对外授权
改进本-优化
- 可配置化
- 收费api配置化
如何使用
前提: 已经安装JDK1.8环境,MySQL数据库,Redis。 先使用maven编译成jar,proxy-pool-1.0.jar。 使用SpringBoot启动方式,启动即可。
java -jar proxy-pool-1.0.jar
- 利用EntLib授权机制实现对ASP.NET页面的自动授权
- ASP.NET Core的配置(5):配置的同步[设计篇]
- 详解Redis内部运作机制
- TensorFlow深度学习笔记 循环神经网络实践
- 从客户端Web应用程序访问Bluemix服务
- 云改变传统银行业面貌的5种方式
- ASP.NET MVC中的ActionFilter是如何执行的?
- C语言嵌入式系统编程修炼之屏幕操作
- max-width:100%在td或者table-cell里渲染不符合预期小笔记
- ASP.NET Core中的依赖注入(2):依赖注入(DI)
- 使用Ansible自动化您的(云或者本地)机器
- 像Apache Storm一样简单的分布式图计算
- css绘图,实现一些特殊形状
- 看机器学习如何还原图像色彩
- java教程
- Java快速入门
- Java 开发环境配置
- Java基本语法
- Java 对象和类
- Java 基本数据类型
- Java 变量类型
- Java 修饰符
- Java 运算符
- Java 循环结构
- Java 分支结构
- Java Number类
- Java Character类
- Java String类
- Java StringBuffer和StringBuilder类
- Java 数组
- Java 日期时间
- Java 正则表达式
- Java 方法
- Java 流(Stream)、文件(File)和IO
- Java 异常处理
- Java 继承
- Java 重写(Override)与重载(Overload)
- Java 多态
- Java 抽象类
- Java 封装
- Java 接口
- Java 包(package)
- Java 数据结构
- Java 集合框架
- Java 泛型
- Java 序列化
- Java 网络编程
- Java 发送邮件
- Java 多线程编程
- Java Applet基础
- Java 文档注释
- Linux系统下Nginx支持ipv6配置的办法
- Smarty模板变量与调节器实例详解
- Linux中搭建完整的samba服务器全攻略(centos版)
- Thinkphp5 自定义上传文件名的实现方法
- PHP读取文件,解决中文乱码UTF-8的方法分析
- Linux低电量自动关机的实现办法
- php设计模式之工厂方法模式分析【星际争霸游戏案例】
- PHP+Apache实现二级域名之间共享cookie的方法
- linux虚拟机配置静态IP地址的完整步骤
- laravel-admin利用ModelTree实现对分类信息的管理
- Linux系统下快速配置HugePages的完整步骤
- Laravel5.1 框架关联模型之后操作实例分析
- PHP实现的多进程控制demo示例
- 你可能不知道的一些linux文件权限管理办法
- Laravel框架路由与MVC实例详解