爬虫其实很简单!——网络爬虫快速实现(一)
时间:2022-05-03
本文章向大家介绍爬虫其实很简单!——网络爬虫快速实现(一),主要内容包括爬虫是什么?、爬虫的原理、基本概念、基础应用、原理机制和需要注意的事项等,并结合实例形式分析了其使用技巧,希望通过本文能帮助到大家理解应用这部分内容。
今天我来带领大家一起学习编写一个网络爬虫!其实爬虫很简单,没有想象中那么难,也许所有学问都是这样,恐惧源自于无知。废话不多说,现在开始我们的爬虫之旅吧。
爬虫是什么?
我们时常听说编程大牛嘴边一直念叨着“网络爬虫“,那网络爬虫究竟是何方神圣呢? 网络爬虫能够模仿用户浏览网页,并将所想要的页面中的信息保存下来。有些同学不禁要问:“我自己浏览网页,可以手动将数据保存下来啊,为何要写个程序去爬取数据呢?“道理其实很简单,程序能够在短时间内访问成千上万的页面,并且在短时间内将海量数据保存下来,这速度可远远超越了人工手动浏览网页的速度。
爬虫的原理
爬取网页的过程大致分成两个步骤:
- 爬取网页html文件 爬虫的第一步就是要模拟用户浏览网页,获取需要访问的页面。 模拟用户浏览网页的方法很简单,使用Java类库中的URLConnection类即可,这个类可以发送HTTP请求,并返回请求页的二进制数据,我们只需将返回的二进制数据转换成String类型,这些数据就是请求页的HTML文本!
//设置需要爬取页面的URL
URL url = new URL("http://www.baidu.com");
//建立连接,获取URLConnection对象
URLConnection connection = url.openConnection();
//将URLConnection对象转换成HttpURLConnection对象
HttpURLConnection httpConnection = (HttpURLConnection) connection;
httpConnection.setDoOutput(true);
//获取输出流
OutputStreamWriter out = new OutputStreamWriter(httpConnection.getOutputStream(), "8859_1");
//刷新输出流,然后关闭流
out.flush();
out.close();
//一旦发送成功,用以下方法就可以得到服务器的回应:
String sCurrentLine = "";
String sTotalString = "";
//ResponseCode==200表示请求发送成功! if(httpConnection.getResponseCode()==200){
//获取服务器返回的输入流
InputStream l_urlStream = httpConnection.getInputStream();
BufferedReader l_reader = new BufferedReader(new InputStreamReader(l_urlStream));
while ((sCurrentLine = l_reader.readLine()) != null) {
sTotalString += sCurrentLine + "rn";
}
System.out.println(sTotalString);
return true;
}
- 分析html文件,抽取其中需要的数据 当我们获取到请求页的HTML文本之后就需要在一堆HTML标签中将我们所需要的数据抽取出来。这里给大家提供一个很好用的抽取HTML数据的第三方Jar包:Jsoup! Jsoup提供了getElementById()、getElementById()等方法,我们能够很方便地将指定标签中的数据抽取出来。除此之外,为了方便实现网络爬虫,Jsoup中已经集成了发送HTTP请求的函数,而且将整个发送请求的过程极度地简化,只需两步就能完成,无需再使用HttpConnection类库在发送HTTP请求前进行一系列复杂的设置,并且Jsoup中返回的就是HTML文本,无需再进行二进制转换成HTML文本的操作。代码如下:
//通过Jsoup获取HTML文本
Document doc = Jsoup.connect("http://10.20.100.5:8080/").get();
//获取HTML中所有的tbody标签
Elements tbodys = doc.getElementsByTag("tbody");
//获取tbody标签中所有的td标签
Elements tds = tbodys.get(1).getElementsByTag("td");
//获取td中的文本
tds.get(0).html();
看完这些相信大家对于网络爬虫已经入门了,能够实现一个最简单的爬虫程序,接下来我会带领大家一步步深入,实现一个更加智能、功能更加强大的爬虫! 如果各位还有什么问题,可以留言,我会尽力解答的。
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 【python-leetcode25-翻转链表】K 个一组翻转链表
- spring之通过实例工厂方法配置Bean
- 细品redis分布式锁
- 【python-leetcode102-树的宽度遍历】二叉树的层次遍历
- 【python-树的宽度遍历】二叉树的反向层次遍历
- 基于TypeScript封装Axios笔记(二)
- redis高性能数据结构之有序集
- spring之通过静态工厂方法配置Bean
- 【python-leetcode107-树的宽度遍历】二叉树的层次遍历Ⅱ
- spring之通过注解方式配置Bean(一)
- React17新特性:启发式更新算法
- spring之通过FactoryBean配置Bean
- 谱聚类的python实现
- 基于TypeScript封装Axios笔记(三)
- hadoop伪分布式之启动HDFS并运行MR程序(WordCount)