爬虫学习-入门
时间:2019-09-19
本文章向大家介绍爬虫学习-入门,主要包括爬虫学习-入门使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
语言:JAVA
软件:eclipse
首先需要到网上下载Jsoup的jar包。
下载地址:http://www.pc6.com/softview/SoftView_541368.html
之后是在eclipse中创建项目,把jar包导入lib文件夹中
提取网页中的链接:
import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; /* * * 提取链接 */ public class Text_211 { public static void main(String args[]) { String url="http://www.lietu.com"; try { Document doc=Jsoup.connect(url).get(); Elements links=doc.select("a[href]"); for(Element link:links) { String linkHref=link.attr("href"); System.out.println(linkHref); } } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } }
提取标题和详细页链接的完整代码
得到网页的所有的标题和链接
import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; /* * * 采集新闻 */ public class Text_212 { public static void main(String args[]) { //text_first("http://politics.people.com.cn/GB/1024/"); text_second("http://china.cnr.cn/yaowen/"); } //提取标题和详细页链接的完整代码 public static void text_first(String address) { try { Document document=Jsoup.connect(address).get(); Elements es=document.getElementsByClass("list_16"); Elements links=es.select("a[href]"); for(Element link:links) { String title=link.text(); System.out.println(title); String linkHref=link.attr("href"); System.out.println(linkHref); } } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } //得到网页的所有的标题和链接 public static void text_second(String address) { try { Document document=Jsoup.connect(address).timeout(5000).get(); Element content=document.getElementById("subNav_menu"); Elements es=document.getElementsByClass("text"); for(Element linck:es) { Element alink=linck.getElementsByTag("a").first(); if(alink!=null) { System.out.println(alink.attr("href")); System.out.println(alink.text()); } } } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } }
原文地址:https://www.cnblogs.com/liujinxin123/p/11552704.html
- Linux性能分析工具与图形化方法
- MySQL和Oracle中的隐式转换(r6笔记第45天)
- R语言的数据导入与导出(write.table,CAT)
- gqlplus的简单使用(r6笔记第43天)
- Java基础-21(01)总结字符流,IO流编码问题,实用案例必做一遍
- zabbix中配置dg的监控(r6笔记第62天)
- Apache ActiveMQ 远程代码执行漏洞 (CVE-2016-3088)分析
- mysql5.5与mysq 5.6中禁用innodb引擎的方法
- 缓慢的update语句性能分析(r6笔记第61天)
- 一个dg警告发现的硬件问题 (r6笔记第60天)
- mysql几种存储引擎介绍
- Java基础-21(02)总结字符流,IO流编码问题,实用案例必做一遍
- DeDeCMS v5.7 密码修改漏洞分析
- Java基础-20(01)总结,递归,IO流
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法