网页爬虫-R语言实现基本函数
时间:2022-05-04
本文章向大家介绍网页爬虫-R语言实现基本函数,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
#*************网页爬虫-R语言实现,函数库文件*******#
#****作者:H***************************************#
#****版本:v0.1*******************************************#
#****时间:2017*************************************#
library(XML);
#****函数:(crawler1)
#****概要:网络抓取的主要函数1,可以抓取n个网页的m个变量。每个xpath只爬取一个数据,如果大于1个则提示有误。(精确抓取)
#****输入:
# 名称 | 数据格式
# url | 欲抓取的网站的url 向量:n个
# xpath | 给出的抓取变量的xpath 向量:m个
# content | 变量是结点的内容还是结点的属性值 向量:m个
# "text"是内容(默认),或者是属性名称
#****输出:只有print,无输出
# 名称 | 含义
crawler1<-function(url,xpath,content=rep("text",length(xpath))){
#如果xpath以及content的数量不同,则输入数据有误
num_url<-length(url)
if(length(content)!=length(xpath)){
print("Error:content和xpath向量的数量不一致!")
return
}
#建立一个num_url行,num_vari列的数据框
num_vari<-length(xpath)
result<-data.frame(rep(0,num_url))
for(i in 2:num_vari){
cbind(result,rep(0,num_url))
}
#遍历url向量,依次对相应网页进行抓取
i<-1
j<-1
for(i_url in url){
i_url_parse<-htmlParse(i_url,encoding="UTF-8")#读取url网页数据,并使用htmlParse转化。(xml文件使用xmlParse)
for(j in 1:num_vari){#依次填充一个页面中的不同欲读取的数据值
node<-getNodeSet(i_url_parse,xpath[j])#通过xpath找到相应变量的xpath结点
if(length(node)==0){#未爬取到数据,说明xpath有误
result[i,j]<-NA
print(paste("注意:第",j,"个变量未能在第",i,"个页面中找到,我们会把该数据写为空值"))
}else if(length(node)==1){#爬取到一个数据,说明正常
if(content[j]=="text"){#欲爬取变量的内容
result[i,j]<-xmlValue(node[[1]])
}else{#欲爬取变量的属性
result[i,j]<-xmlGetAttr(node[[1]],content[j])
result[i,j]<-iconv(result[i,j],"UTF-8","gbk")#如果是乱码,可以打开此语句。如果是na可以删除此句
}
}else{#爬取到多个数据,本函数不予处理
result[i,j]<-NA
print(paste("注意:第",j,"个变量能在第",i,"个页面中找到多个,不知您要哪一个,我们会把该数据写为空值"))
}
}
i<-i+1
}
result
}
#****函数:(crawler2)
#****概要:网络抓取的主要函数2,可以抓取n个网页的1个变量。该xpath可以爬取多个数据,(批量抓取)
#****输入:
# 名称 | 数据格式
# url | 欲抓取的网站的url 向量:n个
# xpath | 给出的抓取变量的xpath 向量:1个
# content | 变量是结点的内容还是结点的属性值 向量:1个
# "text"是内容(默认),或者是属性名称
#****输出:只有print,无输出
# 名称 | 含义
# url | 1---n自然数,相同url拥有相同数值
# vari | 读取的数据
crawler2<-function(url,xpath,content="text"){
num_url<-length(url)
result<-data.frame(url=0,vari=0)
i<-1#记录第几个url
tmp<-1#
for(i_url in url){
i_url_parse<-htmlParse(i_url,encoding="UTF-8")#读取url网页数据,并使用htmlParse转化。(xml文件使用xmlParse)
node<-getNodeSet(i_url_parse,xpath)#通过xpath找到相应变量的xpath结点
if(length(node)==0){#未爬取到数据,说明xpath有误
result[tmp,1]<-i
result[tmp,2]<-NA
print(paste("注意:变量未能在第",i,"个页面中找到,我们会把该数据写为空值"))
tmp<-tmp+1
}else{
for(j in 1:length(node)){
result[tmp,1]<-i
if(content=="text"){#欲爬取变量的内容
result[tmp,2]<-xmlValue(node[[j]])
}else{#欲爬取变量的属性
result[tmp,2]<-xmlGetAttr(node[[j]],content)
#result[tmp,2]<-iconv(result[tmp,2],"UTF-8","gbk")#如果是乱码,可以打开此语句。如果是na可以删除此句
}
tmp<-tmp+1
}
}
i<-i+1
}
result
}
#test
#测试crawler1
#测试内容
url1<-"http://3c.taobao.com/detail.htm?spm=872.217037.254698.6.deIiSJ&spuid=205341228&cat=1101"
url2<-"http://3c.taobao.com/detail.htm?spm=872.217037.254698.11.deIiSJ&spuid=203228104&cat=1101"
url3<-"http://item.taobao.com/item.htm?spm=1020.3.9.122.SCNhDn&id=15695321398&from="
url<-c(url1,url2,url3)
xpath<-c("//div[@id='idetail']//div[@class='info-area']//div[@class='tlt clearfix']//h1","//div[@id='idetail']//div[@class='info-area']//div[@class='key-info']//span[@class='price']")
crawler1(url,xpath)
#测试属性值
url<-"http://data.caixin.com/macro/macro_indicator_more.html?id=F0001&cpage=2&pageSize=30&url=macro_indicator_more.html#top";
xpath<-"//meta[@name='keywords']"
content<-"content"
crawler1(url,xpath,content)
#测试crawler2
url<-"http://list.taobao.com/itemlist/bao.htm?spm=567.116925.155171.105.9ZYYMX&cat=50072693&isprepay=1&viewIndex=1&yp4p_page=0&commend=all&atype=b&style=grid&olu=yes&isnew=2&smc=1&mSelect=false&user_type=0&fl=50072693#!cat=50072693&isprepay=1&user_type=0&as=0&viewIndex=1&yp4p_page=0&commend=all&atype=b&style=grid&olu=yes&isnew=2&mSelect=false&smc=1&json=on&tid=0"
xpath<-"//li[@class='list-item list-item-grid']"
content<-"data-commenturl"
crawler2(url1,xpath,content)
#疑难:如何破解data-commenturl="{{item.commendHref}}"
#<li class="list-item list-item-grid" data-isrush="{{item.isLimitPromotion}}" data-ismall="{{item.isMall}}" data-item="{{item.itemId}}" data-#params="sellerId={{item.sellerId}}&ip={{extraInfo.userIp}}" data-comment="{{item.commend}}" data-commenturl="{{item.commendHref}}" data-#virtual="{{item.isVirtual
- 对php多态的理解
- JavaScript值延迟脚本和异步脚本
- JavaScript之arguments.callee
- JavaScript之面向对象学九(原型式继承和寄生式继承)
- ExtJs学习笔记(18)_ExtJs嵌入FCK示例
- Html与CSS快速入门01-基础概念
- 利用Fck的javascript-API创建fck编辑器
- ASPNET_WEBAPI快速学习02
- ExtJs学习笔记(17)_table布局
- Markdown快速入门
- JavaScript之apply()和call()的区别
- JavaScript之面向对象学习八(继承)
- JQuery快速入门
- JavaScript之面向对象学习七(动态原型模式、寄生构造函数模式、稳妥构造函数模式创建自定义类型)
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- php实现根据身份证获取精准年龄
- php 使用ActiveMQ发送消息,与处理消息操作示例
- php使用gearman进行任务分发操作实例详解
- laravel框架select2多选插件初始化默认选中项操作示例
- PHP pthreads v3在centos7平台下的安装与配置操作方法
- laravel框架路由分组,中间件,命名空间,子域名,路由前缀实例分析
- PHP Beanstalkd消息队列的安装与使用方法实例详解
- 解决windows上php xdebug 无法调试的问题
- php7 图形用户界面GUI 开发示例
- Django开发的简易留言板案例详解
- php使用redis的有序集合zset实现延迟队列应用示例
- PHP使用openssl扩展实现加解密方法示例
- php使用redis的几种常见操作方式和用法示例
- 使用memory_profiler监测python代码运行时内存消耗方法
- php 多进程编程父进程的阻塞与非阻塞实例分析