Phantomjs+Nodejs+Mysql数据抓取(1.数据抓取)
概要: 这篇博文主要讲一下如何使用Phantomjs进行数据抓取,这里面抓的网站是太平洋电脑网估价的内容。主要是对电脑笔记本以及他们的属性进行抓取,然后在使用nodejs进行下载图片和插入数据库操作。
先进行所有页面的内容进行抓取
var page =require('webpage').create();
var address='http://product.pconline.com.cn/server/';
var fs = require('fs');
var mypath = 'version/server/server.txt';
var count = 2;
var pageSize=0;
phantom.outputEncoding="gbk";
page.settings.userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko";
function loadController(status){
loadComputerList(address);
}
function loadComputerList(url){
console.log('loading '+url);
page.onLoadFinished = function loadListsucc(status){
console.log("loadlistSucc ["+url+"] =======================Status:"+status);
};
page.open(url,function(status){
setTimeout(function(){
console.log(status);
var content='';
content = page.evaluate(function(){
var cont='';
var listComputer = document.querySelectorAll('div.item-title>h3>a');
var listPrice =document.querySelectorAll('div.price');
for(var j=0;jvar computer = listComputer[j].innerText;
var price = listPrice[j].innerText;
var url = listComputer[j];
cont += computer+'tt价格:'+price+','+url+'rn';
}
return cont;
});
console.log(content);
console.log('========== write to file !============');
try{
fs.write(mypath, content, 'a');
}catch(e){
console.log(e);
}
console.log('========== begin loading next page!============');
var nextUrl = page.evaluate(function(){
var url = '';
var next = document.querySelectorAll('div.pager a[class=page-next]');
var cont = '';
url = next[0];
cont += url;
return cont;
});
console.log(nextUrl);
if(count else{
console.log(count);
phantom.exit();
}
}, 100);
});
}
page.open(address,function(status){
// page.onLoadFinished = loadController;
page.render('computer.jpeg');
pageSize = page.evaluate(function(){
var cont='';
var size =document.querySelector('div.pager>em>i').innerText;
cont += size;
return cont;
});
console.log(pageSize);
loadController(status);
});
上面部分代码可以直接抓取到
http://product.pconline.com.cn/server/
这个页面中所有分页的信息
下面进行代码分析:
page.open(address,function(status){
// page.onLoadFinished = loadController;
page.render('computer.jpeg');
pageSize = page.evaluate(function(){
var cont='';
var size =document.querySelector('div.pager>em>i').innerText;
cont += size;
return cont;
});
console.log(pageSize);
loadController(status);
});
这部分代码是Phantomjs的入口,也是我们进行数据抓取的开始部分。
var size =document.querySelector('div.pager>em>i').innerText;
这里抓到的信息是所有页面的页数,用来作为循环判断的次数依据
然后观察代码就可以发现从入口结束之后就跳转到了LoadContriller函数中去,然后再调用loadComputerList这个函数,然后就可以进行数据抓取了
我们再看一下
var listComputer = document.querySelectorAll('div.item-title>h3>a');
var listPrice =document.querySelectorAll('div.price');
这两段代码,就是我们要抓取的电脑URL以及价格的信息。 再抓到我们想要的信息之后,我们再对其进行拼接
for(var j=0;jlistComputer.length;j++){
var computer = listComputer[j].innerText;
var price = listPrice[j].innerText;
var url = listComputer[j];
cont += computer+'tt价格:'+price+','+url+'rn';
}
然后获得一行具有基本信息的电脑属性。 然后接下来的工作就是要把这些信息进行存储,我们这里因为不能直接存入数据库,所以要先存入文本中,代码如下:
var fs = require('fs');
try{
fs.write(mypath, content, 'a');
}catch(e){
console.log(e);
}
再PhantomJS中有API种有相应的读写文件讲解,这里就不多说了,上述代码就是在请求获得之后,将我们拼接好的内容写入文件中,采用的方式是’a’是添加的意思
经过上述过程,我们已经能够将第一个页面中的所有基本信息抓下来了,接下来的问题就是我们该如何跳转到下一个页面中,去抓取接下来的内容
代码如下:
var nextUrl = page.evaluate(function(){
var url = '';
var next = document.querySelectorAll('div.pager a[class=page-next]');
var cont = '';
url = next[0];
cont += url;
return cont;
});
console.log(nextUrl);
if(count console.log(nextUrl);
count++;
console.log(count);
loadComputerList(nextUrl);
}else{
console.log(count);
phantom.exit();
}
这里面获取下一个页面Url用到的js语句是:
var next = document.querySelectorAll('div.pager a[class=page-next]');
朋友们可以使用开发者工具去该网站中看一下点击下一页按钮对应的dom节点是什么,然后就明白这段代码的含义了
再这里面,我们获取了下一页的按钮之后,还需要进行判断现在的循环次数,由于下一页的按钮是一直存在的,我们并不能通过判断是否为空来结束任务,所以我这里用了一个比较蠢得办法来解决这个问题。
抓取所有页面的内容就基本上完成了,这段脚本代码比较简单,如果需要抓同一个网站,只需要修改两部分就可以了,一个是address这个入口,还有就是写文件的路径。
抓取详细信息
再上面我们已经抓到了一些基本信息了,但是页面中并没有为我们提供比如电脑cpu,内存,显卡这些内容,所以我们的抓取工作并没有完成。那么接下来的工作就是要通过我们刚才有抓到的url进入到电脑商品的详细信息页面中去,然后再抓下我们所需要的详细信息。 代码如下:
var page =require('webpage').create();
var address='http://product.pconline.com.cn/server/';
var fs = require('fs');
var mypath='version/Server/server_page.txt';
var stream = null;
var steams = null;
var K=1;
var line ='';
var cate ='';
var url = '';
var dragPath='version/Server/server_detail.txt';
phantom.outputEncoding="gbk";
page.settings.userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko";
function start(url){
console.log(url);
page.open(url,function(status){
setTimeout(function(){
if(status == 'success'){
console.log('open success!');
console.log('==========begin work!=============');
stream = page.evaluate(function(){
var name = document.querySelector('.pro-tit>h1').innerText;
name = name.replace('参数','');
var listComputer = document.querySelectorAll('div.pannel>ul .title');
var listParameter = document.querySelectorAll('[itemid]');
var price = document.querySelector('.r-price').innerText;
price = price.replace(/n/g,'');
var cont= name+'|&|'+price+'|&|产品特性:';
for(var j=0;jvar computer = listComputer[j].innerText;
computer = computer.replace(' ','');
cont += computer+' ';
}
for( var j = 0;jvar parameter = listParameter[j].innerText;
parameter = parameter.replace(/n/g,'');
parameter = parameter.replace('t',' ');
if(j1){
cont += parameter+"|&|";
}else{
cont += parameter+'';
}
}
return cont+'rn';
});
try{
fs.write(dragPath, stream, 'a');
}catch(e){
console.log(e);
}
console.log(stream);
}else{
console.log('page open fail!');
}
before();
}, 100);
});
}
function readFile(status){
streams = fs.open(mypath,'r');
before();
}
function before(){
console.log('=========work in befor==========='+K);
K++;
if(!streams.atEnd()){
console.log('=========work in befor get Next Line===========');
line = streams.readLine();
cate = line.split(',');
console.log(cate[1]);
var pcUrl = cate[1].replace('.html','_detail.html');
console.log(pcUrl);
start(pcUrl);
}else{
console.log('end!!!!!!!!!!!!');
phantom.exit();
}
}
page.open(address,function(status){
readFile(status);
})
我们继续来分析下代码,Phantomjs的开始入口我们就不讲了,每次启动phantomjs都是由这个入口开始,然后再到我们想要的操作中去。
function readFile(status){
streams = fs.open(mypath,'r');
before();
}
这里我们成功打开文件,并且把文件中的内容缓存到了streams中去,这里设置的是全局变量,所以直接跳到before这个函数中去
function before(){
console.log('=========work in befor==========='+K);
K++;
if(!streams.atEnd()){
console.log('=========work in befor get Next Line===========');
line = streams.readLine();
cate = line.split(',');
console.log(cate[1]);
var pcUrl = cate[1].replace('.html','_detail.html');
console.log(pcUrl);
start(pcUrl);
}else{
console.log('end!!!!!!!!!!!!');
phantom.exit();
}
}
这里面进行的操作主要是在抓文件前,我们需要对我们刚才读进来的内容进行分析,比如:
line = streams.readLine();
cate = line.split(',');
var pcUrl = cate[1].replace('.html','_detail.html');
这三部分,首先就是实现了逐行读取的功能,将每一行的内容读出来,然后通过分隔符获得Url,这里由于我们获得的url并不是我们要的详细信息url,所以我们要进行拼接。
http://product.pconline.com.cn/server/lenovo/514943.html
http://product.pconline.com.cn/server/lenovo/514943_detail.html
这里提供两段实例,读者可以进去看一下,就明白我们为什么要这么拼接url了
stream = page.evaluate(function(){
var name = document.querySelector('.pro-tit>h1').innerText;
name = name.replace('参数','');
var listComputer = document.querySelectorAll('div.pannel>ul .title');
var listParameter = document.querySelectorAll('[itemid]');
var price = document.querySelector('.r-price').innerText;
price = price.replace(/n/g,'');
var cont= name+'|&|'+price+'|&|产品特性:';
for(var j=0;jvar computer = listComputer[j].innerText;
computer = computer.replace(' ','');
这部分代码就是我们要获取详细信息的代码了,读者可以研究一下,其实原理就是找到节点,然后取出来,进行拼接,最后获得一个详细的信息,实例:
联想ThinkServer TS130 S1225/2G/500O|&|¥5417|&|产品特性:产品型号 TS130 S1225/2G/500O|&|产品类型 塔式|&|产品结构 4U|&|CPU系列 至强处理器E3系列,Intel|&|CPU核心 四核|&|总线规格 DMI 5GT/s|&|CPU型号 E3-1225|&|CPU主频 3.1GHz|&|三级缓存 6M|&|标配CPU数目 1个|&|主板插槽 1×PCIE 2.0 x161×PCIE 2.0 x12×PCI 32/33|&|内存类型 DDR3|&|标配内存 2G|&|最大内存容量 32G|&|硬盘接口类型 SATAⅢ|&|标配硬盘 500G|&|最大硬盘容量 4TB|&|硬盘转速 7200转|&|硬盘阵列 Raid 0,Raid 1|&|光驱 DVD-ROM光驱|&|显示芯片 集成显卡|&|网卡 双端口千兆网卡|&|工作环境 工作温度:10℃-35℃,工作湿度:10%-80%|&|存储环境 储存温度:-40℃-70℃,储存湿度:10%-90%|&|电源 1个80PLUS单电源|&|最大功率 280W|&|操作系统 Windows 2003 R2 SP2简体中文标准版(32位/64位) Windows 2003 R2 SP2简体中文企业版(32位/64位)Windows Server 2008 简体中文基础版(64位) Windows Server 2008 简体中文标准版(32位/64位)Windows Server 2008 简体中文企业版(32位/64位)Windows Server 2008 R2 简体中文基础版(64位)Windows Server 2008 R2 简体中文标准版(64位) Windows Server 2008 R2 简体中文企业版(64位) Windows Small Business Server 2011 Essential Windows XP 简体中文专业版,SP2Windows Vista Business 简体中文商业版Windows 7简体中文专业版(32位/64位)Windows 7简体中文旗舰版(32位/64位)|&|尺寸 406×377×174mm
上面这部分就是我们获取到的详细的电脑信息内容,然后再拼接完信息之后,我们要做的就是写入文件中去,这里和上面是相似的,我就不重复了。
- python爬取百度新闻:分析共享单车火爆背后有哪些规则?
- Python爬虫(urllib2+bs4)数据采集:分析找出百度贴吧谁是水贴王
- 学界 | OpenAI 发布稀疏计算内核,更宽更深的网络,一样的计算开销
- 【手把手教你做项目】自然语言处理:单词抽取/统计
- Kaggle赛题解析:逻辑回归预测模型实现
- R语言 使用BP神经网络进行银行客户信用评估
- 使用R语言挖掘QQ群聊天记录
- 解析滴滴算法大赛---GBDT进行数据预测
- 数据迁移中的数据库检查和建议(r2笔记71天)
- 决策树案例:基于python的商品购买能力预测系统
- 数据迁移前的准备和系统检查 (r2笔记70天)
- 数据处理的统计学习(scikit-learn教程)
- 机器学习实战,使用朴素贝叶斯来做情感分析
- Python NLTK 处理原始文本
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 大文件分割、命名脚本 - Python
- adb常用命令总结
- Cypress执行测试并邮寄发送测试报告
- 重拾前端技能为你的职业前程保驾护航
- 检查图片是否损坏、图片后缀是否与实际图片类型对应 - Python
- 规则引擎 - drools 使用讲解(简单版) - Java
- Python奇技淫巧 - 持续更新中....
- 150+行Python代码实现带界面的数独游戏
- Python实现十大经典排序算法
- 140行Python代码实现Flippy Bird
- 200行Python代码实现贪吃蛇
- 简单说维特比算法 - python实现
- Android绘图及Bitmap几个知识点整理
- Spark Pipeline官方文档
- Python-时间及日期-07-获取本周或上周几具体日期