简单使用phpspider采集本博客文章内容
时间:2019-03-28
本文章向大家介绍简单使用phpspider采集本博客文章内容,主要包括简单使用phpspider采集本博客文章内容使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
采集流程
根据链接获取页面内容(curl)->获取需要采集的内容(可以通过正则、xpath、css选择器等方法进行筛选)
<?php require_once 'phpspider/autoloader.php'; use phpspider\core\phpspider; use phpspider\core\requests; use phpspider\core\selector; /* Do NOT delete this comment */ /* 不要删除这段注释 */ requests::$input_encoding = 'GB2312'; requests::$output_encoding = 'GB2312'; //获取博客文章列表的文章url for($i=1;$i<=10;$i++){ $url = "https://www.cnblogs.com/jcydd/default.html?page=".$i; $html = requests::get($url); //var_dump($html); $selector = "/<a\sid=\"homepage1_HomePageDays_DaysList_ctl0\d_DayList_TitleUrl_\d\"\sclass=\"postTitle2\"\shref=\"(.*)\">/"; $result[] = selector::select($html, $selector,'regex'); } //var_dump($result); //根据url循环获取文章标题和内容 foreach($result as $k=> $v){ foreach($v as $kk=>$vv){ $html1 = requests::get($vv); //var_dump($html1); //获取文章标题,正则表达式前后要加上@,我也不知道为什么 $selector1 = "@<a\sid=\"cb_post_title_url\"\s(?:.)+?>(.*)</a>@"; $result1 = selector::select($html1, $selector1,'regex'); //var_dump($result1); //文章内容正则有点问题,有些内容获取不到 $selector2 = "@<div\sid=\"cnblogs_post_body\"\sclass=\"blogpost-body\">((.|\n)*)<div\sid=\"MySignature\">@"; $result2 = selector::select($html1, $selector2,'regex'); //var_dump($result2); //去除文章内容里的html标签 $result2=preg_replace('/<[^<]*>/',"",$result2); //写入文件 $myfile = fopen("f".$k.$kk.".txt", "w") or die("Unable to open file!"); fwrite($myfile, $result1); fwrite($myfile,"\r\n"); foreach($result2 as $vvv){ fwrite($myfile, $vvv); } fclose($myfile); } }
- php概述
- php教程
- php环境搭建
- PHP书写格式
- php变量
- php常量
- PHP注释
- php数组
- php字符串 string
- PHP整型 integer
- PHP浮点型 float
- php布尔型
- php数据类型之数组
- php数据类型之对象
- php数据类型之null
- php数据类型之间的转换
- php运算符
- php表达式
- PHP循环控制
- PHP流程控制
- php函数
- php全局变量
- PHP魔术变量
- php命名空间
- php 日期
- PHP包含文件
- php文件
- PHP 文件上传
- php Cookies
- php Sessions
- php email
- php安全email
- php错误处理
- PHP异常处理
- php过滤器
- PHP 高级过滤器
- php json
- php 表单
- PHP MySQL 简介
- PHP 连接 MySQL
- php创建数据库
- php 创建表
- php mysq 插入数据
- PHP MySQL 插入多条数据
- PHP MySQL 预处理语句
- php mysql 读取数据
- php mysql where
- PHP MySQL Order By
- PHP MySQL Update
- PHP MySQL Delete
- php ODBC