Python爬虫(九)_非结构化数据与结构化数据
时间:2022-04-22
本文章向大家介绍Python爬虫(九)_非结构化数据与结构化数据,主要内容包括页面解析与数据提取、非结构化的数据处理、结构化的数据处理、基本概念、基础应用、原理机制和需要注意的事项等,并结合实例形式分析了其使用技巧,希望通过本文能帮助到大家理解应用这部分内容。
爬虫的一个重要步骤就是页面解析与数据提取。更多内容请参考:Python学习指南
页面解析与数据提取
实际上爬虫一共就四个主要步骤:
- 定(要知道你准备在哪个范围或者网站去搜索)
- 爬(将所有的网站的内容全部爬下来)
- 取(分析数据,去掉对我们没用处的数据)
- 存(按照我们想要的方式存储和使用)
- 表(可以根据数据的类型通过一些图标展示)
以前学的就是如何从网站去爬数据,而爬下来的数据却没做分析,现在,就开始对数据做一些分析。
数据,可分为非结构化数据
和结构化数据
- 非结构化数据:先有数据,再有结构
- 结构化数据:先有结构,再有数据
- 不同类型的数据,我们需要采用不同的方式来处理
非结构化的数据处理
文本、电话号码、邮箱地址
- 正则表达式Python正则表达式
HTML文件
- 正则表达式
- XPath
- CSS选择器
结构化的数据处理
JSON文件
- JSON Path
- 转化为Python类型进行操作(json类)
XML文件
- 转化为Python类型(xmltodict)
- XPath
- CSS选择器
- 正则表达式
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 产品级垃圾文本分类器
- 突发!Windows XP 源码泄露!
- GitHub 神器:写代码、搜问题,全部都在「终端」完成!
- Redis系列:单机主从模式搭建
- Python 爬取链家成都二手房源信息 asyncio + aiohttp 异步爬虫实战
- 10 个冷门但又非常实用的 Docker 使用技巧!
- 利用 Shell 脚本实现邮件监控 Linux 系统的内存
- 拥有此神技,脚本调试从此与 echo、set、test 说分手!
- 很少用到,但掏出来让人感到牛逼的Web API
- 突击并发编程JUC系列-并发工具 CountDownLatch
- 推出 TF Lite Task Library 接口,简化 ML移动端开发流程
- 排序算法之我观
- 线性筛素数(探索中的不断优化)
- 麦森数
- 5款工具,让你轻松创建并分享优美的项目源码