爬虫日记-html的遍历
时间:2019-08-23
本文章向大家介绍爬虫日记-html的遍历,主要包括爬虫日记-html的遍历使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
基于bs4库的HTML遍历方法
标签树的下行遍历
来手打栗子,依然是用上一节的demo
import requests
from bs4 import BeautifulSoup
r=requests.get('https://python123.io/ws/demo.html')
demo=r.text
soup = BeautifulSoup(demo,'html.parser')
print(soup.prettify())
contents打印出了所有子标签,存在列表里展示
也可以通过索引取值。
标签树的上行遍历
html已经是html的最高级标签了,没有父标签,所以他的父标签就是它本身。
因为 soup的父节点没有,所以返回了一个空
标签树的上行遍历
这里拿出了一个parents,注意不是parent,所以这里是以上所有的父标签,放入一个列表之中,就可以迭代了,他就会每次都输出一个父标签的名字了。
标签树的平行遍历
需要注意的是,平行遍历只发生在同一个父亲节点之下,若是另一个节点之下的标签,是不算他的平行节点的。
最后一个打印结果为None,因为他的上上个已经没有平行节点了,所以为空。
这个平行遍历就不多讲了。就是这样实现的,和遍历父节点是一个原理。
这就是今天的总结图
原文地址:https://www.cnblogs.com/chanyuli/p/11403043.html
- 删除链表中的重复元素
- Single Number and Single Number II
- 前端限制上传文件的类型
- JavaSript模块规范 - AMD规范与CMD规范介绍
- [大数据之Sqoop] —— Sqoop初探
- [大数据之Sqoop] —— 什么是Sqoop?
- Node.js包管理器Yarn的入门介绍与安装
- static_cast ,reinterpret_cast
- NodeJS使用formidable实现文件上传
- 签下北方最大港口,聚焦无人驾驶卡车技术的主线科技朝商业化又进一步
- 对缓存的思考——提高命中率
- 实用手册:130+ 提高开发效率的 vim 常用命令
- Sqoop切分数据的思想概况
- 设计模式分类
- HTML 教程
- HTML 简介
- html div 标签介绍
- html span 标签介绍
- html a 超链接标签
- HTML Br换行标签介绍
- HTML P段落标签介绍
- HTML br与p标签区别
- Html H 标题标签
- html px em pt长度单位
- HTML form 标签
- HTML radio 单选框
- HTML B 加粗标签
- HTML strong加粗粗体标签
- HTML em 强调标签
- HTML i 斜体标签
- HTML u下划线标签
- HTML s 删除线标签
- Html img 图片标签
- Html上标注sup与下标注sub标签
- HTML nobr 禁止换行标签
- HTML hr 水平线标签
- HTML label 标签
- HTML input 标签
- HTML textarea 标签
- HTML select下拉列表标签
- HTML checkbox 多选框
- HTML font color 标签
- HTML iframe 框架标签
- HTML Table 表格
- HTML dl dt dd 标签
- HTML ol li有序列表标签
- HTML ul li 无序列表标签
- HTML 注释
- CSS 教程
- CSS 简介
- CSS 语法
- CSS Id 和 Class选择器
- CSS 样式的创建
- CSS background 背景介绍
- CSS 文本样式
- CSS font 字体
- CSS A 链接
- CSS ul ol列表样式
- CSS TABLE 样式
- CSS 框模型
- CSS border 边框
- CSS Outlines 轮廓
- CSS 外边距 Margin
- CSS Padding 内边距
- CSS 分组和嵌套选择器
- CSS 尺寸 (Dimension)
- CSS Display 属性
- CSS Position 定位
- CSS Float 浮动
- CSS 水平对齐(Horizontal Align)
- CSS 组合选择符
- CSS 伪类
- CSS 伪元素
- CSS 导航栏
- CSS 下拉菜单
- CSS 图片廊
- CSS 图像透明/不透明
- CSS sprite 图像拼合技术
- CSS 媒体类型
- CSS 属性选择器
- CSS 实例
- Kubectl 备忘录
- 手把手教你移动端AI应用开发(二)——将AI模型集成到安卓应用中
- Kubernetes v1.19.0 正式发布!
- 七夕节脱单“神助攻”!AI教你写情话
- 手把手教你移动端AI应用开发(三)——部署环节关键代码最详解读
- 一次完整的JVM堆外内存泄漏故障排查记录
- Python 爬虫进阶必备 | 某视频数据分析平台加密参数分析(终于我还是手把手扣了代码)
- Python 爬虫进阶必备 | 某视频平台 sign 加密参数分析
- 进击吧!Pythonista(3/100)
- begin backup导致的故障恢复全过程
- 通过历史控制文件恢复Oracle数据库,只需这10步
- python应用(2):写个python程序给自己用
- 基于Prometheus+Grafana监控SQL Server数据库
- 手把手教你用R语言读取CSV文件
- 6个案例手把手教你用Python和OpenCV进行图像处理