百度热点爬取
时间:2020-04-11
本文章向大家介绍百度热点爬取,主要包括百度热点爬取使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
一、分析爬取的网址
f12不难找到排行版对应的区域,发现每个标题的各个元素是一个个td被包装在
一个tr标签里面,每一个标题都是一个tr。我们要获取的关键信息有排名,关键词,
搜索指数。
排名 :第一个td class=''first'
关键词:第二个td class = 'keyword'
搜索指数:最后一个td class = 'last'
二、思路:
分析网址,上面已经做完,找到数据所在地,切片,获取值,然后格式化的输出就可以
代码如下:
import requests from bs4 import BeautifulSoup import bs4 def get_html(url,headers): r = requests.get(url,headers = headers) r.encoding = r.apparent_encoding return r.text def get_pages(html): soup = BeautifulSoup(html,'html.parser') all_=soup.find_all('tr')[1:] #切片,寻找数据 for each_topic in all_: rank = each_topic.find('td', class_='first') # 排名 name = each_topic.find('td', class_='keyword') # 标题 times = each_topic.find('td', class_='last') #搜索指数 if rank != None and name!=None and times!= None: rank = each_topic.find('td',class_='first').get_text().replace(' ','').replace('\n','') name = each_topic.find('td',class_='keyword').get_text().replace(' ','').replace('\n','') times = each_topic.find('td',class_='last').get_text().replace(' ','').replace('\n','') tplt = "排名:{0:^4}\t标题:{1:{3}^15}\t热度:{2:^8}" print(tplt.format(rank,name,times,chr(12288))) def main(): url = 'http://top.baidu.com/buzz?b=1&fr=20811' headers= {'User-Agent':'Mozilla/5.0'} html = get_html(url,headers) get_pages(html) if __name__=='__main__': main()
原文地址:https://www.cnblogs.com/xp-thebest/p/12679062.html
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 一天一大 lee(扫雷游戏)难度:中等-Day20200820
- 一天一大 lee(重新安排行程)难度:中等-Day20200827
- 一天一大 lee(机器人能否返回原点)难度:简单-Day20200828
- 一天一大 lee(有序链表转换二叉搜索树)难度:中等-Day20200818
- 一天一大 lee(钥匙和房间)难度:中等-Day20200831
- 一天一大 lee(最短回文串)难度:困难-Day20200829
- 一天一大 lee(预测赢家)难度:中等-Day20200901
- 一天一大 lee(反转字符串中的单词 III)难度:简单-Day20200830
- 一天一大 lee(平衡二叉树)难度:简单-Day20200817
- 一天一大 lee(组合总和)难度:中等-Day20200909
- 一天一大 lee(回文子串)难度:中等-Day20200819
- 一天一大 lee(组合)难度:中等-Day20200908
- es6学习笔记
- 一天一大 lee(图像渲染)难度:简单-Day20200816
- 一天一大 lee(前 K 个高频元素)难度:中等-Day20200907