爬虫入门到精通-环境的搭建
时间:2022-05-07
本文章向大家介绍爬虫入门到精通-环境的搭建,主要内容包括IDE的安装、Google浏览器的安装、总结、基本概念、基础应用、原理机制和需要注意的事项等,并结合实例形式分析了其使用技巧,希望通过本文能帮助到大家理解应用这部分内容。
本文章属于爬虫入门到精通系统教程第三讲
IDE的安装
IDE我用的是VS code,也用过pycharm(但是电脑配置不行,比较卡)
VScode安装教程在这https://code.visualstudio.com/docs/setup/setup-overview,写的蛮清楚的
然后安装一个python的插件就行 见如下截图
- 点击数字1的地方
- 在数字2的地方输入python
- 点击python 0.5.8 右边的安装按钮
包的安装
配置pip源,不配置的话下载速度很慢
windows:在当前用户根目录下,创建pip这个文件夹,然后在里面新建一个文件(pip.in) 里面的内容为
[global]
index-url = http://mirrors.aliyun.com/pypi/simple/
[install]
trusted-host=mirrors.aliyun.com
截图如下(我当前用户名为kimga)
linux:在~/.pip/pip.conf文件中添加或修改(内容同上)
包的安装
直接pip install 包的名字 如 pip install requests
依次安装如下4个包
- requests
- lxml
- ipython
- jupyter
如果发现报错的话,
- ubuntu用apt-get install python-包名
- 如 apt-get install python-lxml
- windows 在Unofficial Windows Binaries for Python Extension Packages 这个网站上手动下载然后安装(这个网站有各种python windows扩展包,pip install 报错的话,就可以到这个网站上下载安装)
windows下pip install lxml 很少能安装成功。。。
那我们怎么做呢?
- 打开http://www.lfd.uci.edu/~gohlke/pythonlibs/这个网址
- ctrl+ F,然后在搜索框内输入lxml
- 找到与你系统版本相同的包,下载
- 我的python版本是2.7,系统是64位的,所以我选择 lxml‑3.7.3‑cp27‑cp27m‑win_amd64.whl
- 下载完成后在你下载的目录下打开cmd命令行
- 这边有个小技巧是,找到你下载的目录后,按住shift不放,然后空白处右键,会多出来一个在此处打开命令窗口,不用再慢慢的cd过来
- 然后pip install 你刚下载的文件,发现就安装成功了
Google浏览器的安装
在http://rj.baidu.com/soft/detail/14744.html?ald下载
记得点普通下载(要不然有可能会收获百度全家桶一份)
下载完正常安装就行
安装可以更换浏览器头的插件
- 打开 http://chrome-extension-downloader.com/这个网页
- 在输入框内输入 extension ID ffhkkpnppgnfaobgihpdblnhmmbodake
- 点击下载
- 下载完成后,打开Google浏览器,在地址栏输入chrome://extensions/
- 把刚刚下载的文件拖进去进行
最终效果见下图
总结
看完本篇文章后,你应该要
- 有一个自己熟悉的python IDE
- Python配置国内源
- 能安装python包
- 有安装Google浏览器
- 有可以更换浏览器头的插件
最后,因为后续实战我基本上都是用Jupyter notebook来写调试的,所以请阅读以下两篇文章,能大概了解Jupyter notebook
Jupyter Notebook快速入门(上)
http://codingpy.com/article/getting-started-with-jupyter-notebook-part-1/
Jupyter Notebook快速入门(下)
http://codingpy.com/article/getting-started-with-jupyter-notebook-part-2/
- Android Fragment完全解析
- Centos下堡垒机Jumpserver V3.0环境部署完整记录(2)-配置篇
- Flash/Flex学习笔记(53):利用FMS快速创建一个文本聊天室
- 28家银行用户体验调研报告:洞见银行业的“进化论”
- 性能计数器数据收集服务
- SQL SERVER 内存分配及常见内存问题 DMV查询
- 6 利用Docker .NET应用程序模板制作您的容器应用程序(第2部分)
- Mesos+Zookeeper+Marathon的Docker管理平台部署记录(1)
- git review报错一例
- Nginx采用https加密访问后出现的问题
- 对比git rm和rm的使用区别
- Gerrit日常操作命令收集
- 轻型的ORM类Dapper
- [原创]Gerrit中文乱码问题解决方案分享
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Head First设计模式——装饰者模式
- spring security oauth2 资源服务器WebAsyncTask/DeferredResult接口调用报错InsufficientAuthenticationException
- Head First设计模式——简单工厂、工厂、抽象工厂
- Golang | 简介channel常见用法,完成goroutin通信
- Head First设计模式——单例模式
- 【日拱一卒】链表——两个有序的链表合并
- Head First设计模式——命令模式
- Flask表单之WTForms和flask-wtf
- Head First设计模式——适配器和外观模式
- 「2020最新」Spring最易学习教程 4—整合Mybatis 事务控制
- Head First设计模式——模板方法模式
- Head First设计模式——迭代器模式
- PR工具自带的电源网络分析功能靠谱吗?
- flask_admin使用教程
- C#使用FtpWebRequest 基础连接已经关闭:连接被意外关闭(The underlying connection was closed:The connection was closed u