新网站 Robots 和 SiteMap 优化
新网站 Robots 和 SiteMap 优化
什么是Robots
robots.txt是网站管理者写给爬虫的一封信,里面描述了网站管理者不希望爬虫做的事,比如:
不要访问某个文件、文件夹 禁止某些爬虫的访问 限制爬虫访问网站的频率
一个自觉且善意的爬虫,应该在抓取网页之前,先阅读robots.txt,了解并执行网站管理者制定的爬虫规则。
也就是说 对于爬虫来说,爬取你的个人网站,第一件事是读取你的robots.txt
文件
格式
User-agent: 爬虫的名称 Disallow: 不允许爬虫访问的地址 Allow: 允许爬虫访问的地址 若User-agent是*,则表示对象是所有爬虫。
Disallow和Allow后面跟的是地址,地址的描述格式符合正则表达式(regex)的规则。因此可以在python中使用正则表达式来筛选出可以访问的地址。
那么我们就可以规定robots中的内容了
User-agent: * # 注意这里指的是 针对所有的搜索引擎
Disallow: /assets/* # 这里是针对爬虫 不允许访问的目录
# 以下是 网站地图 告诉爬虫 那些页面可以爬 提高网站的收录率
Sitemap: https://www.arcinbj.com/sitemap.xml
Sitemap: https://www.arcinbj.com/sitemap.txt
推荐Robots一键生成工具
http://tool.chinaz.com/robots/
什么是SiteMap
我们都知道百度地图是用来方便人们出行的,同样的道理,网站地图是用来方便搜索引擎蜘蛛出行的。 网站地图就是一个包含网站大量页面链接的聚合页面,一般的中小型网站地图比较简单,就是全站链接的集合页。但在制作大中型网站的网站地图通常会有链接等级机构,层次分明。
很多人可能会问,为什么要网站地图? 因为在网站不断的内容更新维护中,会产生大量的页面链接,链接结构也会越来越复杂。
搜索引擎面对不同网站的抓取速度是不一样的,一般针对低权重的网站,抓取速度越慢,如果依靠自然抓取的话,抓取到深层次的链接是非常慢的,周期太长,不适合做SEO优化。
因此,网站地图就诞生了,网站地图包含了网站所有重要链接或者需要向搜索引擎展示的链接。网站地图一般存放在根目录下并命名为sitemap,常见的有两种格式:sitemap.xml、sitemap.html。
一般站长们会在robots协议文件中加入网站地图的路径,因为robots协议文件是蜘蛛访问网站第一个访问的文件。这样做也会加快搜索引擎对网站的抓取周期。
sitemap.txt 规范
- 一行一个网站链接
- 新连接倒序放置
sitemap.xml 规范
- xml格式 一对标签一个网站
- 新连接倒序放置
- xml中
priority
为网站爬取权重,告诉爬虫优先爬哪个
推荐SiteMap一键生成工具
http://tools.bugscaner.com/sitemapspider
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 玩转 PhpStorm 系列(十):代码调试篇(下)
- STM32字符串转整数
- Java常用设计模式--代理模式(Proxy Pattern)
- 详解爬取搜狐号自媒体的所有文章
- 笑了,面试官问我知不知道异步编程的Future。
- ES6之let和const命令
- [Python] 豆瓣自动回帖、顶帖源码
- 基于OpenMV的人脸识别,支持人脸注册、人脸检测、人脸识别
- FatFs检测并建立多层目录并更改文件名
- Docker安装harbor仓库、更改端口、跨服务器访问
- 字符串处理算法题 -> 替换空格
- 简单二分法查找
- 链表之Python与C
- Python MQTT
- 从键盘输入一个十进制个位数,在屏幕上显示相应数量的该数。 例如,输入3,屏幕上将显示“333”。