ES对磁盘的要求都有哪些,大部分你可能不知道
写在前面
有一个问题被关注的比较少,就是ES对本地磁盘的占用情况。有人可能觉得这个问题的答案显而易见,不就是ES软件本身占用的空间,还有索引数据持久化占用的磁盘空间,另外就是一些日志了。
事实上,关于ES占用磁盘空间的问题远比这个要复杂的多。本篇文章就想聚焦这个问题,深入ES的底层原理来分析磁盘的占用情况。
正文
是否执行分析
首先对于一个索引,其中的字段在写入是,写入分析对磁盘是有影响的。那么什么是写入分析? 当我们index一个文档时,如果不指定分析器,默认使用的是standard
,可以做个测试,看下默认的分析器执行的结果。
GET /_analyze
{
"analyzer": "standard",
"text": "Text to analyze"
}
我们可以为字段单独指定analyzed
或者 not_analyzed
, 比如:
PUT /my_index
{
"mappings": {
"my_type": {
"properties": {
"status_code": {
"type": "string",
"index": "not_analyzed"
}
}
}
}
}
- not_analyzed:将字段的原始值放入索引中,作为一个独立的term,它是除string字段以外的所有字段的默认值。
- analyzed:string字段的默认值,会先进行分析后,再把分析的term结果存入索引中。
分析的目的主要是为了建立倒排索引,进行全文检索分析。如果没有这个需求可以关掉。
_all字段和_source字段
很多时候,我们查询文档会发现返回的结果里,带有一个_source
字段,里面是全部字段的内容。_source
字段默认是存储的,这个会占用磁盘空间。
什么情况下不用保留 _source
字段?比如如果某个字段内容非常多,我们的业务场景只需要能对该字段进行搜索,可以考虑关闭 _source
字段,我们搜索到文档id后,再通过文档id去数据库拿到这个字段的内容。这样可以节省很多空间。如何关闭呢?
PUT my-index-000001
{
"mappings": {
"_source": {
"enabled": false
}
}
}
_all
字段默认是关闭的,如果要开启_all
字段,索引就更大,占用磁盘空间当然就更大。_all
字段开启适用于不指定搜索某一个字段,根据关键词,搜索整个文档内容。
Doc values
Doc Values 通过序列化把数据结构持久化到磁盘,我们可以充分利用操作系统的内存,而不是 JVM 的 Heap 。
Doc Values 默认对所有字段启用,除了 analyzed strings。也就是说所有的数字、地理坐标、日期、IP 和不分析( not_analyzed )字符类型都会默认开启。
Doc Values的作用是开启的字段可以支持排序,聚合等能力,如果业务场景确定不需要这样的能力可以显示的把这个功能禁掉,从而节省磁盘空间。
PUT my_index
{
"mappings": {
"my_type": {
"properties": {
"session_id": {
"type": "string",
"index": "not_analyzed",
"doc_values": false
}
}
}
}
}
副本机制
这个其实不用多说。ES的副本分片机制,目的是实现高可用,但是牺牲了空间。每个副本其实都是主分片的完整拷贝,在文档数量非常大的时候,这个对磁盘的占用是相当可观的。
测试对比
看上图,从上往下看,磁盘占用基本是一直在减少。很直观的看出上面讲的那些因素对ES磁盘的占用影响。
参考:
- https://www.elastic.co/cn/blog/elasticsearch-storage-the-true-story
END
- 图书管理系统【总结】
- JDBC【PreparedStatment、批处理、处理二进制、自动主键、调用存储过程、函数】
- JDBC【事务、元数据、改造JDBC工具类】
- JDBC【数据库连接池、DbUtils框架、分页】
- HTTP常见面试题
- Java基础-18(01)总结Map,HashMap,HashMap与Hashtable区别,Collections工具类
- 一个oracle查询引起的bug (r4笔记第59天)
- Java基础-18(02)总结Map,HashMap,HashMap与Hashtable区别,Collections工具类
- 特殊的物化视图刷新 (r4笔记第77天)
- 通过单例模式模拟RAC连接 (r4笔记第76天)
- 网站上的验证码是怎么产生的?
- Java基础-17(01)总结,登录注册案例,Set集合,HashSet
- mongoDB初探第一篇(r4笔记第75天)
- 重温快速排序(r4笔记第73天)
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- php is_dir 判断是否存在这目录
- php strtoupper 和 array_change_key_case 字符串转大写,小写
- php register_shutdown_function响应error 配合error_get_last 捕获错误
- C# 实现Winform全屏后不遮挡任务栏,显示任务栏
- [TP5填坑]关于助手函数input一不小心取不到get值的解决办法
- 关于nginx为站点绑定域名以及绑定多个域名
- PBMC or 全血,应该选哪个?
- 关于thinkphp5的报错 "mkdir() Permission denied"的解决
- 不同步节点在线使用Remix开发以太坊Dapp及solidity学习入门 ( 一 ):智能合约HelloWorld
- solidity编写eth智能合约之contract 创建合约(二)
- solidity modifier函数修改器 智能合约开发知识浅学(三)
- solidity struct 结构体创建与使用浅学 (四)
- solidity bytes 智能合约开发知识浅学(五点一)bytes基本概念
- Web程序员的Mysql进阶序二之sql多条数据插入、多条数据更新、多表同时查询
- Web程序员的Mysql进阶序三之sql多表数据删除、子查询、联合查询