Elastic:Elasticsearch 的分片管理策略
【腾讯云 Elasticsearch Service】高可用,可伸缩,云端全托管。集成X-Pack高级特性,适用日志分析/企业搜索/BI分析等场景
在本教程中,我们介绍了一些与 Elasticsearch 中的分片管理相关的常见问题,其解决方案以及一些最佳实践。 在某些用例中,我们结合了特殊的技巧来完成任务。
将 Shard 从一个节点移动到另一个节点
当处理任何大小的集群时,这是最常见的用例之一。 一个典型的场景是,如果在一个节点上共存了太多分片,它们将全部用于查询或索引。
这种情况表示节点/群集健康的潜在风险。 因此,将分片从一个节点移动到另一个节点是一个好习惯。 Elasticsearch 可能不会自动处理这种情况,这意味着我们需要手动进行干预。 如何做到这一点?
Elasticsearch 提供了一个集群级 API,该 API 允许将碎片从一个节点移动到另一个节点。 让我们在下面查看使用此 API 的示例:
重要的是要注意,在处理任何重新路由命令之后,Elasticsearch 将正常执行重新平衡(尊重诸如 cluster.routing.rebalance.enable 之类的设置的值),以便保持平衡状态。例如,如果请求的分配包括将分片从节点1移动到节点2,则这可能导致分片从节点2移动回到节点1来保持平衡。
可以使用 cluster.routing.allocation.enable 设置将集群设置为禁用分配。如果禁用了分配,则将执行的唯一分配是使用 reroute 命令指定的显式分配,以及由于重新平衡而导致的后续分配。
通过使用 ?dry_run URI 查询参数,或通过在请求正文中传递 “dry_run”: true,可以在 “dry run” 模式下运行重新路由命令。这将计算将命令应用于当前群集状态的结果,并在应用命令(和重新平衡)后返回结果群集状态,但实际上不会执行所请求的更改。
我们可以使用 reroute API 来实现把一个 shard 从一个节点移动到另外一个节点。下面是一个例子:
POST /_cluster/reroute{ "commands": [ { "move": { "index": "test", "shard": 0, "from_node": "node1", "to_node": "node2" } }, { "allocate_replica": { "index": "test", "shard": 1, "node": "node3" } } ]}
在上面,我们强制把索引 test 的 shard 0 从node1 移到 node2。我们同时也强制分配索引 test 的 shard 1到node3中。
停用节点
另一个用例是从活动集群中停用节点。 这种情况下的主要挑战之一是在不导致群集停机或重启的情况下停用节点。 幸运的是,Elasticsearch 提供了一个选项,可以在不丢失数据或不会造成停机的情况下,优雅地删除/停用节点。 让我们看看如何实现它:
PUT _cluster/settings{ "transient": { "cluster.routing.allocation.exclude._ip": "IP of the node" }}
上面的 API 使集群停止分配任何东西到指定节点并排除它。 同时,来自该节点的数据将被移植到非排除节点。 数据传输将在后台进行,完成后将导致从群集中完全删除该节点。
停用某个节点时,其他节点中可用的磁盘空间应大于要传输的数据大小。 否则,群集状态可能会变为红色或黄色,这可能会导致停机。
拥有其他选项来标识要停用的节点通常会很有帮助。 在上面的示例中,我们用节点的 “ip” 标识了该节点。 我们还可以使用集群中唯一的 “node ID” 和 “node name” 进行相同的操作。
按节点ID排除
PUT _cluster/settings{ "transient": { "cluster.routing.allocation.exclude._id": "unique id of the node" }}
按名称排除节点
PUT _cluster/settings{ "transient": { "cluster.routing.allocation.exclude._name": "name of the node" }}
我们如何查看节点的停用是否结束? 为此,我们有两个规定:
方法一
我们使用如下的方法:
GET _cluster/health?pretty
显示的结果是:
{ "cluster_name" : "elasticsearch", "status" : "yellow", "timed_out" : false, "number_of_nodes" : 1, "number_of_data_nodes" : 1, "active_primary_shards" : 26, "active_shards" : 26, "relocating_shards" : 0, "initializing_shards" : 0, "unassigned_shards" : 19, "delayed_unassigned_shards" : 0, "number_of_pending_tasks" : 0, "number_of_in_flight_fetch" : 0, "task_max_waiting_in_queue_millis" : 0, "active_shards_percent_as_number" : 57.77777777777777}
在上面relocating_shards显示的数值为0,表明目前没有shard被重新转移。
方法二
使用以下API检查的专有的节点的状态:
GET _cat/nodes?v
通过上面的 API 我们得到 node 的名字:
ip heap.percent ram.percent cpu load_1m load_5m load_15m node.role master name127.0.0.1 42 50 2 1.94 dilm * liuxg-2.local
然后使用如下的 API:
GET _nodes/liuxg-2.local/stats/indices
在上面的 liuxg-2.local 为我们的 node 的名字。显示的结果为:
"nodes" : { "Zs0Uy-9mTDOifm5Ef8U6FA" : { "timestamp" : 1581585326681, "name" : "liuxg-2.local", "transport_address" : "127.0.0.1:9300", "host" : "127.0.0.1", "ip" : "127.0.0.1:9300", "roles" : [ "ingest", "master", "data", "ml" ], "attributes" : { "ml.machine_memory" : "34359738368", "xpack.installed" : "true", "ml.max_open_jobs" : "20" }, "indices" : { "docs" : { "count" : 0, "deleted" : 8 }, ...
如果上述的 indices.docs.count 的值为 0,就表示转移已经完成。
重命名索引
另一个用例是重命名索引。 可以根据使用情况以多种方式完成此操作。
Aliasing
如果我们希望在不丢失任何数据的情况下重命名索引,则最常用的方法是别名。
例如,我们想将索引 “testindex” 重命名为 “testindex-1”。 我们可以为索引 “testindex” 提供别名 “testindex-1”,以便所有引用 “testindex-1” 的请求现在都将路由到 “testindex”。 可以按照以下步骤完成:
POST _aliases{ "actions": [ { "add": { "index": "testindex", "alias": "testindex-1" } } ]}
这种方法使我们可以在停机时间为零的情况下重命名索引。
Reindex API
有时,别名并不是重命名的最佳选择。 在这种情况下,我们剩下称为重新索引的选项。 它将所有文档从目标索引重新索引到目标索引。 为了有效地做到这一点,需要检查两件事:
- 机器上是否还有足够的空间。
- 目标索引是否存在正确的映射。
如果满足以上两个条件,我们可以使用如下所示的 reindex API:
POST _reindex{ "source": { "index": "testindex" }, "dest": { "index": "testindex-1" }}
有用链接:
1) In depth guide to running Elasticsearch in production: https://facinating.tech/2020/02/22/in-depth-guide-to-running-elasticsearch-in-production/
最新活动
包含文章发布时段最新活动,前往ES产品介绍页,可查找ES当前活动统一入口
Elasticsearch Service自建迁移特惠政策>>
Elasticsearch Service 新用户特惠狂欢,最低4折首购优惠 >>
Elasticsearch Service 企业首购特惠,助力企业复工复产>>
关注“腾讯云大数据”公众号,技术交流、最新活动、服务专享一站Get~
- python文件读写出现乱码总结
- 分布式监控系统Zabbix-图形集中展示插件Graphtree
- 分布式监控系统Zabbix-添加windows监控主机
- 盘点世界十大著名黑客攻击事件
- AS3中的单件(Singleton)模式
- puremvc框架之hello world!
- windows平台下编辑的内容传到linux平台出现中文乱码的解决办法
- puremvc框架之Command
- python sorted函数
- Centos 6.9下部署Oracle 11G数据库环境的操作记录
- puremvc框架之proxy
- Oracle数据库冷备份与热备份操作梳理
- Oracle数据库重做日志及归档日志的工作原理说明
- 用vs.net2010做flex/flash/as3开发
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 安装RabbitMQ无法访问localhost:15672的管理界面解决
- koa中http服务与websocket服务共享端口
- 第23天:NLP实战(七)——中文新闻主题分类
- Swoole v4.5.3 版本发布
- .NET5.0 单文件发布打包操作深度剖析
- 使用ng-container标签在SAP Spartacus里插入UI
- 自定义SAP Spartacus Cart界面
- 还是只使用console.log()进行调试?好吧,其实还有更多。
- SNMP++: Transport is not supported
- Codeforces Round #666 (Div. 2) A-D
- 深度剖析前端JavaScript中的原型(JS的对象原型)
- dotnet OpenXML 颜色变换
- n维空间的多面体的有向测度和重心
- 只会Vue怎么开发小程序?Vue和微信小程序的到底有哪些区别?
- VBA CreateObject函数如何找到所需要的依赖文件