K8S节点异常怎么办?TKE"节点健康检查和自愈"来帮忙
孔硕,腾讯云后台开发工程师,日常负责腾讯云TKE的节点流程和稳定性的相关工作,同时也负责TCM一些产品特性的研究和开发。
节点健康检测
意义
在K8S集群运行的过程中,节点常常会因为运行时组件的问题、内核死锁、资源不足等各种各样的原因不可用。Kubelet默认对节点的PIDPressure、MemoryPressure、DiskPressure等资源状态进行了监控,但是当Kubelet上报这些状态的时候,节点很可能已经长时间处于不可用状态了,并且Kubelet可能已经开始了驱逐Pod的操作。所以原生K8S对节点健康的检测机制在一些场景下是不完善的,我们需要能够在节点出现问题之前提前发现,并且需要更加细致化的指标来描述节点的健康状态并且采取相应的恢复策略,实现智能运维,节省开发和运维人员的负担。
Node-Problem-Detector
NPD(Node-Problem-Detector) 是Kubernetes社区开源的集群节点的健康检测组件。NPD提供了通过正则匹配系统日志或文件来发现节点异常的功能。用户可以通过自己的运维经验,配置可能产生异常问题日志的正则表达式,选择不同的上报方式。NPD会解析用户的配置文件,当有日志能匹配到用户配置的正则表达式时,可以通过NodeCondition、Event或Promethues Metric等方式将检测到的异常状态上报。除了日志匹配功能,NPD还给接受用户自己编写的自定义检测插件,用户可以开发自己的脚本或可执行文件集成到NPD的插件中,让NPD定期执行检测程序。
TKE中的节点健康检测
在TKE中通过扩展组件的形式集成了NPD,并且对NPD的能力做了增强,称为NodeProblemDetectorPuls(NPDPlus)扩展组件。用户可以对已有集群一键部署NPDPlus扩展组件,也可以在创建集群的时候选择在创建集群的同时部署NPDPlus。在腾讯云容器团队长期运营运维K8S集群的经验中,提取了一些可以通过特定形式发现节点异常的指标,并且把其中的一些指标集成在了NPDPlus中。例如在NPDPlus容器中检测Kubelet和Docker的systemd状态,以及检测主机的文件描述符和线程数压力等。具体指标如下所示:
TKE使用NPDPlus的目的是能够提前发现节点可能不可用状态,而不是当节点已经不健康后再上报状态。当用户在TKE集群中部署了NPDPlus后,使用命令 kubectl describe node
会发现多出了很多Node Condition,如FDPressure表示该节点上已经使用的文件描述符数量是否已经达到机器允许最大值的80%;ThreadPressure表示节点上的线程数是否已经达到机器允许的90%等等。用户可以监控这些Condition,当异常状态出现时,提前采取规避策略。
同时,K8S目前认为节点NotReady的机制依赖于kube-controller-manager的参数设定,当节点网络完全不通的情况下K8S很难在秒级别发现节点的异常,这在一些场景下(如直播、在线会议等)是不能接受的。针对这种场景,NPDPlus中继承了分布式节点健康检测功能,可以在秒级快速地检测节点网络状态,以及是否能与其他节点相互通信,同时不依赖与K8S master组件的通信。此功能的实现原理和功能会在之后的文章中详细介绍。
节点自愈
采集节点的健康状态是为了能够在业务Pod不可用之前提前发现节点异常,从而运维或开发人员可以对Docker、Kubelet或节点进行修复。在NPDPlus中,为了减轻运维人员的负担,提供了根据采集到的节点状态从而进行不同自愈动作的能力。集群管理员可以根据节点不同的状态配置相应的自愈能力,如重启Docker、重启Kubelet或重启CVM节点等。同时为了防止集群中的节点雪崩,在执行自愈动作之前做了严格的限流,防止节点大规模重启。同时为了防止集群中的节点雪崩,在执行自愈动作之前做了严格的限流。具体策略为:
- 在同一时刻只允许集群中的一个节点进行自愈行为,并且两个自愈行为之间至少间隔1分钟
- 当有新节点添加到集群中时,会给节点2分钟的容忍时间,防止由于节点刚刚添加到集群的不稳定性导致错误自愈
- 当节点触发重启CVM自愈动作后还处于异常状态时,则在3小时之内此节点不再执行任何自愈动作
NPDPlus会将执行过的所有自愈动作记录在Node的Event中,方便集群管理员了解在Node上发生的事件。
使用指南
- 登录腾讯云容器服务控制台,点击想要创建NPDPlus的集群。
- 点击集群详情页左侧的组件管理,在组件管理中选中NodeProblemDetectorPlus(节点异常检测Plus)。
- 配置NodeProblemDetectorPlus参数,可以选择根据特定节点的状态执行不同的自愈动作。
- 选择确定,点击完成即可一键创建。
在集群的组建管理中查看到NPDPlus运行中说明NPDPlus运行成功:
快快点击【阅读原文】 直达控制台开启NPDPlus体验之旅吧
- android 项目中出现红色感叹号的解决方法
- SharePoint Foundation 2010
- ASP.NET MVC Action Filters
- Android:StatFs类 获取系统/sdcard存储空间信息
- 数据挖掘干货
- 高效 Mac 人士必备:实现工作/家庭间网络环境切换的自动化
- android中AVD的使用
- ASP.NET MVC 2示例Tailspin Travel UI层分析
- CSS 命名之Dialog, Modal, Popup, Popover, Lightbox 等的区别
- Eclipse JAVA文件注释乱码
- 2018年小程序的红利趋势预测,懂的来……或许你将成为下个富翁
- VUE 入门基础(6)
- 五年换4高管,6000员工裁95%剩300人,王健林为何抛弃万达网科?
- Android Permission中英对照
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Apache 解决80端口占用问题
- Centos7搭建主从DNS服务器的教程
- ubuntu 下JDK环境变量配置方法
- Linux部署msmtp+mutt发送邮件功能
- linux使用QQ实现网络邮件报警功能
- Linux初学(CnetOS7 Linux)之切换命令模式和图形模式的方法
- linux expect 自动登录交换机保存配置的方法
- CentOS7安装mysql5.7解压缩版简明教程
- Gunicorn Django部署配置方法
- Linux中使用NTP保持精确时间的方法详解
- LNMP环境下搭建yum的方法分析
- django 利用pillow 进行简单的设置验证码功能(python)
- Centos环境下安装Zend optimizer 3.3.9的方法
- Linux curl表单登录或提交与cookie使用详解
- Linux磁盘设备与LVM管理命令示例详解