集群节点管理
本文档介绍如何在 Kube Nova 平台中管理 Kubernetes 集群的节点(Node),包括节点列表查看、节点监控、节点详情管理、标签/注解/污点配置以及节点维护操作等功能。
✨ 特性:
- 监控
- YAML 详情
- 节点维护
- 启用/禁用调度
- 标签管理
- 污点管理
- 注解管理
操作路径:集群管理 → 集群节点 → 选择对应的集群
节点列表
节点列表页面展示集群中所有节点的概览信息,支持卡片视图和列表视图两种展示方式。
节点卡片信息
每个节点以卡片形式展示以下关键信息:
- 节点标识:节点名称(如
nova-24.ikubeops.local)和 IP 地址(如172.16.1.24)。 - 节点角色:「Worker」表示工作节点,负责运行业务 Pod;「Control Plane」表示控制平面节点,运行 Kubernetes 核心组件。
- 运行状态:显示节点当前状态,「运行中」表示节点正常工作。
- 调度状态:「可调度」表示节点可以接收新的 Pod 调度;「禁止调度」表示节点已被设置为不可调度状态。
- 资源使用:以进度条和百分比形式展示 CPU 使用率、内存使用率、Pod 数量(当前/最大容量)。
- 节点信息:显示节点架构(如 amd64)和加入集群的时间。
节点快捷操作
点击节点卡片右上角的菜单按钮(三个点),可执行以下快捷操作:
禁用调度:将节点设置为不可调度状态(CordonNode),新的 Pod 将不会被调度到该节点,但已运行的 Pod 不受影响。
节点维护:进入节点维护模式(Drain),会安全驱逐节点上的 Pod 并禁止新的调度,适用于节点升级或硬件维护场景。
节点监控
节点监控页面提供单个节点的详细性能监控数据。
核心指标:
- CPU 使用率
- 内存使用
- 磁盘使用
- 网络流量
- Pod 状态
- Kubernetes 节点信息
- 系统监控
- Pod CPU Top 榜
- Pod 内存 Top 榜 操作路径:节点卡片 → 监控按钮
节点管理
基本信息
- 基本信息区域:节点名称、主机名、节点 UUID、IP 地址、节点角色(worker/control-plane)、状态(Ready/NotReady)、调度状态(允许调度/禁止调度)、加入时间。
- 系统信息区域:操作系统(如 linux)、系统镜像(如 Ubuntu 24.04.2 LTS)、内核版本(如 6.8.0-90-generic)、架构(如 amd64)、容器运行时(如 containerd://2.2.0)、Kubelet 版本(如 v1.34.2)、GPU 支持(是/否)。
- 资源配置区域:CPU 核心数、内存容量、Pod 容量(该节点最大可运行的 Pod 数量)。
- 网络信息区域:Pod CIDR(分配给该节点的 Pod 网段)、Pod CIDRs(包含 IPv4 和 IPv6 的完整网段配置)。

标签管理
标签(Labels)用于对节点进行分类和选择,是 Kubernetes 中重要的元数据机制。
- 操作功能:添加标签、刷新标签列表、搜索标签。
- 标签列表展示以下信息:键(Key)、值(Value)、类型、操作。
- 标签类型分为两种:
- 「可管理标签」是用户自定义的标签,可以自由编辑和删除,用于业务需求如节点选择、调度约束等。
- 「系统保护标签」由 Kubernetes 系统自动生成和管理,不可修改或删除。常见的系统标签包括
kubernetes.io/os(操作系统)、kubernetes.io/arch(架构)、kubernetes.io/hostname(主机名)、beta.kubernetes.io/arch(架构兼容标签)、beta.kubernetes.io/os(操作系统兼容标签)。
注解管理
注解(Annotations)用于存储节点的附加元数据信息,通常由系统组件或工具自动添加。
操作功能:添加注解、刷新注解列表、搜索注解、复制注解值。
常见的系统注解包括:volumes.kubernetes.io/controller-managed-attach-detach(卷挂载管理)、csi.volume.kubernetes.io/nodeid(CSI 节点标识)、node.alpha.kubernetes.io/ttl(节点 TTL)、projectcalico.org/IPv4Address(Calico 网络 IPv4 地址)。
注解与标签类似,也分为「可管理注解」和「系统保护注解」两种类型。 
污点管理
污点(Taints)用于控制 Pod 的调度行为,可以阻止特定 Pod 调度到节点上。
污点效果类型:
- 「NoSchedule」不允许新的 Pod 调度到该节点,已存在的 Pod 不受影响。这是最常用的污点效果,适用于需要隔离特定工作负载的场景。
- 「PreferNoSchedule」尽量避免将 Pod 调度到该节点,但不是强制的。当没有其他可用节点时,Pod 仍可能被调度到此节点。
- 「NoExecute」不允许新的 Pod 调度到该节点,并且驱逐已存在的 Pod。这是最严格的污点效果,适用于节点维护或故障隔离场景。
操作功能:添加污点、刷新污点列表、编辑污点、删除污点。
污点示例:nvidia.com/gpu=true:NoSchedule 表示该节点配置了 GPU 污点,只有带有对应容忍(Toleration)的 Pod 才能调度到此节点,通常用于 GPU 节点的专用调度。 
节点维护操作
禁用调度(Cordon)
禁用调度会将节点标记为不可调度状态,新的 Pod 将不会被调度到该节点。
使用场景:计划进行节点维护但不需要立即驱逐现有 Pod、临时隔离节点进行问题排查、为后续的 Drain 操作做准备。
操作方式:节点卡片菜单 → 禁用调度。
执行后节点的调度状态将从「可调度」变为「禁止调度」。
启用调度(Uncordon)
启用调度会将节点恢复为可调度状态。
使用场景:节点维护完成后恢复正常调度、问题排查结束后恢复节点服务。
操作方式:节点卡片菜单 → 启用调度(当节点处于禁止调度状态时显示)。
节点维护(Drain)
节点维护会安全地驱逐节点上的所有 Pod,并将节点设置为不可调度状态。
使用场景:节点硬件维护或升级、Kubernetes 版本升级、操作系统更新或重启。
操作方式:节点卡片菜单 → 节点维护。
注意事项:Drain 操作会尝试优雅终止 Pod,遵守 PodDisruptionBudget 配置;DaemonSet 管理的 Pod 默认会被忽略;维护完成后需要手动执行「启用调度」恢复节点。