集群节点管理

本文档介绍如何在 Kube Nova 平台中管理 Kubernetes 集群的节点（Node），包括节点列表查看、节点监控、节点详情管理、标签/注解/污点配置以及节点维护操作等功能。

✨ 特性:

监控
YAML 详情
节点维护
启用/禁用调度
标签管理
污点管理
注解管理

操作路径：集群管理 → 集群节点 → 选择对应的集群

节点列表

节点列表页面展示集群中所有节点的概览信息，支持卡片视图和列表视图两种展示方式。

节点卡片信息

每个节点以卡片形式展示以下关键信息：

节点标识：节点名称（如 nova-24.ikubeops.local）和 IP 地址（如 172.16.1.24）。
节点角色：「Worker」表示工作节点，负责运行业务 Pod；「Control Plane」表示控制平面节点，运行 Kubernetes 核心组件。
运行状态：显示节点当前状态，「运行中」表示节点正常工作。
调度状态：「可调度」表示节点可以接收新的 Pod 调度；「禁止调度」表示节点已被设置为不可调度状态。
资源使用：以进度条和百分比形式展示 CPU 使用率、内存使用率、Pod 数量（当前/最大容量）。
节点信息：显示节点架构（如 amd64）和加入集群的时间。

节点快捷操作

点击节点卡片右上角的菜单按钮（三个点），可执行以下快捷操作：

禁用调度：将节点设置为不可调度状态（CordonNode），新的 Pod 将不会被调度到该节点，但已运行的 Pod 不受影响。

节点维护：进入节点维护模式（Drain），会安全驱逐节点上的 Pod 并禁止新的调度，适用于节点升级或硬件维护场景。

节点监控

节点监控页面提供单个节点的详细性能监控数据。

核心指标：

CPU 使用率
内存使用
磁盘使用
网络流量
Pod 状态
Kubernetes 节点信息
系统监控
Pod CPU Top 榜
Pod 内存 Top 榜 操作路径：节点卡片 → 监控按钮

节点管理

基本信息

基本信息区域：节点名称、主机名、节点 UUID、IP 地址、节点角色（worker/control-plane）、状态（Ready/NotReady）、调度状态（允许调度/禁止调度）、加入时间。
系统信息区域：操作系统（如 linux）、系统镜像（如 Ubuntu 24.04.2 LTS）、内核版本（如 6.8.0-90-generic）、架构（如 amd64）、容器运行时（如 containerd://2.2.0）、Kubelet 版本（如 v1.34.2）、GPU 支持（是/否）。
资源配置区域：CPU 核心数、内存容量、Pod 容量（该节点最大可运行的 Pod 数量）。
网络信息区域：Pod CIDR（分配给该节点的 Pod 网段）、Pod CIDRs（包含 IPv4 和 IPv6 的完整网段配置）。

标签管理

标签（Labels）用于对节点进行分类和选择，是 Kubernetes 中重要的元数据机制。

操作功能：添加标签、刷新标签列表、搜索标签。
标签列表展示以下信息：键（Key）、值（Value）、类型、操作。
标签类型分为两种：
- 「可管理标签」是用户自定义的标签，可以自由编辑和删除，用于业务需求如节点选择、调度约束等。
- 「系统保护标签」由 Kubernetes 系统自动生成和管理，不可修改或删除。常见的系统标签包括 kubernetes.io/os（操作系统）、kubernetes.io/arch（架构）、kubernetes.io/hostname（主机名）、beta.kubernetes.io/arch（架构兼容标签）、beta.kubernetes.io/os（操作系统兼容标签）。

注解管理

注解（Annotations）用于存储节点的附加元数据信息，通常由系统组件或工具自动添加。

操作功能：添加注解、刷新注解列表、搜索注解、复制注解值。

常见的系统注解包括：volumes.kubernetes.io/controller-managed-attach-detach（卷挂载管理）、csi.volume.kubernetes.io/nodeid（CSI 节点标识）、node.alpha.kubernetes.io/ttl（节点 TTL）、projectcalico.org/IPv4Address（Calico 网络 IPv4 地址）。

注解与标签类似，也分为「可管理注解」和「系统保护注解」两种类型。

污点管理

污点（Taints）用于控制 Pod 的调度行为，可以阻止特定 Pod 调度到节点上。

污点效果类型：

「NoSchedule」不允许新的 Pod 调度到该节点，已存在的 Pod 不受影响。这是最常用的污点效果，适用于需要隔离特定工作负载的场景。
「PreferNoSchedule」尽量避免将 Pod 调度到该节点，但不是强制的。当没有其他可用节点时，Pod 仍可能被调度到此节点。
「NoExecute」不允许新的 Pod 调度到该节点，并且驱逐已存在的 Pod。这是最严格的污点效果，适用于节点维护或故障隔离场景。

操作功能：添加污点、刷新污点列表、编辑污点、删除污点。

污点示例：nvidia.com/gpu=true:NoSchedule 表示该节点配置了 GPU 污点，只有带有对应容忍（Toleration）的 Pod 才能调度到此节点，通常用于 GPU 节点的专用调度。

节点维护操作

禁用调度（Cordon）

禁用调度会将节点标记为不可调度状态，新的 Pod 将不会被调度到该节点。

使用场景：计划进行节点维护但不需要立即驱逐现有 Pod、临时隔离节点进行问题排查、为后续的 Drain 操作做准备。

操作方式：节点卡片菜单 → 禁用调度。

执行后节点的调度状态将从「可调度」变为「禁止调度」。

启用调度（Uncordon）

启用调度会将节点恢复为可调度状态。

使用场景：节点维护完成后恢复正常调度、问题排查结束后恢复节点服务。

操作方式：节点卡片菜单 → 启用调度（当节点处于禁止调度状态时显示）。

节点维护（Drain）

节点维护会安全地驱逐节点上的所有 Pod，并将节点设置为不可调度状态。

使用场景：节点硬件维护或升级、Kubernetes 版本升级、操作系统更新或重启。

操作方式：节点卡片菜单 → 节点维护。

注意事项：Drain 操作会尝试优雅终止 Pod，遵守 PodDisruptionBudget 配置；DaemonSet 管理的 Pod 默认会被忽略；维护完成后需要手动执行「启用调度」恢复节点。

集群节点管理 ​

节点列表 ​

节点卡片信息 ​

节点快捷操作 ​

节点监控 ​

节点管理 ​

基本信息 ​

标签管理 ​

注解管理 ​

污点管理 ​

节点维护操作 ​

禁用调度（Cordon） ​

启用调度（Uncordon） ​

节点维护（Drain） ​