集群管理
✨ 特性:
- 多种认证方式: kubeconfig, token, 证书, inCluster
- 集群整体全方位监控面板
- 资源管理
- 同步功能
集群添加
Kube Nova 支持将现有的 Kubernetes 集群添加到管理平台中进行统一管理。
操作路径:集群管理 → 集群管理 → 新增集群
添加集群的流程分为七个步骤:选择集群类型 → 基础信息 → 认证配置 → 费用配置 → 监控配置 → 管控配置 → 完成。
步骤一:选择集群类型
在此步骤中,您需要配置集群的基本类型和部署信息。
集群类型 选项包括三种:「标准集群」适用于常规工作负载,提供完整功能;「边缘集群」部署在边缘节点,具有低延迟高性能特点;「无服务器」按需付费,支持自动伸缩,免运维。
运行环境 用于标识集群用途,可选择:开发环境、测试环境、预发布环境、生产环境。
基础设施提供商 AWS、Azure、Google Cloud、阿里云、腾讯云、华为云,以及自建集群。
步骤二:基础信息
配置集群的基本标识和显示信息。
集群名称(必填):输入集群的唯一标识名称,例如 prod-k8s-cluster。
集群描述(可选):描述集群的用途、特点等信息,最多 500 字符。
位置信息(可选):包括地域(如 cn-beijing)、可用区(如 zone-a)、数据中心。
负载配置(可选):配置 Ingress 域名(多个用逗号分隔)、Node 负载均衡地址、Master 负载均衡地址。
托管集群:标识是否为云厂商托管集群(如 EKS、AKS、GKE),默认为「否」。
步骤三:认证配置
设置集群的访问认证方式。平台支持四种认证类型:
支持多种云平台: 使用 KubeConfig 文件进行认证,包含完整的集群访问信息,是最常用的方式。在文本框中粘贴完整的 KubeConfig 文件内容即可。
「Token」 使用 Bearer Token 进行认证,需要额外提供 API Server 地址。
「证书」 使用客户端证书和密钥进行双向 TLS 认证。
「集群内部」 在集群内部运行时,使用 ServiceAccount 进行认证。
配置完成后,建议点击 「测试连通性」 验证集群可达性。请注意,生产环境不推荐勾选 「跳过 TLS 证书验证」 选项。
步骤四:费用配置
费用管理章节 会详细介绍计费相关配置。
选择集群的计费价格配置,此配置将用于资源计费统计。
标准计费(系统内置):系统默认提供的计费方案,价格参考如下:CPU ¥0.05/核/时、内存 ¥0.015/GiB/时、存储 ¥0.001/GiB/时、GPU ¥15/卡/时、Pod ¥0.002/个/时、管理费 ¥3.1/时。
不计费(系统内置):所有资源计费为零,系统默认不推荐修改此选项。
计费开始时间:选择计费的起始时间,留空则默认从集群创建时间开始计费。
步骤五:监控配置
配置 Prometheus 监控连接信息(可选)。您可以选择立即「配置 Prometheus」启用监控功能,或者选择「跳过此步骤」稍后在中间件管理中配置。
如果选择跳过,请注意:添加集群后需要在集群管理中进入集群控制台的「中间件管理」页面配置 Prometheus 连接信息并设置为默认,否则监控功能不可用。请确保 Prometheus 服务可被 Kube Nova 管理平台正常连接。
步骤六:管控配置
配置集群资源创建管控策略,这是一个重要的治理选项。
启用集群管控:平台将管控该集群的资源创建,只允许通过平台创建资源。管控生效后,集群中的资源只能通过 Kube Nova 管理平台创建,直接使用 kubectl 或其他工具创建资源将被拒绝。如需临时绕过管控限制,可在资源上添加注解:ikubeops.com/allow-create: "true"。启用管控后,请确保相关运维人员了解该策略,避免因创建资源被拒绝而影响业务。
不启用管控:集群资源可通过任何方式创建(kubectl、Helm、CI/CD 等),平台不会进行限制。请注意,未经平台管控的资源可能导致资源统计不准确、费用计算遗漏等问题。如需开启管控,可稍后在集群设置中修改。
步骤七:完成
确认并创建集群。完成后集群将出现在集群管理列表中。 
集群监控
集群监控提供对 Kubernetes 集群资源使用情况的实时监控和历史趋势分析。
监控页面提供多个维度的监控视图,通过顶部标签页切换:
- 「集群资源」展示 CPU、内存、Pod、存储等资源的整体监控,包括容量、已用量和使用率趋势图。
- 「控制平面」监控 Kubernetes 控制平面组件的运行状态和性能指标。
- 「Etcd」展示 etcd 集群的健康状态、延迟、吞吐量等关键指标。
- 「节点」显示各节点的资源使用情况和健康状态。
- 「工作负载」监控 Deployment、StatefulSet、DaemonSet 等工作负载的运行状态。
- 「Pod & 命名空间」按命名空间和 Pod 维度查看资源使用详情。
操作路径:仪表盘 → 集群监控 → 选择对应的集群 
中间件管理
中间件管理用于配置和管理集群的可观测性组件,包括监控、日志、链路追踪和告警等。
操作路径:集群管理 → 集群管理 → 选择对应的集群 → 进入控制台
组件分类:
- 监控管理(4 个组件):Prometheus 是开源监控和告警工具包,Thanos 提供高可用性 Prometheus 长期存储,Grafana 是开源可视化和监控平台,VictoriaMetrics 是快速、经济高效的监控解决方案。
- 日志管理(4 个组件):Elasticsearch 是分布式搜索和分析引擎,Loki 是水平可扩展的日志聚合系统,Kibana 是 Elasticsearch 数据可视化工具
- 链路追踪(3 个组件):Jaeger 是端到端分布式追踪系统,SkyWalking 是应用性能监控系统,Zipkin 是分布式追踪系统。
- 告警管理(2 个组件):AlertManager 处理由 Prometheus 发送的告警。
默认组件配置
每个分类中需要设置一个组件为默认启用状态。这一点非常重要,因为后续平台获取该集群的监控、日志等数据时,会从对应分类的中间件中查找默认启用的组件。如果未配置默认组件,相关功能将不可用。
例如,若要使用集群监控功能,必须在「监控管理」分类中配置并启用一个组件(如 Prometheus)作为默认监控源。
组件配置
点击各组件卡片上的「配置」按钮进入配置页面,填写组件的连接信息(地址、端口、认证方式等)。配置完成后,组件状态会从「未配置」变更为「正常」或其他状态。
资源管理
资源管理展示集群资源的分配情况,注意这里显示的是资源分配量,而非实时使用量(实时使用请查看集群监控)。
操作路径:集群管理 → 集群管理 → 选择对应的集群 → 进入控制台
CPU:显示总核数、已分配比例、剩余核数。
内存:显示总容量(GiB)、已分配比例、剩余容量。
GPU:显示 GPU 卡总数、已分配比例、剩余数量。
Pod:显示 Pod 配额总数、已分配比例、剩余数量。
存储:显示临时存储总容量(GiB)、已分配比例、剩余容量。存储资源较为特殊,这里控制的是临时存储(ephemeral storage),需要根据集群节点配置手动设置容量值。 
同步功能
同步功能用于将集群的最新状态同步到 Kube Nova 平台,确保平台数据与实际集群保持一致。
操作路径:集群管理 → 集群管理 → 点击集群卡片上的「同步」按钮
同步操作会更新以下信息:集群资源使用情况(CPU、内存、Pod、存储等的分配和使用数据)、命名空间(Namespace)列表、工作负载和应用信息(Deployment、StatefulSet、DaemonSet 等)、节点状态信息、其他集群元数据。
集群同步
集群第一次同步为全量同步 后续同步逻辑 增量 Informer 全量定时任务