Pod 开销
Kubernetes v1.24 [稳定]
当你在节点上运行 Pod 时,Pod 本身会占用一定的系统资源。这些资源是运行 Pod 内容器所需的资源之外的额外资源。在 Kubernetes 中,Pod 开销 是一种计算 Pod 基础设施消耗的资源(容器请求和限制之外)的方法。
在 Kubernetes 中,Pod 的开销在准入时根据与 Pod 的RuntimeClass相关的开销进行设置。
在调度 Pod 时,除了容器资源请求的总和之外,还会考虑 Pod 的开销。同样,kubelet 在调整 Pod cgroup 的大小以及执行 Pod 驱逐排名时,也会包含 Pod 开销。
配置 Pod 开销
你需要确保使用定义了 overhead
字段的 RuntimeClass
。
使用示例
要使用 Pod 开销,你需要一个定义了 overhead
字段的 RuntimeClass。例如,你可以使用以下 RuntimeClass 定义,它与虚拟化容器运行时(在本示例中,Kata Containers 与 Firecracker 虚拟机监视器结合)一起使用,每个 Pod 大约使用 120MiB 用于虚拟机和访客操作系统
# You need to change this example to match the actual runtime name, and per-Pod
# resource overhead, that the container runtime is adding in your cluster.
apiVersion: node.k8s.io/v1
kind: RuntimeClass
metadata:
name: kata-fc
handler: kata-fc
overhead:
podFixed:
memory: "120Mi"
cpu: "250m"
创建的指定 kata-fc
RuntimeClass 处理程序的工作负载,将在资源配额计算、节点调度以及 Pod cgroup 大小时考虑内存和 CPU 开销。
考虑运行给定的示例工作负载,test-pod
apiVersion: v1
kind: Pod
metadata:
name: test-pod
spec:
runtimeClassName: kata-fc
containers:
- name: busybox-ctr
image: busybox:1.28
stdin: true
tty: true
resources:
limits:
cpu: 500m
memory: 100Mi
- name: nginx-ctr
image: nginx
resources:
limits:
cpu: 1500m
memory: 100Mi
注意
如果 pod 定义中仅指定了limits
,则 kubelet 会从这些限制中推断出 requests
,并将它们设置为与定义的 limits
相同。在准入时,RuntimeClass 准入控制器会更新工作负载的 PodSpec,以包含 RuntimeClass 中描述的 overhead
。如果 PodSpec 已经定义了这个字段,Pod 将被拒绝。在给定的示例中,由于仅指定了 RuntimeClass 名称,因此准入控制器会修改 Pod 以包含 overhead
。
在 RuntimeClass 准入控制器进行修改后,你可以检查更新后的 Pod 开销值
kubectl get pod test-pod -o jsonpath='{.spec.overhead}'
输出为
map[cpu:250m memory:120Mi]
如果定义了 ResourceQuota,则会计算容器请求的总和以及 overhead
字段。
当 kube-scheduler 决定哪个节点应运行新的 Pod 时,调度器会考虑该 Pod 的 overhead
以及该 Pod 的容器请求总和。对于此示例,调度器将请求和开销相加,然后查找具有 2.25 个 CPU 和 320 MiB 可用内存的节点。
一旦 Pod 被调度到节点,该节点上的 kubelet 就会为 Pod 创建一个新的cgroup。容器运行时将在该 pod 中创建容器。
如果为每个容器定义了资源限制(保证 QoS 或定义了限制的突发 QoS),则 kubelet 将为与该资源关联的 pod cgroup 设置上限(CPU 的 cpu.cfs_quota_us 和内存的 memory.limit_in_bytes)。此上限基于容器限制的总和加上 PodSpec 中定义的 overhead
。
对于 CPU,如果 Pod 是保证的 QoS 或突发 QoS,则 kubelet 将基于容器请求的总和加上 PodSpec 中定义的 overhead
来设置 cpu.shares
。
看看我们的示例,验证工作负载的容器请求
kubectl get pod test-pod -o jsonpath='{.spec.containers[*].resources.limits}'
容器请求的总数为 2000m CPU 和 200MiB 内存
map[cpu: 500m memory:100Mi] map[cpu:1500m memory:100Mi]
对照节点观察到的情况进行检查
kubectl describe node | grep test-pod -B2
输出显示 2250m CPU 和 320MiB 内存的请求。这些请求包括 Pod 开销
Namespace Name CPU Requests CPU Limits Memory Requests Memory Limits AGE
--------- ---- ------------ ---------- --------------- ------------- ---
default test-pod 2250m (56%) 2250m (56%) 320Mi (1%) 320Mi (1%) 36m
验证 Pod cgroup 限制
检查工作负载正在运行的节点上的 Pod 的内存 cgroup。在以下示例中,在节点上使用了 crictl
,它为与 CRI 兼容的容器运行时提供了 CLI。这是一个高级示例,用于显示 Pod 开销行为,并且不希望用户需要直接在节点上检查 cgroup。
首先,在特定节点上,确定 Pod 标识符
# Run this on the node where the Pod is scheduled
POD_ID="$(sudo crictl pods --name test-pod -q)"
由此,你可以确定 Pod 的 cgroup 路径
# Run this on the node where the Pod is scheduled
sudo crictl inspectp -o=json $POD_ID | grep cgroupsPath
生成的 cgroup 路径包括 Pod 的 pause
容器。Pod 级别的 cgroup 位于上一级目录中。
"cgroupsPath": "/kubepods/podd7f4b509-cf94-4951-9417-d1087c92a5b2/7ccf55aee35dd16aca4189c952d83487297f3cd760f1bbf09620e206e7d0c27a"
在此特定情况下,pod cgroup 路径为 kubepods/podd7f4b509-cf94-4951-9417-d1087c92a5b2
。验证 Pod 级别的内存 cgroup 设置
# Run this on the node where the Pod is scheduled.
# Also, change the name of the cgroup to match the cgroup allocated for your pod.
cat /sys/fs/cgroup/memory/kubepods/podd7f4b509-cf94-4951-9417-d1087c92a5b2/memory.limit_in_bytes
这是 320 MiB,如预期
335544320
可观察性
一些 kube_pod_overhead_*
指标在 kube-state-metrics 中可用,以帮助识别何时正在使用 Pod 开销,并帮助观察使用定义开销运行的工作负载的稳定性。
下一步
- 了解有关 RuntimeClass 的更多信息
- 阅读 PodOverhead 设计增强提案,以获取更多上下文