使用静态工作分配的索引 Job 进行并行处理

特性状态: Kubernetes v1.24 [稳定]

在本例中,您将运行一个使用多个并行工作进程的 Kubernetes Job。每个 worker 都是一个在其自身 Pod 中运行的不同容器。 Pod 具有由控制平面自动设置的 *索引号*,允许每个 Pod 识别要处理的整体任务的哪个部分。

Pod 索引在 注释 `batch.kubernetes.io/job-completion-index` 中可用,表示其十进制值的字符串。为了使容器化任务进程获取此索引,您可以使用 下行 API 机制发布注释的值。为方便起见,控制平面自动设置下行 API 以在 `JOB_COMPLETION_INDEX` 环境变量中公开索引。

以下是此示例中步骤的概述

  1. **使用索引完成定义 Job 清单**。下行 API 允许您将 pod 索引注释作为环境变量或文件传递给容器。
  2. 根据该清单启动 `Indexed` Job.

准备工作

您应该已经熟悉 Job 的基本非并行用法。

您需要有一个 Kubernetes 集群,并且 kubectl 命令行工具必须配置为与您的集群通信。建议在本教程中,集群至少有两个节点,并且这些节点不充当控制平面主机。如果您还没有集群,则可以使用 minikube 创建一个集群,或者您可以使用以下 Kubernetes 游乐场之一

您的 Kubernetes 服务器版本必须至少为 v1.21。要检查版本,请输入 `kubectl version`。

选择一种方法

要从 worker 程序访问工作项,您有几种选择

  1. 读取 `JOB_COMPLETION_INDEX` 环境变量。Job 控制器 自动将此变量链接到包含完成索引的注释。
  2. 读取包含完成索引的文件。
  3. 假设您无法修改程序,您可以使用一个脚本将其包装起来,该脚本使用上述任何方法读取索引并将其转换为程序可以用作输入的内容。

例如,假设您选择了选项 3,并且想要运行 rev 实用程序。此程序接受一个文件作为参数并反向打印其内容。

rev data.txt

您将使用 `busybox` 容器镜像中的 `rev` 工具。

由于这只是一个示例,因此每个 Pod 只做一小部分工作(反转一个短字符串)。在实际工作负载中,例如,您可以创建一个 Job 来表示根据场景数据生成 60 秒视频的任务。视频渲染 Job 中的每个工作项都将是渲染该视频剪辑的特定帧。索引完成意味着 Job 中的每个 Pod 都知道要渲染和发布哪个帧,方法是从剪辑的开头开始计算帧。

定义索引 Job

以下是一个使用 `Indexed` 完成模式的 Job 清单示例

apiVersion: batch/v1
kind: Job
metadata:
  name: 'indexed-job'
spec:
  completions: 5
  parallelism: 3
  completionMode: Indexed
  template:
    spec:
      restartPolicy: Never
      initContainers:
      - name: 'input'
        image: 'docker.io/library/bash'
        command:
        - "bash"
        - "-c"
        - |
          items=(foo bar baz qux xyz)
          echo ${items[$JOB_COMPLETION_INDEX]} > /input/data.txt          
        volumeMounts:
        - mountPath: /input
          name: input
      containers:
      - name: 'worker'
        image: 'docker.io/library/busybox'
        command:
        - "rev"
        - "/input/data.txt"
        volumeMounts:
        - mountPath: /input
          name: input
      volumes:
      - name: input
        emptyDir: {}

在上面的示例中,您使用 Job 控制器为所有容器设置的内置 `JOB_COMPLETION_INDEX` 环境变量。 初始化容器 将索引映射到静态值,并将其写入通过 emptyDir 卷 与运行 worker 的容器共享的文件。或者,您可以 通过下行 API 定义您自己的环境变量 以将索引发布到容器。您还可以选择 从 ConfigMap 加载值列表作为环境变量或文件

或者,您可以直接 使用下行 API 将注释值作为卷文件传递,如下例所示

apiVersion: batch/v1
kind: Job
metadata:
  name: 'indexed-job'
spec:
  completions: 5
  parallelism: 3
  completionMode: Indexed
  template:
    spec:
      restartPolicy: Never
      containers:
      - name: 'worker'
        image: 'docker.io/library/busybox'
        command:
        - "rev"
        - "/input/data.txt"
        volumeMounts:
        - mountPath: /input
          name: input
      volumes:
      - name: input
        downwardAPI:
          items:
          - path: "data.txt"
            fieldRef:
              fieldPath: metadata.annotations['batch.kubernetes.io/job-completion-index']

运行 Job

现在运行 Job

# This uses the first approach (relying on $JOB_COMPLETION_INDEX)
kubectl apply -f https://kubernetes.top/examples/application/job/indexed-job.yaml

创建此 Job 时,控制平面会为您指定的每个索引创建一系列 Pod。`spec.parallelism` 的值决定了可以同时运行多少个 Pod,而 `spec.completions` 的值决定了 Job 总共创建多少个 Pod。

由于 `spec.parallelism` 小于 `spec.completions`,因此控制平面会等待一些第一个 Pod 完成后再启动更多 Pod。

您可以等待 Job 成功,并设置超时

# The check for condition name is case insensitive
kubectl wait --for=condition=complete --timeout=300s job/indexed-job

现在,描述 Job 并检查它是否成功。

kubectl describe jobs/indexed-job

输出类似于

Name:              indexed-job
Namespace:         default
Selector:          controller-uid=bf865e04-0b67-483b-9a90-74cfc4c3e756
Labels:            controller-uid=bf865e04-0b67-483b-9a90-74cfc4c3e756
                   job-name=indexed-job
Annotations:       <none>
Parallelism:       3
Completions:       5
Start Time:        Thu, 11 Mar 2021 15:47:34 +0000
Pods Statuses:     2 Running / 3 Succeeded / 0 Failed
Completed Indexes: 0-2
Pod Template:
  Labels:  controller-uid=bf865e04-0b67-483b-9a90-74cfc4c3e756
           job-name=indexed-job
  Init Containers:
   input:
    Image:      docker.io/library/bash
    Port:       <none>
    Host Port:  <none>
    Command:
      bash
      -c
      items=(foo bar baz qux xyz)
      echo ${items[$JOB_COMPLETION_INDEX]} > /input/data.txt

    Environment:  <none>
    Mounts:
      /input from input (rw)
  Containers:
   worker:
    Image:      docker.io/library/busybox
    Port:       <none>
    Host Port:  <none>
    Command:
      rev
      /input/data.txt
    Environment:  <none>
    Mounts:
      /input from input (rw)
  Volumes:
   input:
    Type:       EmptyDir (a temporary directory that shares a pod's lifetime)
    Medium:
    SizeLimit:  <unset>
Events:
  Type    Reason            Age   From            Message
  ----    ------            ----  ----            -------
  Normal  SuccessfulCreate  4s    job-controller  Created pod: indexed-job-njkjj
  Normal  SuccessfulCreate  4s    job-controller  Created pod: indexed-job-9kd4h
  Normal  SuccessfulCreate  4s    job-controller  Created pod: indexed-job-qjwsz
  Normal  SuccessfulCreate  1s    job-controller  Created pod: indexed-job-fdhq5
  Normal  SuccessfulCreate  1s    job-controller  Created pod: indexed-job-ncslj

在本例中,您为每个索引运行具有自定义值的 Job。您可以检查其中一个 pod 的输出

kubectl logs indexed-job-fdhq5 # Change this to match the name of a Pod from that Job

输出类似于

xuq
上次修改时间:2023 年 8 月 24 日下午 6:38(太平洋标准时间):使用 code_sample 短代码代替 code 短代码 (e8b136c3b3)