使用源 IP
在 Kubernetes 集群中运行的应用程序通过 Service 抽象查找彼此并与外部世界进行通信。本文档解释了发送到不同类型 Service 的数据包的源 IP 会发生什么,以及如何根据您的需要切换此行为。
开始之前
术语
本文档使用了以下术语
- NAT
- 网络地址转换
- 源 NAT
- 替换数据包的源 IP;在此页面中,通常意味着替换为节点的 IP 地址。
- 目标 NAT
- 替换数据包的目标 IP;在此页面中,通常意味着替换为 Pod 的 IP 地址
- VIP
- 一个虚拟 IP 地址,例如分配给 Kubernetes 中每个 Service 的地址
- kube-proxy
- 一个在每个节点上编排 Service VIP 管理的网络守护进程
先决条件
您需要有一个 Kubernetes 集群,并且必须配置 kubectl 命令行工具以与您的集群通信。建议在至少有两个节点且不充当控制平面主机的集群上运行本教程。如果您还没有集群,可以使用 minikube 创建一个,或者您可以使用以下 Kubernetes 游乐场之一
这些示例使用了一个小型 nginx Web 服务器,它通过 HTTP 标头回显接收到的请求的源 IP。您可以按如下方式创建它
注意
以下命令中的镜像仅在 AMD64 架构上运行。kubectl create deployment source-ip-app --image=registry.k8s.io/echoserver:1.10
输出为
deployment.apps/source-ip-app created
目标
- 通过各种类型的 Service 公开一个简单的应用程序
- 了解每种 Service 类型如何处理源 IP NAT
- 了解保留源 IP 所涉及的权衡
Type=ClusterIP
的 Service 的源 IP
如果您的 kube-proxy 在 iptables 模式(默认)下运行,则从集群内部发送到 ClusterIP 的数据包永远不会进行源 NAT。您可以通过在运行 kube-proxy 的节点上获取 https://127.0.0.1:10249/proxyMode
来查询 kube-proxy 模式。
kubectl get nodes
输出类似于这样
NAME STATUS ROLES AGE VERSION
kubernetes-node-6jst Ready <none> 2h v1.13.0
kubernetes-node-cx31 Ready <none> 2h v1.13.0
kubernetes-node-jj1t Ready <none> 2h v1.13.0
获取其中一个节点上的代理模式(kube-proxy 在端口 10249 上侦听)
# Run this in a shell on the node you want to query.
curl https://127.0.0.1:10249/proxyMode
输出为
iptables
您可以通过在源 IP 应用程序上创建一个 Service 来测试源 IP 保留
kubectl expose deployment source-ip-app --name=clusterip --port=80 --target-port=8080
输出为
service/clusterip exposed
kubectl get svc clusterip
输出类似于
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
clusterip ClusterIP 10.0.170.92 <none> 80/TCP 51s
并从同一集群中的 Pod 访问 ClusterIP
kubectl run busybox -it --image=busybox:1.28 --restart=Never --rm
输出类似于这样
Waiting for pod default/busybox to be running, status is Pending, pod ready: false
If you don't see a command prompt, try pressing enter.
然后,您可以在该 Pod 内运行一个命令
# Run this inside the terminal from "kubectl run"
ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
valid_lft forever preferred_lft forever
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
3: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1460 qdisc noqueue
link/ether 0a:58:0a:f4:03:08 brd ff:ff:ff:ff:ff:ff
inet 10.244.3.8/24 scope global eth0
valid_lft forever preferred_lft forever
inet6 fe80::188a:84ff:feb0:26a5/64 scope link
valid_lft forever preferred_lft forever
...然后使用 wget
查询本地 Web 服务器
# Replace "10.0.170.92" with the IPv4 address of the Service named "clusterip"
wget -qO - 10.0.170.92
CLIENT VALUES:
client_address=10.244.3.8
command=GET
...
无论客户端 Pod 和服务器 Pod 是否在同一节点或不同节点中,client_address
始终是客户端 Pod 的 IP 地址。
Type=NodePort
的 Service 的源 IP
发送到 Type=NodePort
的 Service 的数据包默认情况下会被源 NAT。您可以通过创建一个 NodePort
Service 来测试这一点
kubectl expose deployment source-ip-app --name=nodeport --port=80 --target-port=8080 --type=NodePort
输出为
service/nodeport exposed
NODEPORT=$(kubectl get -o jsonpath="{.spec.ports[0].nodePort}" services nodeport)
NODES=$(kubectl get nodes -o jsonpath='{ $.items[*].status.addresses[?(@.type=="InternalIP")].address }')
如果您在云提供商上运行,您可能需要为上面报告的 nodes:nodeport
打开一个防火墙规则。现在您可以尝试通过上面分配的节点端口从集群外部访问该 Service。
for node in $NODES; do curl -s $node:$NODEPORT | grep -i client_address; done
输出类似于
client_address=10.180.1.1
client_address=10.240.0.5
client_address=10.240.0.3
请注意,这些不是正确的客户端 IP,它们是集群内部 IP。这是发生的情况
- 客户端将数据包发送到
node2:nodePort
node2
将数据包中的源 IP 地址 (SNAT) 替换为其自身的 IP 地址node2
将数据包上的目标 IP 替换为 Pod IP- 数据包路由到节点 1,然后路由到端点
- Pod 的回复路由回 node2
- Pod 的回复发送回客户端
直观地看
图. 使用 SNAT 的源 IP Type=NodePort
为了避免这种情况,Kubernetes 具有保留客户端源 IP的功能。如果您将 service.spec.externalTrafficPolicy
设置为值 Local
,则 kube-proxy 仅将代理请求代理到本地端点,而不会将流量转发到其他节点。此方法保留了原始源 IP 地址。如果没有本地端点,则发送到该节点的数据包将被丢弃,因此您可以依赖您可能应用于传输到端点的任何数据包处理规则中的正确源 IP。
按如下方式设置 service.spec.externalTrafficPolicy
字段
kubectl patch svc nodeport -p '{"spec":{"externalTrafficPolicy":"Local"}}'
输出为
service/nodeport patched
现在,重新运行测试
for node in $NODES; do curl --connect-timeout 1 -s $node:$NODEPORT | grep -i client_address; done
输出类似于
client_address=198.51.100.79
请注意,你只会收到一个回复,并且这个回复会带有正确的客户端 IP,这个回复来自运行端点 Pod 的那个节点。
以下是发生的情况:
- 客户端发送数据包到
node2:nodePort
,该节点没有任何端点。 - 数据包被丢弃。
- 客户端发送数据包到
node1:nodePort
,该节点确实有端点。 - node1 将数据包路由到端点,并且源 IP 地址正确。
直观地看
图示:Source IP Type=NodePort 保留客户端源 IP 地址
Type=LoadBalancer
服务的源 IP
默认情况下,发送到 Type=LoadBalancer
服务的的数据包会被源 NAT,因为所有处于 Ready
状态的可调度 Kubernetes 节点都有资格接收负载均衡的流量。因此,如果数据包到达一个没有端点的节点,系统会将其代理到有端点的节点,并将数据包的源 IP 替换为该节点的 IP(如前一节所述)。
你可以通过负载均衡器暴露 source-ip-app 来测试这一点。
kubectl expose deployment source-ip-app --name=loadbalancer --port=80 --target-port=8080 --type=LoadBalancer
输出为
service/loadbalancer exposed
打印出服务的 IP 地址。
kubectl get svc loadbalancer
输出类似于这样
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
loadbalancer LoadBalancer 10.0.65.118 203.0.113.140 80/TCP 5m
接下来,向该服务的外部 IP 发送请求。
curl 203.0.113.140
输出类似于这样
CLIENT VALUES:
client_address=10.240.0.5
...
但是,如果你在 Google Kubernetes Engine/GCE 上运行,将相同的 service.spec.externalTrafficPolicy
字段设置为 Local
会强制没有服务端点的节点通过故意失败的健康检查将其自身从有资格接收负载均衡流量的节点列表中移除。
直观地看
你可以通过设置以下注解来测试这一点:
kubectl patch svc loadbalancer -p '{"spec":{"externalTrafficPolicy":"Local"}}'
你应该立即看到 Kubernetes 分配的 service.spec.healthCheckNodePort
字段。
kubectl get svc loadbalancer -o yaml | grep -i healthCheckNodePort
输出类似于这样
healthCheckNodePort: 32122
service.spec.healthCheckNodePort
字段指向每个节点上提供 /healthz
健康检查的端口。你可以测试一下:
kubectl get pod -o wide -l app=source-ip-app
输出类似于这样
NAME READY STATUS RESTARTS AGE IP NODE
source-ip-app-826191075-qehz4 1/1 Running 0 20h 10.180.1.136 kubernetes-node-6jst
使用 curl
获取各个节点上的 /healthz
端点。
# Run this locally on a node you choose
curl localhost:32122/healthz
1 Service Endpoints found
在不同的节点上,你可能会得到不同的结果。
# Run this locally on a node you choose
curl localhost:32122/healthz
No Service Endpoints Found
在 控制平面 上运行的控制器负责分配云负载均衡器。同一控制器还会在每个节点上分配指向此端口/路径的 HTTP 健康检查。等待大约 10 秒钟,让没有端点的 2 个节点健康检查失败,然后使用 curl
查询负载均衡器的 IPv4 地址。
curl 203.0.113.140
输出类似于这样
CLIENT VALUES:
client_address=198.51.100.79
...
跨平台支持
只有一些云提供商通过 Type=LoadBalancer
的服务提供源 IP 保留的支持。你运行的云提供商可能会以几种不同的方式满足对负载均衡器的请求:
使用代理终止客户端连接,并打开与你的节点/端点的新连接。在这种情况下,源 IP 将始终是云 LB 的 IP,而不是客户端的 IP。
使用数据包转发器,这样,从客户端发送到负载均衡器 VIP 的请求最终会到达具有客户端源 IP 的节点,而不是中间代理。
第一类中的负载均衡器必须使用负载均衡器和后端之间约定的协议来通信真实的客户端 IP,例如 HTTP Forwarded 或 X-FORWARDED-FOR 标头,或者 proxy 协议。第二类中的负载均衡器可以通过创建一个 HTTP 健康检查来利用上述功能,该健康检查指向服务中存储在 service.spec.healthCheckNodePort
字段中的端口。
清理
删除服务。
kubectl delete svc -l app=source-ip-app
删除 Deployment、ReplicaSet 和 Pod。
kubectl delete deployment source-ip-app
下一步
- 了解有关通过服务连接应用程序的更多信息。
- 阅读如何创建外部负载均衡器。