Linux下本机UDP性能调优

linux 下本机 udp 收发如何进行性能调优？

在 Linux 下进行本机（Localhost / Loopback）UDP 收发性能调优，主要瓶颈通常在于系统调用开销（System Call Overhead）、上下文切换（Context Switch）以及内核缓冲区大小（Kernel Buffer Size），而不是网络带宽。

以下是从应用程序代码层到内核参数配置层的全方位调优指南：

一、代码层面的调优 (Application Level)

这是提升性能最显著的地方，比调内核参数更有效。

1. 使用批量收发接口 (`sendmmsg` / `recvmmsg`)

标准的 sendto 和 recvfrom 每次调用都会触发一次系统调用（用户态 $\leftrightarrow$ 内核态切换）。 Linux 提供了 sendmmsg 和 recvmmsg，允许一次系统调用处理多个数据包。

原理：减少上下文切换次数。
收益：在小包高并发场景下，CPU 占用率可降低 30%-50%。

示例：

struct mmsghdr msgs[VLEN];
// 填充 msgs 数组...
retval = sendmmsg(sockfd, msgs, VLEN, 0);

2. 多线程与 `SO_REUSEPORT`

如果是本机高吞吐场景，单线程往往跑不满 CPU。使用多线程同时收发，并利用 SO_REUSEPORT 选项。

原理：允许多个 socket 绑定到同一个 IP:PORT。内核会根据哈希算法将数据包负载均衡分发给不同的线程/进程。

设置：

int opt = 1;
setsockopt(sockfd, SOL_SOCKET, SO_REUSEPORT, &opt, sizeof(opt));

注意：这能有效分散软中断（SoftIRQ）和处理逻辑到不同 CPU 核心上。

3. 增大 Socket 缓冲区 (`SO_RCVBUF` / `SO_SNDBUF`)

默认的 socket 缓冲区可能只有 200KB 左右，对于高速 UDP 很容易溢出导致丢包。

设置：

int size = 10 * 1024 * 1024; // 设置为 10MB 或更大
setsockopt(sockfd, SOL_SOCKET, SO_RCVBUF, &size, sizeof(size));
setsockopt(sockfd, SOL_SOCKET, SO_SNDBUF, &size, sizeof(size));

4. 利用 Loopback 的 MTU 特性

本机通信走的是 lo 接口。通常 lo 接口的 MTU 是 65536。

策略：不要发送 1500 字节的小包。如果应用层协议允许，直接发送接近 64KB 的大包。
收益：大幅减少系统调用次数和协议栈处理头部的时间。

5. 开启 UDP GRO (Generic Receive Offload)

Linux 4.18+ 支持 UDP GRO，允许内核将多个小 UDP 包聚合为一个大的数据包交给应用层。

设置：
```
int opt = 1;
setsockopt(fd, IPPROTO_UDP, UDP_GRO, &opt, sizeof(opt));
```
配合 recvmsg 使用，应用层一次读取可以拿到聚合后的大包（需要解析 cmsg 里的 UDP_GRO 字段来确定分段大小）。

二、内核参数调优 (Kernel Sysctl)

通过修改 /etc/sysctl.conf 来解除操作系统层面的限制。

1. 调整接收/发送缓冲区上限

代码中设置 SO_RCVBUF 不能超过内核的硬限制 (rmem_max)。

# 最大接收缓冲区大小 (字节)，建议 25MB - 50MB
sysctl -w net.core.rmem_max=52428800
# 最大发送缓冲区大小
sysctl -w net.core.wmem_max=52428800
# 默认值也调大
sysctl -w net.core.rmem_default=26214400
sysctl -w net.core.wmem_default=26214400

2. 调整 UDP 内存限制

这是针对整个 UDP 协议栈的内存限制（单位是 page，通常 4KB）。

# min, pressure, max
# 下面设置 max 为大约 3GB (根据物理内存调整)
sysctl -w net.ipv4.udp_mem="768432 1024576 1536864"

3. 调整网络设备积压队列 (`netdev_max_backlog`)

当内核处理速度慢于网卡（或虚拟接口）接收速度时，包会被缓存在队列中。

sysctl -w net.core.netdev_max_backlog=50000

三、硬件与系统层面的调优 (System & Hardware)

虽然是本机通信，但 CPU 的调度依然关键。

1. CPU 亲和性 (CPU Affinity)

确保发送进程和接收进程绑定在特定的 CPU 核心上，避免 CPU 频繁迁移导致缓存失效。

工具：taskset 或在代码中使用 pthread_setaffinity_np。
策略：如果是双路 CPU (NUMA)，确保收发进程在同一个 NUMA 节点上，减少跨内存访问延迟。

2. 隔离核心 (Isolcpus)

在极低延迟场景下，可以在 grub 启动参数中隔离几个 CPU 核心，专门用于运行你的 UDP 程序，避免被操作系统调度器打断。

四、监控与排查 (Monitoring)

怎么知道调优有没有效果？

1. 查看 UDP 丢包情况

# 查看详细的 SNMP 统计
cat /proc/net/snmp | grep Udp:
# 或者
netstat -su

关注以下字段：

RcvbufErrors: 接收缓冲区满导致的丢包（说明应用读得慢，或者缓冲区太小）。
SndbufErrors: 发送缓冲区满。
InErrors: 数据包错误。

2. 监控系统调用开销

使用 strace -c -p <pid> 查看程序在系统调用上花费的时间比例。如果 sendto/recvfrom 占比极高，必须上 mmsg 批量接口。

3. 监控软中断

使用 mpstat -P ALL 1 查看 %soft 列。如果某个核软中断太高（接近 100%），说明该核处理不过来了，需要多队列或 SO_REUSEPORT 分摊。

总结：调优优先级清单

代码改动：使用 sendmmsg/recvmmsg（收益最大）。
Socket 选项：增大 SO_RCVBUF/SO_SNDBUF（解决丢包最直接）。
代码改动：使用多线程 + SO_REUSEPORT（提升多核利用率）。
内核参数：调大 net.core.rmem_max 等（配合第2步）。
本机策略：利用 Localhost 的大 MTU 发送大包。
高级手段：CPU 绑核 (Affinity)。

如果这些做完性能还不够（例如需要单机 500万+ QPS），可能需要考虑 Kernel Bypass 技术（如 eBPF/XDP 或 DPDK），但这通常用于物理网卡，本机回环通信很少用到这么重的方案。

如果是使用本机的 unix_socket ，能否大幅提高性能？

答案是：是的，通常会有显著的性能提升。

如果你的应用场景仅限于本机通信，不需要跨机器，那么从 UDP (AF_INET) 切换到 Unix Domain Socket (AF_UNIX / AF_LOCAL) 的 SOCK_DGRAM 模式，通常能带来 2倍甚至更高 的吞吐量提升，同时显著降低 CPU 使用率和延迟。

以下是具体的对比分析和性能提升原因：

1. 为什么 Unix Domain Socket (UDS) 更快？

核心原因在于内核路径（Kernel Path）的大幅缩短。

本机 UDP (IPv4/IPv6 Loopback): 即使是本机回环，数据包也必须走完整的 TCP/IP 协议栈流程：

Socket 层 $\rightarrow$ 传输层 (UDP 封包) $\rightarrow$ 网络层 (IP 封包/查路由表) $\rightarrow$ Netfilter/iptables 防火墙规则检查 $\rightarrow$ Loopback 设备 $\rightarrow$ 网络层 (IP 解包) $\rightarrow$ 传输层 (UDP 解包) $\rightarrow$ Socket 层。
- 开销点：需要计算/验证校验和（虽然本机常被 Offload，但仍有开销）、需要查路由、需要经过防火墙钩子（这是性能杀手）、需要处理 IP 分片等。
Unix Domain Socket (UDS): 数据仅仅是在内核内存中进行复制：

Socket 层 $\rightarrow$ UDS 内部逻辑 (VFS/内存拷贝) $\rightarrow$ Socket 层。
- 优势：
  1. 跳过协议栈：不走 IP 层，不走 UDP 层。
  2. 无头部开销：不需要封装/解封装 IP 头（20字节）和 UDP 头（8字节），有效载荷效率更高。
  3. 无路由与防火墙：完全忽略 iptables/nftables 规则。
  4. 无校验和：内存复制被认为是可靠的，不需要计算 Checksum。

2. 性能差异有多大？

根据常见的 Benchmark（如 Redis 的 benchmark 或 iperf3 的变种）：

吞吐量 (Throughput)：UDS 通常比本机 TCP/UDP 快 30% - 100%。
延迟 (Latency)：UDS 的平均延迟通常比 Loopback 低 50% 以上（微秒级差异）。
Context Switch：虽然两者都需要系统调用，但 UDS 在内核态停留的时间更短，让 CPU 能处理更多的请求。

3. UDS 的 `SOCK_DGRAM` vs `SOCK_STREAM`

既然你原本使用的是 UDP，切换时建议使用 AF_UNIX + SOCK_DGRAM，这样可以保留“数据报”的语义（保留消息边界），代码改动最小。

可靠性差异：
- UDP：本质是不可靠的。即使在本机，如果接收缓冲区满了，包也会被静默丢弃。
- UDS (DGRAM)：在 Linux 实现中，它是可靠且有序的。它不会出现乱序。如果接收队列满了，发送方会收到 EAGAIN (非阻塞模式) 或阻塞等待 (阻塞模式)，而不会像 UDP 那样直接丢包。这使得应用层处理更加简单。

4. 代码迁移指南

从 UDP 切换到 UDS 非常简单，主要是 socket 创建和地址结构体的变化。

1. 创建 Socket

// 旧 (UDP)
int sockfd = socket(AF_INET, SOCK_DGRAM, 0);

// 新 (UDS)
int sockfd = socket(AF_UNIX, SOCK_DGRAM, 0);

2. 地址结构体

使用 struct sockaddr_un 绑定到一个文件路径，而不是 struct sockaddr_in 绑定 IP 端口。

#include <sys/un.h>

struct sockaddr_un addr;
memset(&addr, 0, sizeof(addr));
addr.sun_family = AF_UNIX;
// 绑定的文件路径，建议放在 /dev/shm/ 或 /tmp/ 下
strncpy(addr.sun_path, "/tmp/mysocket.sock", sizeof(addr.sun_path) - 1);

// 注意：bind 之前需要 unlink 掉已经存在的文件，否则会报错 Address already in use
unlink("/tmp/mysocket.sock");
bind(sockfd, (struct sockaddr*)&addr, sizeof(addr));

5. 什么时候不应该用 UDS？

虽然 UDS 性能好，但有几个限制：

无法跨机：这是最明显的，如果未来你的服务需要拆分到不同机器，代码需要改回 TCP/UDP。
文件权限：UDS 依赖文件系统路径，需要处理好 chmod/chown 权限问题，否则不同用户运行的进程无法通信。
连接数/文件描述符：在大规模并发场景下，依然受限于文件描述符限制（但这和 socket 一样）。

6. 终极性能方案：共享内存 (Shared Memory)

如果切换到 Unix Socket 后性能依然无法满足需求（例如需要微秒级延迟或几十 GB/s 的吞吐），那么下一步就是 共享内存 (Shared Memory) 加上 无锁队列 (Lock-free Ring Buffer)。

UDP/UDS：数据路径是 User A -> Kernel -> User B (两次内存拷贝)。
Shared Memory：数据路径是 User A -> RAM -> User B (零拷贝，Zero Copy)。

总结：如果是本机 UDP 优化，强烈建议切换到 Unix Domain Socket。这是性价比最高的改动，代码修改量小，性能提升大（通常翻倍），且不仅提高了吞吐，还增加了传输的可靠性。

linux 下本机 udp 收发如何进行性能调优？​

一、 代码层面的调优 (Application Level)​

1. 使用批量收发接口 (sendmmsg / recvmmsg)​

2. 多线程与 SO_REUSEPORT​

3. 增大 Socket 缓冲区 (SO_RCVBUF / SO_SNDBUF)​

4. 利用 Loopback 的 MTU 特性​

5. 开启 UDP GRO (Generic Receive Offload)​

二、 内核参数调优 (Kernel Sysctl)​

1. 调整接收/发送缓冲区上限​

2. 调整 UDP 内存限制​

3. 调整网络设备积压队列 (netdev_max_backlog)​

三、 硬件与系统层面的调优 (System & Hardware)​

1. CPU 亲和性 (CPU Affinity)​

2. 隔离核心 (Isolcpus)​

四、 监控与排查 (Monitoring)​

1. 查看 UDP 丢包情况​

2. 监控系统调用开销​

3. 监控软中断​

总结：调优优先级清单​

如果是使用本机的 unix_socket ，能否大幅提高性能？​

1. 为什么 Unix Domain Socket (UDS) 更快？​

2. 性能差异有多大？​

3. UDS 的 SOCK_DGRAM vs SOCK_STREAM​

4. 代码迁移指南​

1. 创建 Socket​

2. 地址结构体​

5. 什么时候不应该用 UDS？​

6. 终极性能方案：共享内存 (Shared Memory)​