一、故障背景某云计算数据中心部署了一套基于DPDK的软件交换机。系统承担:VXLAN Overlay网络大规模二层转发三层路由转发ACL访问控制镜像流量复制Telemetry采集硬件配置如下:项目配置CPUIntel Xeon Gold 6338网卡Intel X710 Dual Port 10GDPDK22.11 LTSPMD线程16NUMA双路ACL规则12万条MAC表200万条系统上线初期运行稳定。随着租户增长:ACL规则 2万 ↓ 5万 ↓ 8万 ↓ 12万问题逐渐暴露。业务侧开始反馈:TCP重传增加SSH偶发卡顿VXLAN Overlay时延波动BGP邻居偶发重连最奇怪的是:所有PMD线程始终100%。因此最初排除了CPU资源不足的问题。二、故障现象分析查看交换机监控。发现:指标数值CPU利用率100%PPS9.8M链路利用率63%丢包率0.03%NIC Error0没有明显异常。继续查看:rte_eth_stats_get()统计:imissed = 0 ierrors = 0 rx_nombuf = 0说明:不是网卡丢包。三、第一层定位:交换机转发路径系统转发架构如下。