别慌！服务器内核崩了？手把手教你用crash命令‘解剖’vmcore文件找真凶

张

张建站

2026/5/30 1:53:49

10分钟阅读

服务器内核崩溃现场勘查指南用crash工具解剖vmcore的刑侦思维凌晨三点当服务器突然宕机监控大屏一片飘红作为运维人员的你是否感到手足无措内核崩溃留下的vmcore文件就像犯罪现场的指纹和血迹而crash工具则是你的刑侦工具箱。本文将带你用法医视角从内存转储中重建崩溃现场找出导致系统命案的真凶。1. 案发现场保护获取有效vmcore的黄金法则在开始调查前确保获得完整的现场证据至关重要。许多失败的崩溃分析案例都源于不完整的vmcore收集。完整证据链的三大要素带调试符号的vmlinux文件相当于内核的DNA数据库未经压缩的原始vmcore文件案发现场的第一手资料与崩溃内核完全匹配的crash工具版本刑侦设备校准注意/boot目录下的vmlinuz是压缩后的内核映像就像被处理过的证物不适合直接用于分析。必须获取包含调试信息的vmlinux文件。获取调试版内核的两种途径# 方法一从官方仓库下载调试包 sudo debuginfo-install kernel-$(uname -r) # 方法二手动编译内核时确保开启调试选项 CONFIG_DEBUG_INFOy CONFIG_DEBUG_INFO_DWARF4y常见vmcore存储位置及完整性检查位置典型路径完整性检查命令本地存储/var/crash/日期/vmcorefile vmcore应显示ELF 64-bitNFS存储/netdump/主机名/vmcorels -lh检查文件大小是否合理紧急内存/proc/vmcore仅在kdump内核中可见当发现vmcore文件异常小时如只有几MB通常意味着kdump服务未正确配置磁盘空间不足导致转储中断内核崩溃过早发生在初始化阶段2. 现场重建启动crash工具的鉴证实验室启动crash分析环境就像进入鉴证实验室需要准备完整的证据链crash /usr/lib/debug/lib/modules/$(uname -r)/vmlinux /var/crash/latest/vmcore成功进入后首先记录现场概况crash sys KERNEL: /usr/lib/debug/lib/modules/4.18.0-348.el8.x86_64/vmlinux DUMPFILE: /var/crash/127.0.0.1-2023-07-15-03:45:22/vmcore CPUS: 48 DATE: Sat Jul 15 03:45:22 2023 UPTIME: 18:23:11 LOAD AVERAGE: 32.45, 28.76, 25.33 TASKS: 1342 NODENAME: prod-db-01 RELEASE: 4.18.0-348.el8.x86_64 MACHINE: x86_64 (4400 MHz) MEMORY: 251.5 GB PANIC: BUG: unable to handle kernel NULL pointer dereference at 0000000000000050 PID: 18742 COMMAND: kworker/u256:3 TASK: ffff94c4c2b1c040 CPU: 23 STATE: TASK_RUNNING (PANIC)关键信息解读PANIC信息相当于死亡原因初步判断崩溃时间结合监控数据定位关联事件崩溃进程锁定犯罪嫌疑人CPU和内存状态判断是否资源耗尽导致3. 痕迹追踪关键命令的刑侦技法3.1 回溯犯罪路径bt命令深度解析btbacktrace命令如同查看调用栈的监控录像展示崩溃前的函数调用轨迹crash bt 18742 PID: 18742 TASK: ffff94c4c2b1c040 CPU: 23 COMMAND: kworker/u256:3 #0 [ffffa9d9c3d83d48] crash_kexec at ffffffff9d2050d2 #1 [ffffa9d9c3d83df8] __crash_kexec at ffffffff9d0e1c42 #2 [ffffa9d9c3d83e08] panic at ffffffff9d0e1ef5 #3 [ffffa9d9c3d83e88] oops_end at ffffffff9d0e1f35 #4 [ffffa9d9c3d83ea0] no_context at ffffffff9d0e1f75 #5 [ffffa9d9c3d83ef0] __bad_area_nosemaphore at ffffffff9d0e1fc7 #6 [ffffa9d9c3d83f38] bad_area_nosemaphore at ffffffff9d0e201d #7 [ffffa9d9c3d83f48] __do_page_fault at ffffffff9d0e20a5 #8 [ffffa9d9c3d83fa8] do_page_fault at ffffffff9d0e211d #9 [ffffa9d9c3d83fd0] page_fault at ffffffff9d0e2155 [exception RIP: scsi_done16] RIP: ffffffffc0b5a010 RSP: ffffa9d9c3d83e80 RFLAGS: 00010246 RAX: 0000000000000000 RBX: ffff94c4c2b1c040 RCX: 0000000000000000 RDX: 0000000000000000 RSI: ffff94c4c2b1c040 RDI: 0000000000000050 RBP: ffffa9d9c3d83e80 R8: 0000000000000000 R9: 0000000000000000 R10: 0000000000000000 R11: 0000000000000000 R12: 0000000000000000 R13: 0000000000000000 R14: 0000000000000000 R15: 0000000000000000 ORIG_RAX: ffffffffffffffff CS: 0010 SS: 0018 #10 [ffffa9d9c3d83e88] scsi_finish_command at ffffffffc0b5a0a5 #11 [ffffa9d9c3d83ea0] scsi_io_completion at ffffffffc0b5a1d2 #12 [ffffa9d9c3d83ec0] blk_done_softirq at ffffffffc0b5a2f5关键线索提取技巧从下往上阅读调用栈找到最后一个业务相关函数本例为scsi_io_completion关注exception RIP指向的指令地址犯罪现场的第一手资料寄存器值分析RDI: 0000000000000050表示尝试访问0x50地址RAX: 0000000000000000可能指示NULL指针3.2 时间线重建log命令的鉴证应用log命令如同查看系统日志的监控记录展示崩溃前后的时间线crash log -m 20 [ 3452.671234] scsi 4:0:1:0: Direct-Access VMware Virtual disk 2.0 PQ: 0 ANSI: 5 [ 3452.671345] sd 4:0:1:0: [sdb] 8388608 512-byte logical blocks: (4.29 GB/4.00 GiB) [ 3452.671348] sd 4:0:1:0: [sdb] Write Protect is off [ 3452.671349] sd 4:0:1:0: [sdb] Mode Sense: 61 00 00 00 [ 3452.671678] sd 4:0:1:0: [sdb] Write cache: disabled, read cache: enabled, doesnt support DPO or FUA [ 3452.672012] sdb: sdb1 [ 3452.672345] sd 4:0:1:0: [sdb] Attached SCSI disk [ 3452.673456] BUG: unable to handle kernel NULL pointer dereference at 0000000000000050 [ 3452.673458] PGD 0 P4D 0 [ 3452.673459] Oops: 0000 [#1] SMP PTI [ 3452.673460] CPU: 23 PID: 18742 Comm: kworker/u256:3 Tainted: G OE 4.18.0-348.el8.x86_64 #1日志分析要点时间戳跳跃检查崩溃前是否有异常时间间隔设备状态变化本例显示SCSI磁盘(sdb)的挂载过程内核消息等级BUG/Oops等关键词定位关键事件3.3 反汇编鉴证dis命令的深度应用dis命令如同对机器指令进行指纹比对精确锁定问题代码crash dis -l scsi_done16 5 /build/linux-4.18.0/linux-4.18.0/drivers/scsi/scsi_lib.c: 1024 0xffffffffc0b5a010 scsi_done16: mov 0x50(%rdi),%rax 0xffffffffc0b5a014 scsi_done20: mov (%rax),%rdx 0xffffffffc0b5a017 scsi_done23: test %rdx,%rdx 0xffffffffc0b5a01a scsi_done26: je 0xffffffffc0b5a030 scsi_done48 0xffffffffc0b5a01c scsi_done28: mov %rsi,%rdi关键发现崩溃发生在scsi_done16即尝试从RDI0x50读取数据前文显示RDI0000000000000050因此访问0x500x500xa0导致页错误结合源码位置(drivers/scsi/scsi_lib.c:1024)可精确定位问题代码3.4 内存取证kmem和vm的专业分析内存状态如同犯罪现场的物证分布kmem和vm命令提供专业分析系统内存全景图crash kmem -i PAGES TOTAL PERCENTAGE TOTAL MEM 251.5 GB ---- FREE 145.2 GB 57.7% of TOTAL MEM USED 106.3 GB 42.3% of TOTAL MEM SLAB 25.8 GB 10.3% of TOTAL MEM可疑进程内存分析crash vm 18742 PID: 18742 COMMAND: kworker/u256:3 MM PGD RSS TOTAL_VM ffff94c4c2b1c040 ffff94c4c2b1c040 0kb 0kb VMA START END FLAGS FILE ffff94c4c2b1c040 0 0 00000000 No process memory space异常现象解读worker进程显示0内存占用不符合常理可能内核线程内存统计异常或进程信息损坏结合SLAB内存占用较高(25.8GB)可能存在内存泄漏4. 真相还原崩溃分析的刑侦报告通过以上调查我们可以重建犯罪现场直接死因NULL指针解引用访问0x50地址触发路径SCSI磁盘操作触发scsi_io_completion调用链最终执行到scsi_done16的mov 0x50(%rdi),%rax由于RDI0x50导致访问非法地址深层原因SCSI层与块设备层的回调机制存在竞态条件内存释放后未清空指针被工作线程误用环境因素高负载导致竞态窗口更容易被触发内核版本已知问题已在后续版本修复根治建议立即升级到修复版本4.18.0-349.el8或更高临时规避方案echo N /sys/module/scsi_mod/parameters/scan_sync加强SCSI设备异常状态监控在真实的运维环境中每个内核崩溃案例都像一宗独特的罪案。掌握crash工具这套刑侦技术你就能从vmcore这片数字废墟中找出真相让服务器重获新生。

龙城秘境手游官网下载：龙城秘境最新官方下载渠道

龙城秘境手游官网下载：龙城秘境最新官方下载渠道《龙城秘境 - 觉醒合击》是安徽游昕联合忆往游戏运营的正版复古 180 合击传奇手游，三职业觉醒六大合击组合，不卖 VIP、不卖属性商城，装备全靠打、元宝全靠爆，散人友…...

2026/5/30 1:45:52 阅读更多 →

智慧党建系统都能解决哪些问题？

随着互联网技术的发展，智慧党建系统逐渐在各级党建工作中应用开来，但也有部分人对这套系统了解不深，今天就快速了解下，智慧党建系统都能解决哪些问题？1、纸质台账繁杂，基层人员负担重的问题智慧党建系统在为…...

2026/5/30 1:45:18 阅读更多 →

从怀疑智商税到真香！2026年视频内容总结工具，我用了半年只留这一款

做技术的要整理访谈调研录音，做内容的要转知识付费课程写总结，学生要转课堂讲座划重点，医疗法律要转问诊咨询留底，不同人对录音转写内容总结工具的需求差得远——有人要准，有人要快，有人要能识别方言&#…...

2026/5/30 1:40:59 阅读更多 →

ML模型监控工具：监控和维护机器学习模型的性能

ML模型监控工具：监控和维护机器学习模型的性能一、ML模型监控工具概述 1.1 ML模型监控工具的定义 ML模型监控工具是指用于监控和维护机器学习模型性能的软件工具。它通过收集模型的预测数据、性能指标和数据质量，帮助用户了解模型的状态，及时…...

2026/5/26 19:26:34 阅读更多 →

AI 开发工具选择指南：Qoder、Qwen 与开发者使用策略

AI 开发工具选择指南：Qoder、Qwen 与开发者使用策略引言在 AI 技术快速发展的今天，越来越多的 AI 工具涌现出来，帮助开发者提高工作效率。但对于许多开发者来说，面对众多的 AI 产品和服务，往往感到困惑：这…...

2026/5/29 11:42:12 阅读更多 →

全平台资源下载神器：5分钟掌握res-downloader的完整使用指南

全平台资源下载神器：5分钟掌握res-downloader的完整使用指南【免费下载链接】res-downloader 视频号、小程序、抖音、快手、小红书、直播流、m3u8、酷狗、QQ音乐等常见网络资源下载! 项目地址: https://gitcode.com/GitHub_Trending/re/res-downloader 还在…...

2026/5/29 4:41:15 阅读更多 →

2024三星固件下载完整指南：Bifrost跨平台工具终极解决方案

2024三星固件下载完整指南：Bifrost跨平台工具终极解决方案【免费下载链接】Bifrost Cross-platform tool for downloading Samsung mobile device firmware. 项目地址: https://gitcode.com/gh_mirrors/sa/Bifrost 还在为三星设备固件下载而烦恼吗&#xff…...

2026/5/29 11:37:03 阅读更多 →