知识图谱与历史决策增强让智能渗透测试更“会记忆”、更高效传统渗透测试依赖安全专家经验成本高、效率低而强化学习虽然带来了自动化能力却仍面临“场景不统一”和“决策不记历史”两大难题。这篇论文提出了一种融合知识图谱驱动场景构建与历史决策增强的智能渗透测试方法试图让智能体不仅“会尝试”还要“会积累经验、会避免重复、会形成连续攻击逻辑”。01研究背景渗透测试为什么需要智能化渗透测试是一种主动式网络安全评估方法它通过模拟真实攻击过程发现系统中可能被利用的漏洞并评估整体安全状态。但在实际应用中传统渗透测试高度依赖安全专家需要人工分析目标环境需要人工选择攻击路径需要人工判断漏洞利用顺序需要人工根据前一步结果调整后续策略。这导致渗透测试普遍存在三个问题效率低、成本高、难以规模化。因此近年来研究者开始尝试将强化学习引入渗透测试让智能体通过与网络环境交互自动学习攻击策略。不过作者指出现有强化学习式智能渗透测试仍然不够成熟主要卡在两个核心问题上。02论文要解决的两个关键痛点痛点一实验场景不统一研究结果难比较很多已有研究都使用自定义的模拟网络环境。这会带来一个很现实的问题不同论文使用的网络场景不同漏洞配置不同拓扑结构不同实验结果自然也难以横向比较。换句话说智能渗透测试领域缺少一种可复用、可扩展、可标准化的测试场景构建方式。这会影响模型训练也会影响研究结果复现。痛点二智能体“不记历史”攻击逻辑容易碎片化渗透测试本质上是一个连续过程。前一步发现了什么主机、获得了什么权限、暴露了什么凭据都会影响下一步决策。但很多强化学习模型更关注“当前状态 → 当前动作”的单步映射忽略了历史决策信息。于是会出现两个典型问题动作级重复执行已经成功执行过的攻击动作智能体又执行一遍节点级无效探索已经完全控制的节点智能体仍继续扫描或探索。作者认为这些问题的根源在于现有模型没有充分利用攻击链中的时间相关性也没有把历史决策经验显式纳入当前决策。03整体思路知识图谱 历史决策增强针对上述两个问题作者提出了一个双模块框架知识图谱驱动的自动化网络场景构建历史决策增强的智能渗透测试模型前者解决“实验场景怎么来”的问题后者解决“智能体怎么决策”的问题。简单来说知识图谱负责生成更真实、更标准化的网络测试环境历史决策增强机制负责让智能体记住过去的状态和动作减少重复与无效探索。这两个模块共同构成论文的核心方法。04第一部分知识图谱驱动的网络场景构建作者首先构建了一个面向渗透测试的网络知识图谱。这个知识图谱并不是单纯记录漏洞列表而是把渗透测试过程中涉及的关键元素结构化表示出来。主要包括操作系统操作系统版本运行服务服务组件版本开放端口通信协议漏洞漏洞类型漏洞影响范围漏洞利用结果。这些实体之间还存在关系例如某个服务开放某个端口某个漏洞存在于某个服务某个漏洞影响某个操作系统版本某个漏洞属于远程漏洞或本地漏洞。这样一来网络环境就不再是随机拼凑的而是可以基于真实漏洞知识进行组合。作者在数据处理阶段整合了已有研究和公开漏洞数据并进一步补充漏洞编号、漏洞类型、受影响系统、受影响服务、端口等信息。随后这些信息被导入 Neo4j 图数据库。论文中提到当前知识图谱包含661 个节点1630 条边。在实验环境中知识图谱进一步整合了105 种操作系统类型290 种服务类型及版本信息206 个 CVE 漏洞操作系统—服务、服务—漏洞之间的关联关系。这为自动化生成网络场景提供了基础。网络场景是如何自动生成的作者的场景生成过程大致分为四步。第一步确定网络节点数量。节点数量可以手动指定也可以随机生成。第二步生成网络拓扑。作者使用一个矩阵表示节点之间的连通关系。如果矩阵中某个位置为 1表示一个节点可以到达另一个节点如果为 0则表示不可达。同时场景中必须至少包含一个入口节点作为渗透测试的起点。第三步生成节点属性。每个节点会被配置操作系统、服务、漏洞、端口、防火墙规则、凭据信息等。作者参考 CyberBattleSim将节点配置划分为 12 个组成部分并进一步归纳成三层结构属性描述节点本身例如操作系统、服务、漏洞防御属性描述访问控制例如防火墙规则、防御修改记录动态状态属性描述攻击过程中的变化例如节点是否被攻陷、权限等级等。第四步确定漏洞利用结果。漏洞利用结果可能包括获得更高权限泄露其他节点信息泄露凭据发现新的攻击路径。由此一个可用于智能渗透测试训练和验证的网络场景就被构建出来。05第二部分历史决策增强模型论文的第二个核心创新是构建一个“历史决策增强”的智能渗透测试模型。作者认为智能体不能只看当前网络状态还应该理解过去发生了什么。因此作者把历史信息分成两类处理历史状态过去的网络状态如何变化历史动作哪些动作已经执行过哪些动作已经没有价值。1状态时序处理把单点状态变成状态序列传统方法通常只输入当前时刻的网络状态。作者则引入固定长度的历史状态窗口。也就是说模型输入的不再是单个状态而是当前状态 过去若干个历史状态。这些状态按照时间顺序堆叠形成一个三维时序状态张量。这样模型就可以观察到网络状态随攻击步骤的变化过程。例如哪些节点是逐步被发现的哪些节点是逐步被控制的哪些权限是在前序动作后获得的哪些动作没有带来状态变化。这种设计让智能体具备更强的攻击链理解能力。2无效状态压缩避免重复状态干扰模型在渗透测试中有些动作是无效的。比如智能体尝试攻击一个不可达节点环境状态不会发生变化。如果把这些重复不变的状态全部放入历史窗口就会造成冗余甚至稀释真正有价值的状态变化。因此作者设计了状态变化检测机制如果动作后状态没有变化就不把重复状态加入窗口只记录动作执行标记如果连续出现多个无效动作就压缩成一个时间步并附加持续次数标记。这样可以保留“发生过无效尝试”这一信息同时避免历史状态序列被大量重复状态污染。3动作动态过滤把没必要的动作提前剔除除了处理状态作者还处理动作空间。作者发现智能体常见的无效动作主要有两类第一类动作级重复执行某个动作已经成功执行过再执行一次不会带来新的收益。例如一个漏洞已经成功利用重复利用同一个漏洞通常不会推动攻击进程。第二类节点级无效探索某个节点已经被完全控制再继续执行初始扫描或重复探索也不会产生新的攻击价值。因此作者提出动作动态过滤机制对已经成功执行过的动作进行过滤对已经完全控制的节点上的无效探索动作进行过滤在过滤后的动作集合中再选择 Q 值最高的动作执行。这种机制相当于在智能体决策前先做一次“经验筛选”。它不是替代强化学习而是帮助强化学习少走弯路。4模型并不破坏强化学习框架作者还从 MDP 角度解释了方法的合理性。虽然模型引入了历史状态但这并不意味着破坏马尔可夫性质。因为作者不是让模型依赖无限历史而是把固定窗口内的历史信息整合进“增强后的当前状态”。也就是说当前状态被扩展为当前网络状态 最近历史状态序列 历史动作信息。未来决策仍然依赖这个增强后的当前状态因此仍然符合强化学习的基本建模逻辑。此外动作动态过滤机制是一个“即插即用”的模块不仅可以结合 DQN也可以结合 AC、PPO 等强化学习算法。06实验设计作者验证了三个问题论文围绕三个研究问题展开实验。RQ1知识图谱驱动方法能否自动生成网络场景作者使用知识图谱自动生成 Random1 和 Random2 两个随机网络场景并验证这些场景是否能用于智能渗透测试训练。RQ2动作过滤会不会影响最优决策这是一个关键问题。如果过滤机制误删了有效动作模型可能无法找到最优攻击路径。因此作者比较了基础算法与加入动作过滤后的算法观察它们是否能达到相同或更高的最终奖励。RQ3历史决策增强能否提升效率和稳定性作者将历史增强模型与多个基线模型进行比较包括DQN validHDRLAAACHDRLHFLSTM-DQNLSTM-PPOTransformer-DQN。每个模型在不同场景中执行 100 次完整决策过程比较平均完成任务所需迭代次数、累计奖励变化、重复动作数量和无效动作数量。07实验结果历史增强显著减少冗余决策结果一自动化场景生成效率高作者报告在 15 个节点的网络场景中端到端自动生成时间低于 1 分钟。这说明知识图谱驱动方法可以有效降低人工构建实验场景的成本。同时作者还开源了知识图谱数据集和场景生成脚本使其他研究者可以复用和扩展该场景构建框架。结果二动作过滤不会破坏最优策略在 RQ2 中作者发现加入动作过滤后模型仍然可以收敛到相同的最终累计奖励。这说明动作过滤没有删除真正有价值的动作。更重要的是它显著提升了收敛速度。论文中指出DQN Filtering 在所有场景中都能在 1500 次迭代内稳定而基础 DQN 在复杂场景中可能需要接近 20000 次迭代。整体来看DQN Filtering 的收敛速度提升约 88%。同时动作过滤机制扩展到 AC 和 PPO 后也表现出明显提升AC Filtering 收敛速度提升 97.04%PPO Filtering 收敛速度提升 91.51%。结果三历史决策增强大幅降低任务迭代次数在 RQ3 中历史决策增强模型在多个场景中显著减少完成任务所需的平均迭代次数。最明显的例子出现在 Network4 场景DQN valid 从 1343.00 次迭代降低到 31.00 次下降幅度达到 97.69%。对于原本已经表现较好的 HDRLHF历史增强仍然带来进一步提升。例如Network4 中从 55.11 次降低到 35.79 次Random2 中从 18.28 次降低到 12.00 次。这说明历史决策增强不仅能改善普通模型也能继续增强已有高性能模型。结果四相比 LSTM 和 Transformer作者方法更适合该任务论文还比较了 LSTM-DQN、LSTM-PPO 和 Transformer-DQN。这些模型理论上也能处理序列信息但实验结果显示它们在渗透测试任务中迭代次数明显更高。作者据此认为单纯引入通用序列模型并不一定能有效转化为多步渗透测试决策能力。相比之下作者方法不是简单堆叠序列模型而是结合渗透测试任务特点显式处理历史状态变化重复动作已控制节点无效探索攻击路径连续性。因此它在效率和稳定性上更有优势。结果五重复动作和无效动作被完全消除作者进一步统计了两类问题动作动作级重复执行节点级无效探索。结果显示只引入状态时序处理时这两类问题已经明显减少。而在状态时序处理基础上继续加入动作动态过滤后动作级重复执行和节点级无效探索被完全消除。这意味着模型不再反复执行已经成功过的动作也不再对已经完全控制的节点进行无意义探索。09结语智能渗透测试不只是“自动攻击”而是“会积累经验的决策”总体来看这篇论文围绕智能渗透测试中的两个关键瓶颈展开场景如何标准化决策如何利用历史作者给出的答案是用知识图谱构建可复用的网络测试环境用历史决策增强机制提升智能体的连续决策能力。这使智能渗透测试从单纯的“自动执行动作”进一步走向“理解状态演化、避免重复试错、形成稳定攻击路径”的方向。从实验结果看该方法不仅提高了任务完成效率也减少了无效动作和重复动作为强化学习在渗透测试中的实际应用提供了一条更清晰的技术路线。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】