文章目录摘要1 研究背景2 系统与优化建模2.1 系统建模3 基于监督学习的算法设计3.1、训练数据生成3.2 考虑约束的损失函数设计4 总结摘要本文针对无人机安全通信场景中的轨迹与功率联合优化问题提出了一种基于深度监督学习的求解框架。在该场景中一架固定高度飞行的无人机需在给定起点和终点之间规划水平轨迹并动态调整发射功率以在满足最大速度约束的前提下最大化飞行全程的平均保密速率。由于该优化问题具有非凸、高维和约束耦合的特点本文未直接求解而是采用数据驱动的监督学习方法通过利用贝塞尔曲线、正弦谐波扰动、窃听者避让、合法者吸引等规则生成大量“场景–参考轨迹–参考功率”样本然后送入神经网络中进行训练。实验结果表明方法的有效性。1 研究背景近年来无人机UAV凭借其高机动性、低成本及灵活部署的优势在应急通信、环境监测、军事侦察及物联网数据采集等场景中得到广泛应用。无人机常作为空中移动基站或中继节点为地面用户提供无线连接。然而无线信道的广播特性使通信极易遭受窃听攻击特别是在无人值守或敌对环境中窃听者可能截获机密信息造成严重的安全威胁。因此如何在保障通信服务质量的同时提升物理层安全性成为无人机通信系统设计的核心问题之一。物理层安全技术通过利用信道差异性来防止窃听无需上层加密特别适合资源受限的无人机平台。其中动态调整无人机飞行轨迹和发射功率可以有效增大合法用户与窃听者之间的信道质量差距从而提升保密速率。然而轨迹与功率的联合优化面临严峻挑战一方面目标函数如平均保密速率非凸、约束条件最大速度、起点/终点固定、功率限制耦合性强另一方面任务时域长、状态空间连续传统优化方法如凸逼近、动态规划计算复杂难以满足实时决策需求。已有研究如交替优化、连续凸逼近等通常将问题分解为轨迹和功率两个子问题迭代求解。虽然能获得较好的局部最优解但需要大量迭代计算每次环境变化如用户位置移动均需重新求解无法在线快速响应。此外模型依赖精确的信道假设鲁棒性较差。深度学习的兴起为复杂优化问题提供了新的思路。其中监督学习可以通过模仿专家轨迹实现快速映射强化学习则通过与环境交互直接优化累积奖励有望突破传统方法的瓶颈。2 系统与优化建模2.1 系统建模考虑个无人机UAV作为空中移动基站在固定高度飞行为一组地面合法用户提供下行数据传输服务同时存在一个地面窃听者试图截获机密信息UAV飞行区域为二维水平面。令UAV在时隙t的水平位置为且无人机有最大飞行速率约束即系统包含 N个合法用户和 一个窃听者。所有地面节点位置固定且已知。记第 i个用户的位置的位置为令集合g表示地面用户的集合包含合法者和窃听者简单点假设合法用户之间的接收信号正交则接收信号的SINR为合法用户的可达速率为系统的保密和速率为则整个飞行任务期间系统的平均保密速率为本项目旨在通过联合优化UAV的轨迹和功率分配最大化UAV飞行期间的系统的平均保密速率考虑UAV的飞行范围约束飞行速率约束以及基站功率约束。该优化问题具有非凸、高维、约束耦合的特点难以直接求解全局最优。因此采用将其转化为有监督回归问题预先生成的启发式专的轨迹与功率作为标签训练神经网络去模仿那些高保密速率且满足约束的轨迹。3 基于监督学习的算法设计3.1、训练数据生成基于启发式算法生成满足物理约束、且体现安全与性能折衷的参考轨迹和参考功率可以理解为局部最优解或者可行解同时计算该参考解对应的保密速率 然后将场景中的特征起点、终点、传感器/窃听者位置、轨迹特征拼接为输入特征向量与参考轨迹、参考功率、保密速率一起存储重复多次生成数据集。3.2 考虑约束的损失函数设计轨迹监督损失L t r a j L_{traj}Ltraj​为用于迫使网络预测的无人机水平位置 尽可能接近由启发式专家生成的参考轨迹功率监督损失L p o w e r L_{power}Lpower​用于让预测的发射功率贴近参考功率速度约束惩罚L v e l L_{vel}Lvel​如果相邻时隙的步长超过了最大允许位移 Δmax则施加平方惩罚否则惩罚为0端点约束损失L e n d L_{end}Lend​用于惩罚预测轨迹的起始点和终点与固定起点、终点的偏差。确保无人机从规定位置起飞并在任务结束时精确到达终点。该项权重很大用来确保无人机能够飞到终点窃听者避让惩罚L e v e L_{eve}Leve​当预测的无人机位置与窃听者的水平距离小于安全阈值 D_safe惩罚该距离与安全阈值的差的平方否则为0。接近合法惩罚用户L s e n s o r L_{sensor}Lsensor​计算每个时刻无人机到最近用户的水平距离促使无人机尽可能靠近用户从而增强合法用户的信道质量提高用户速率。轨迹平滑损失L s m o o t h L_{smooth}Lsmooth​强制无人机预测轨迹的加速度即相邻位移的变化率与参考轨迹的加速度保持一致从而抑制网络输出中出现剧烈抖动或不连续的航点。即 回归任务为模块层名称输入维度输出维度激活函数备注输入层特征拼接-20-起点(3)终点(3)3个传感器(9)1个窃听者(3)曲线尺度(1)横向偏置(1) 20编码器Linear20192GELU全连接Dropout192192-概率 0.1ResidualBlock ×2192192GELU每个残差块包含LayerNorm → Linear(192→192) → GELU → Dropout → Linear(192→192) → 残差加和LayerNorm192192-最终编码器输出轨迹头Linear192192GELU-Linear192202-输出 2×101 个值每个时隙的 x, yReshape202(101, 2)-变为时隙数×2功率头Linear19296GELU-Linear96101Sigmoid输出归一化功率0~1反归一化101101-P_min output*(P_max-P_min)保证约束满足测试随机产生合法者和窃听者的位置可以观测到无人机的轨迹为可看到轨迹形状与安全目标的一致性轨迹会主动接近合法者偏离窃听者并最终到达目标。4 总结本文通过于将复杂的无人机安全通信优化问题转化为一个有监督的回归任务并通过启发式数据生成和精心设计的损失函数使神经网络能够学习到兼顾物理可行性、安全性与通信性能的轨迹‑功率联合策略。然而该方法也存在内在局限性参考轨迹的质量直接决定了模型的上限而启发式规则仅能产生局部次优解。无法保证全局最优此外监督学习属于开环映射缺乏与环境的在线交互难以适应动态信道变化或未建模的干扰。后续工作可以从如下角度出发强化学习替代将问题建模为马尔可夫决策过程设计以保密速率为主体的奖励函数采用SAC等深度强化学习算法直接优化累积奖励有潜力发现超越启发式专家的策略。不确定性建模考虑信道估计误差或无人机定位噪声训练鲁棒性更强的模型例如在数据生成阶段注入更大的随机扰动或引入对抗训练。在线自适应结合元学习或模型预测控制使无人机在飞行中能够根据实时观测调整剩余轨迹应对突发威胁或环境变化。