在每一步的互动中,算法会首先通过策略网络 μ ( s| θ μ),根据每个无人机的观测状态量以及噪声函数确定在这一时刻该无人机的动作a kt。在获得了所有无人机的动作后,确认下一时刻的环境状态,获取每个无人机在该环境下的状态观测量S k ( t+1 )以及执行动作 ak t的回报奖励值 rk t。然后将交互样本( sk t , a kt , rk t ,s k ( t+1 ))存放到经验池D中,并设置其优先级 Pt = maxPi。
完成上述过程后,如果经验池中的样本数量达到batch _size 个,则根据样本权重从经验池中随机抽取batch _size 个样本,计算其对应的重要性采样权重和TD_error,并根据TD_error 更新样本优先级。然后利用抽取的样本计算目标Q 值,通过最小化TD 偏差来更新评价网络,并根据小批量样本计算得到的策略梯度更新策略网络。如果当前训练次数为10 的倍数,则软更新两个目标网络中的参数。然后进入与环境交互的下一步,重复互动和学习的过程,直至该回合结束。
重复上述每个回合的运行过程,直至回合数达到Max_ Episode,训练完成。
4 仿真结果及分析
4.1 实验环境及参数设置
实验中设置优先经验回放参数α=0.6,β = 0.4,经验回放池大小为30000,小批样采样数据个数为32;设置OU 探索噪声参数θ=0.2,σ = 0.15,γ d ecay = 100;设置最大回合数为1000~5000,每回合时间步长ΔT = 1s,每回合最大步数为3000,学习率为0.001,折扣因子为0.9,目标网络的更新率τ =0.01,使用Adam Op timizer优化器更新神经网络参数。无人机的运动性能参数参考了固定翼无人机CW-10 的性能参数,仿真环境初始参数如表3 所示。
表3 多无人机仿真环境初始参数
Table 3 Initial parameters of simulation

4.2 训练过程
训练场景采用图6 设定,在障碍物数量为4的场景中分别训练2~6 架无人机。每回合开始时,重置随机的无人机位置、速度、航向角,重新随机设置障碍物的位置、半径,并且障碍物之间不发生重叠,重新随机设置目标点位置。每回合遵照Algorithm1 流程,当经验池充满时开始训练,经验池为充满则采用加入OU 噪声的策略机动。同时,为了观测PER-PDDPG 算法的收敛性和学习有效性,采用平均奖励指标对算法进行评价。训练得到的奖励函数曲线如图7 所示。

图7 PER-PDDPG 不同数量无人机得到的奖励曲线对比
Fig. 7 Comparison of reward curves obtained by PERPDDPG with different numbers of UAVs
由奖励曲线对比图可见,在4 个障碍物场景下,随着迭代次数的增加,无人机获得总奖励的平均值逐渐上升然后趋于稳定,网络训练收敛时间约在1100 回合,这个值也是算法训练过程中想要最大化的评价指标,平均奖励值趋于稳定表示算法的模型在训练过程中也趋于收敛。随着无人机数目的增多,训练收敛至稳定的所需时间均逐渐减小,验证了多架无人机通过共享经验池和两个训练网络可以更快地探索到环境中更多的状态,缩短训练所需时间。比较特殊的是代表2 架无人机网络的蓝色曲线,它的平均奖励值上升的时间和速度比3、4、5 架无人机网络都要快,且最后收敛到的平均值比其他无人机网络更高,这说明2 架无人机训练时对单架无人机而言环境更为简单,它的决策所面临的复杂度更低,使得收敛的平均奖励值相对更高。
4.3 验证过程
为了评估算法的训练效果,使用训练好的2架无人机的PER-PDDPG 网络在障碍物数量为4、6 的环境中进行仿真测试,接着在这个网络中设置无人机数量为3、4、5、6 后再分别进行10000次蒙特卡罗测试。测试的仿真参数与训练时的参数设置相同,测试的数据结果如表4 所示。可以看出,该网络使用2 架无人机进行测试时任务完成率最高,随着障碍物数量增多,成功率逐渐减小,但是成功率降低范围在3%以内,综合而言还是有较高成功率。
表4 使用2 架无人机网络在不同障碍物数量及不同无人机数量场景中测试任务成功率
Table 4 Use 2 UAV networks to test the mission success rate in scenarios with different numbers of obstacles and different numbers of UAVs

为了验证算法效果,采用4 架无人机训练的PER-PDDPG 网络设置4 架无人机分别在障碍物数量为4、6 的场景中仿真,测试该网络在指定场景中的任务完成情况。坐标系建立以第一架无人机的出发点为原点,水平向右为y 轴正向,竖直向下为x 轴正向。4 架无人机分别从(0,0)(1 km,0)、(0.5 km, 0.5 km)、(1 km,1 km)出发,初始速度均为(15 m/s),初始航向角均为0.25π,机载雷达探测半径为2 km,探测范围为60°;4 个目标点坐标分别为(35 km, 35 km)、(37.5 km, 37.5 km)(40 km, 35 km)、(40 km, 30 km);其余相关参数范围如表2 所示。
4 障碍物场景下,在大小为[ 0,50 ] ×[ 0,50 ] km2的任务区内设置障碍物,设置障碍物坐标为(15 km, 30 km)、(20 km, 15 km)、(40 km, 20 km)、(30 km, 5 km),半径分别为4 km、5 km、6 km、5 km,得到的各无人机航迹和本机信息如图 8所示。

图8 4 架无人机在4 个障碍物场景中的航迹及测试结果
Fig. 8 Track and test results of 4 UAVs in 4 obstacle environments
6 障碍物场景下增加两个坐标分别为(35 km,30 km)、(5 km, 25 km),半径分别为2 km、3 km的障碍物,得到的各无人机航迹和本机信息如图9 所示。

图9 4 架无人机在6 个障碍物场景中的航迹及测试结果
Fig. 9 Track and test results of 4 UAVs in 5 obstacle environments
综合图9~10 可以看出,在探测到障碍物时,无人机做出转弯避让决策,与最近一个障碍物距离均大于危险距离,成功避开障碍物后,及时调整航向,使得无人机尽量以最小夹角接近目标点,规划出相对短的安全路径,减少飞行所需时间。并且训练得到的模型可以灵活调整系统中智能体的数量和环境中的障碍物数量,而不会对训练的收敛性有大的影响,体现了算法极强的泛化性和鲁棒性。
为了评估本文提出的算法相对与传统的多智能体强化学习算法的效果,选择用经典的深度强化学习算法 DDPG 在多智能体上的延拓方法PDDPG 来与本文提出算法进行对比,通过比较两者的奖励曲线变化情况来说明优劣程度。对比训练过程中,仿真场景初始参数设置如表3 所示,无人机数量设置为4。
从图10 可明显看出,本文提出的PER-PDDPG算法的收敛速度快于PDDPG 算法。并且当算法收敛时,PER-PDDPG 算法所获得的奖励明显比PDDPG 算法更高。

图10 两种算法的奖励曲线对比
Fig. 10 Reward curves of the two algorithms
5 结 论
本文主要以无人机路径规划为研究背景,基于深度强化学习对单无人机路径规划与多无人机路径规划问题特点进行了详细分析、研究。针对无人机连续动作空间特点,引入优先经验回放机制设计单无人机PER-DDPG 网络,结合分布式独立强化学习与集中式强化学习将单无人机路径规划算法网络做并行化拓展,得到多无人机PERPDDPG 算法。最终仿真结果表明,PER-PDDPG算法可以加快对环境的采样速度,缩短多无人机网络训练所需时间,能够规划出相对更短的安全到达指点目标点的路径,并且可以自由增减无人机数量,适用于无人机数量较多或数量经常变化的场景。
来源 《无人系统技术》
以上内容为高博特编辑选取的热点新闻,尊重原创,如有侵权请联系删除。
—————— 特别关注 ——————
让科技更好地赋能产业,“尖兵之翼”永不落幕。高博特自2006年发起、策划、投资、组织,在相关专业机构支持下成功举办了最早的无人机主题会展活动——“尖兵之翼中国无人机大会暨展览会”后持续推动无人机技术交流。高博特创新引领最早在深圳、上海、郑州等地发起举办无人系统会展赛飞活动,有力促进了我国无人系统整体技术进步和产业发展。
20年来,高博特始终坚持让科技更好地赋能产业的愿景;努力为行业企业搭建产业链高端交流平台,为科技转化为生产力服务。具体业务范围涵盖:信息情报、媒介传播、会展活动、招商加盟、品牌提升、咨询服务、产品中心等七大服务体系,长期服务于“军转民、民参军、军民融合”等国家战略。
2023年,高博特集买、卖、租、播、展、会、赛、培于一体的新型展厅项目即将启幕,该展厅旨在从深度对接的层面为各入驻企业一站式解决经营中面临的各项问题,企业租、卖的产品我们来、企业需要的品牌我们筑、行业顶尖的赛会我们办、行业急需的培训我们办。新的一年,高博特新模式、新服务、新平台,必将给各一直以来支持我们的朋友带来全新的体验。
以上内容为高博特编辑选取的行业技术,尊重原创,如有侵权请联系删除。