​微信公众号
手机版
​​新浪微博
会员登录
关于我们  |   商务合作  |  友情链接   |  意见反馈  |  人才招聘
北京云翼同创科技有限公司 深圳高博特文化发展有限公司   版权所有,并保留所有权利 © 2018 京ICP备16044150号-1                       

跨界 · 融合 · 服务 · 创新



双击此处添加文字
新闻聚焦
行业技术
首页  >  新闻聚焦   >  行业技术  >   详情
复杂环境下无人机导航的目标识别
来源:AUVSC | 作者:飞思实验室 | 发布时间: 2021-12-01 | 4466 次浏览 | 分享到:
无人机导航的任务可以表述为到达给定目标点的任务,考虑到路径的可能限制,依赖于任务计划、当前位置和当前环境......

对于完全自主导航,无人机必须在没有陆地操作员任何帮助的环境中执行其任务。现在,无人机拥有实现自主的所有必要组件:(a) 获取飞机状态和环境信息的传感器,(b) 用于检测地标以及检测静态和动态障碍物的计算机和算法。如今,现代卷积神经网络 (CNN) 模型已经证明了许多计算机视觉问题的最先进性能,似乎只有人类才能正确解决。诸如对象检测和识别、图像分割、图像翻译等任务现在可以通过具有类似人类质量的现代神经网络模型来解决。该研究旨在开发一种用于在避障模式下复杂环境下无人机自主导航的深度学习技术。当全球地理定位系统不可用时,在城市、工业或林业环境中进行货物运输或救援任务时需要这种导航。

为了在复杂环境中导航,无人机必须识别观察场景中的物体并估计可能存在障碍物的距离。解决这些任务的拟议技术利用深度学习方法使用观察场景的图像进行图像分割和深度图估计。开发的卷积神经网络模型能够根据预定义的对象类预测观察场景的深度图以及场景分割。所提出的神经网络架构基于生成对抗模型,生成部分将输入彩色图像转换为输出体素模型。判别部分的目的是估计输出与真实数据的接近程度并惩罚错误输出。在专门准备的数据集上同时训练生成部分和判别部分。

无人机导航的任务可以表述为到达给定目标点的任务,考虑到路径的可能限制,依赖于任务计划、当前位置和当前环境。所以任何导航任务都包括两个阶段:飞行路线规划和根据给定计划的飞行如图 1所示。

 

图1 无人机导航阶段

本研究提出了一种深度学习技术,用于在地图生成、路径规划和自我定位任务中支持无人机导航。该技术能够检测观察场景中的给定对象,3D 重建它们的形状并估计当前位置的无人机姿态。用于对象识别和自定位的技术是基于Z-GAN CNN模型单个图像三维重建。在Z-GAN神经网络解决作为使用生成对抗性技术图像到体素的翻译任务单图像三维重建的问题。它利用截头体体素模型形式的特殊数据表示。该模型表示(图 2)使用关于图像和相应体素 3D 模型的重投影一致性的假设,即深度图和体素模型的组合。

 (a)输入的彩色图像(b)视锥体素模型   (c) 对象类分割

图2 用于网络模型训练的输入彩色图像、视锥体素模型和对象类分割

 Frustum Voxel模型(Fruxel模型)提供体素3D模型的切片与彩色图像中对象的相应轮廓之间的准确对应关系。它将相机视场(相机视锥体)表示为一组通过垂直于相机光轴的平面对视锥进行剖切而获得的体积元素,如图 2所示。为了扩展Z-GAN模型的导航能力,它被修改为从单个图像执行联合 3D 体素模型重建和 3D 场景语义分割。34这种网络模型称为单次 Z 空间分割和 3D 重建模型 ( SSZ )。具体来说,在网络模型架构和训练数据集中进行了修改,以学习模型以进行有关 3D 场景结构的显式推理。

 首先,介绍了 3D 对象类的语义标记。相机所看到的整个三维场景被表示为一个多类语义体素模型,每个体素包含一个其类的标识符。此外,使用梯形体素(fruxel 模型)可以使每个体素与相应的像素对齐(图 2)。这种 3D 表示允许设计直接的 2D 到 3D 跳跃连接,利用图像和 3D 模型之间的轮廓对应。也U形网状发生器倒置残差块和跳跃的连接35,36被并入改性框架。

 其次,在框架中添加了 3D 姿势鉴别器。具体来说,同时训练两个模型:一个SSZ生成器和一个对抗性Pose6DoF判别器(见图3)。Pose6DoF鉴别器的目的是双重的。首先,它估计SSZ生成器输出中所有对象实例的姿态。其次,它将每个对象实例限定为开始“真实”或“假冒”。SSZ生成器的目的是通过生成逼真且几何准确的语义体素模型来欺骗鉴别器Pose6DoF。

 

图3 SSZ框架

语义体素数据集包括 36 个场景的 116k 3D 和 2D 数据样本。每个数据样本对应一个单一的相机姿势。它包括所有类的彩色图像、语义视锥体素模型、深度图、相机姿势和对象姿势注释。语义体素数据集由两部分组成:真实样本和合成样本。实部是使用类似的结构化运动 (SfM) 技术生成的。37它包含 16k 图像。数据集中的示例场景如图 4所示。

 

图4 来自 SemanticVoxels 数据集的具有 6D 姿态注释和地面实况语义体素模型的彩色图像示例

对于实时模式下的定性评估,已经创建了一个场景的特殊比例地形模型(图 5a)。它安装在三脚架上,可以在相机的视野中旋转场景模型。来自相机的视频流由SSZ模型以实时模式处理,生成场景深度图和场景中对象的体素模型。嵌入式人工智能 (AI) 计算设备 NVIDIA Jetson TX2 用于视频流的实时图像处理。图5b 显示了来自相机的图像和由SSZ模型生成的相应 3D 数据:场景的深度图和分割的 3D 体素模型。实时测试表明,SSZ模型的计算效率允许以 12 fps 的速度预测场景的 3D 模型,输入图像为 265 × 256 像素,输出体素 3D 模型的分辨率为 128 × 128 × 128元素。