> 文章列表 > 研究人员在没有图像的情况下检测和分类多个物体

研究人员在没有图像的情况下检测和分类多个物体

研究人员在没有图像的情况下检测和分类多个物体

研究人员开发了一种新的高速方法来检测多个物体的位置、大小和类别,而无需获取图像或需要复杂的场景重建。由于新方法大大降低了物体检测所需的计算能力,因此可用于识别驾驶时的危险。

“我们的技术基于单像素探测器,可以直接从少量2D测量中实现高效而强大的多目标检测,”中国北京理工大学的研究团队负责人Liheng Bian说。“这种无图像传感技术有望解决现有视觉感知系统通信负载大、计算开销高、感知率低等问题。

如今的无图像感知方法只能实现分类、单一物体识别或跟踪。为了同时完成所有三个目标,研究人员开发了一种称为无图像单像素物体检测(SPOD)的技术。在《光学快报》中,他们报告说SPOD可以实现略高于80%的物体检测精度。

SPOD技术建立在研究小组先前在开发无成像传感技术作为高效场景感知技术方面的成就之上。他们之前的工作包括基于单像素检测器的无图像分类、分割和字符识别。

“对于自动驾驶,SPOD可以与激光雷达一起使用,以帮助提高场景重建速度和物体检测精度,”卞说。“我们相信,它具有足够高的自动驾驶检测率和准确性,同时也降低了物体检测所需的传输带宽和计算资源要求。

无图像检测

自动化高级视觉任务(无论是用于导航车辆还是跟踪移动的飞机)通常需要场景的详细图像,以提取识别对象所需的特征。然而,这既需要复杂的成像硬件,要么需要复杂的重建算法,导致计算成本高、运行时间长、数据传输负载大。因此,传统的先图像,后感知的方法可能不是最佳的目标检测。

基于单像素探测器的无图像传感方法可以降低目标检测所需的计算能力。单像素成像不是使用CMOS或CCD等像素化探测器,而是用一系列结构光模式照亮场景,然后记录透射光强度以获取物体的空间信息。然后,此信息用于计算重建对象或计算其属性。

对于SPOD,研究人员使用一个小但优化的结构光模式来快速扫描整个场景并获得2D测量值。这些测量值被馈送到一个深度学习模型中,称为基于变压器的编码器,以提取场景中的高维有意义特征。然后将这些特征输入基于多尺度注意力网络的解码器,该解码器同时输出场景中所有目标的类别、位置和大小信息。

“与其他单像素检测方法使用的全尺寸图案相比,小而优化的图案产生更好的无图像传感性能,”小组成员Lintao Peng说。“此外,SPOD解码器中的多尺度注意力网络加强了网络对场景中目标区域的关注。这样可以更有效地提取场景特征,从而实现最先进的物体检测性能。

概念验证演示

为了通过实验证明SPOD,研究人员建立了一个概念验证设置。从Pascal Voc 2012测试数据集中随机选择的图像被打印在胶片上并用作目标场景。当使用5%的采样率时,使用SPOD完成每个场景的空间光调制和无图像物体检测的平均时间仅为0.016秒。

这比先执行场景重建(0.05 秒)然后执行对象检测(0.018 秒)要快得多。SPOD显示,测试数据集中包含的所有对象类的平均检测准确率为82.2%。

“目前,SPOD无法检测到每个可能的对象类别,因为用于训练模型的现有对象检测数据集仅包含80个类别,”彭说。“然而,当面对特定任务时,可以对预先训练的模型进行微调,以实现对行人、车辆或船只检测等应用的新目标类别的无图像多目标检测。

接下来,研究人员计划将无图像感知技术扩展到其他类型的探测器和计算采集系统,以实现无重建传感技术。