您的当前位置：首页正文

【CVPR2024】MonoCD: Monocular 3D Object Detection with Complementary Depths

来源：尚车旅游网

单目 3D 物体检测因其能够以低成本从单个图像中精确获得物体的 3D 定位而受到广泛关注。由于 2D 到 3D 映射的不适定性，深度估计是单目 3D 物体检测的一项重要但具有挑战性的子任务。许多方法探索多个局部深度线索，例如物体高度和关键点，然后将物体深度估计制定为多个深度预测的集合，以缓解单一深度信息的不足。然而，现有的多个深度的误差往往具有相同的符号，这阻碍了它们相互抵消并限制了组合深度的整体准确性。为了缓解这个问题，我们提出用两种新颖的设计来增加深度的互补性。首先，我们添加了一个名为互补深度的新深度预测分支，它利用来自整个图像的全局和有效的深度线索而不是局部线索来降低深度预测的相似性。其次，我们提出充分利用多个深度线索之间的几何关系来实现形式的互补性。得益于这些设计，我们的方法实现了更高的互补性。在 KITTI 基准上的实验表明，我们的方法无需引入额外数据即可实现最佳性能。此外，互补深度还可以是一个轻量级的即插即用模块，以增强多个现有的单目 3d 物体检测器。代码可在 https://github.com/elvintanhust/MonoCD 上找到。

1. Introduction

3D物体检测是学术界和工业界的重要研究课题，它能够使非人类智能感知3D世界。与基于激光雷达的[11,27,28,34]和基于立体视觉的[12,13,23,30]方法相比，单目3D物体检测由于价格低廉、配置简单而受到广泛关注[15,24]。然而，其3D定位精度明显低于基于激光雷达和立体视觉的3D定位精度。为了推动和促进自动驾驶、机器人等自动化技术的发展，提高单目3D物体检测的3D定位精度至关重要。

近年来，许多单目3D物体检测算法已经意识到限制单目3D物体检测3D定位精度的主要原因是深度估计不准确[15,22,25,40,45]。他们遵循主流的 CenterNet 范式 [42]，探索多个局部深度线索，并将深度估计制定为多个深度预测的集合，以缓解单一深度信息的不足。例如，MonoFlex [40] 从直接估计和物体高度探索局部深度线索，然后通过加权平均将它们组合成一个深度。MonoDDE [15] 在此基础上进一步揭示了来自物体视角的线索。

然而，在 KITTI 数据集 [7] 上的实验表明95% 的现有多深度预测集合具有相同的误差符号，即多个预测深度通常分布在地面实况的同一侧，如图 1(a) 中的耦合所示，这导致深度误差无法相互抵消，阻碍了组合深度精度的提高。我们将这种耦合现象归因于他们使用的局部深度线索都来自 CenterNet 范式中物体周围的相同局部特征。

在本文中，我们提出增加深度的互补性来缓解该问题。这里的互补性是指这些预测不仅追求高精度，而且具有不同的误差符号。为此，我们提出了两种新颖的设计。首先，考虑到前面提到的耦合现象，我们增加了一个新的深度预测分支，该分支利用来自整个图像的全局和有效的深度线索而不是局部线索来降低深度预测的相似性。它依赖于一幅图像中的所有物体大致位于同一平面上的全局信息。其次，为了进一步提高互补性，我们提出充分利用多个深度线索之间的几何关系来实现形式上的互补，这利用了相同几何量的误差可能对不同分支产生相反影响的事实。例如，在图 1(b) 中，Z1 具有负误差，因为相关线索 3D 高度 H 被低估了，而在这种情况下，Z2 具有正误差，因为 H 对 Z2 的影响与新线索 yglo 相结合与 Z1 相反。因此，基于 H 的几何关系在形式上与 Z1 和 Z2 互补。

结合所有设计，我们提出了一种具有互补深度的新型单目 3D 检测器 MonoCD，它弥补了以前的多深度预测中忽略的互补性。本文的主要贡献总结如下：

我们指出了现有单目物体深度预测的耦合，这限制了组合深度的准确性。因此，我们建议改进深度互补性以缓解此问题。
我们建议添加一个名为互补深度的新深度预测分支，该分支利用全局有效的深度线索，并充分利用多个深度线索之间的几何关系来实现形式上的互补性。
在 KITTI 基准上进行评估，我们的方法在不引入额外数据的情况下实现了最先进的性能。此外，互补深度可以是一个轻量级的即插即用模块，以增强多个现有检测器。

2. Related work

2.1. 基于中心的单目 3D 检测器

许多近期研究 [5、16、20、36、41、43] 都是从流行的基于中心的范式 CenterNet [42] 扩展而来，CenterNet 是一种最初应用于 2D 物体检测的无锚方法。由于将 3D 边界框的所有属性转换为中心进行估计，因此检测过程更简单、更高效。SMOKE [18] 继承了基于中心的框架，并提出可以省略 2D 边界框的估计。MonoDLE [21] 发现 2D 边界框的估计有助于 3D 属性的预测，并表明深度误差是限制单目 3D 物体检测准确性的主要原因。MonoCon [17] 发现在中心周围添加辅助学习任务可以提高泛化性能。虽然基于中心的框架有很多好处，但它使所有 3D 属性的预测与局部中心高度相关。它忽略了全局信息的利用，导致预测的 3D 属性耦合。

2.2. 基于 Transformer 的单目 3D 检测器

受益于注意力机制 [32] 的非局部编码及其在物体检测 [2] 中的发展，最近提出了多个基于 Transformer 的单目 3D 检测器以增强全局感知能力。MonoDTR [8] 提出执行深度位置编码，将全局深度信息注入 Transformer 以指导检测，这需要 LIDAR 进行辅助监督。与它不同的是，MonoDETR [39] 使用前景物体标签来预测前景深度图以实现深度引导。为了提高推理效率，MonoATT [44] 提出了一种自适应 token Transformer，可以将更精细的 token 分配给图像中更重要的区域。虽然上述方法效果良好，但基于Transformer的单目3D检测器计算复杂度高、推理速度慢的缺点依然明显，目前在实际自动驾驶场景中还缺少一种既能综合全局信息，又能保证低延迟的方法。

2.3. 多深度估计

除了直接使用深度神经网络估计物体深度外，近期许多研究还通过间接预测与深度相关的几何线索，拓宽了深度估计分支。[20, 29]利用数学先验和不确定性建模，通过3D与2D高度的比值恢复深度信息。在此基础上，MonoFlex [40]通过3D边界框的其他支撑线，进一步将几何深度扩展为三组，并提出使用不确定性作为权重，将多个深度组合成最终深度。MonoGround [25]引入局部地面先验，并通过在每个物体的底面随机采样密集点来丰富深度监督源。 MonoDDE [15] 利用关键点信息将深度预测分支数量扩展至 20 个，凸显了深度多样性的重要性。然而，多个深度之间的互补性却很少得到探索。几何线索（如 2D/3D 高度）中的错误会累积到相应的深度错误中。如果没有有效的互补性，现有的深度错误就无法被抵消。

3. Approach

3.1. Problem Definition

单目 3D 物体检测的任务是仅从 2D 图像中识别感兴趣的物体并预测其对应的 3D 属性，包括 3D 位置 (x, y, z)、尺寸 (h,w, l) 和方向 θ。3D 位置 (x, y, z) 通常转换为 2.5D 信息 (uc, vc, z) 进行预测。x 和 y 的恢复过程可以表述为：

其中 (uc, vc) 是图像中的投影 3D 中心，(cu, cv) 是相机光学中心。fx 和 fy 分别表示水平和垂直焦距。

如第 1 节所述，许多方法 [15, 25, 40] 已经意识到深度 z 是限制单目 3D 检测器性能的主要原因，并利用多深度通过以下方式提高深度预测的准确性：

3.2. The Effect of Complementary Depths

为了证明互补深度的有效性，我们从数学角度展示了它的优越性。定义两个不同的深度预测分支ˆz1和ˆz2如下：

其中 z∗ 表示深度的真实值。e1 和 e2 分别是单次预测中两个深度分支的误差。注意，e1 和 e2 的正负对应误差的符号。我们定义 e1e2 > 0 来模拟多深度耦合的情况，如图 1(a) 所示。我们将多个耦合深度的最终组合误差称为耦合深度误差。因此，参考等式 (2)，ˆz1 和 ˆz2 的耦合深度误差 E1 可以表示为：

其中 w1 和 w2 满足 w1, w2 > 0 且 w1 +w2 = 1。然后我们沿 z∗ 对称翻转 ˆz1，但不改变预测的准确性，方法是：

翻转后，ˆz′1和ˆz2的误差符号相反，人为地实现了它们之间更高的互补性。我们将多个互补深度的最终组合误差称为互补深度误差。类似地，ˆz′1和ˆz2的互补深度误差E2可以表示为：

通过数学变换，我们进一步将公式（4）和公式（6）表示为：

显然，由于条件e1e2>0，互补深度误差E2始终小于耦合深度误差E1。无论权重或误差大小如何变化，这种关系都保持不变。类似地，在翻转z2时保持z1不变，结论也是等价的。因此我们可以得出结论：实现两个深度分支之间的互补关系有助于降低整体深度误差，即使不提高单个分支的准确性。

为了证明互补深度在实践中的有效性，我们选择了一个经典的多深度预测基线[40]在KITTI验证集中进行评估。它包含4个深度预测分支（1个直接估计的深度和3个几何深度），经过测试，任何两个分支的耦合率都在95%左右。如图3左侧所示，我们根据公式（5）沿地面实况对称地翻转它们之间的直接深度估计分支，在0%到100%的样本尺度上实现不同层次的深度互补。此外，考虑到在实践中很难获得具有相反误差符号的深度预测，同时保持相同的准确率，我们进行了另一项实验，翻转深度分支，并在其上施加不同幅度的随机扰动。结果显示在图 3 右侧。通过执行与上述相同的操作，在其他分支中观察到了类似的结果。基于此，我们有以下三个观察结果：

观察3：在翻转比例固定为50％的情况下，如图3右侧所示，直到施加幅度为2米的随机扰动（对于KITTI中的Car而言，这是相当显着的[21]），互补效应才消失。这表明即使损失了一些深度估计精度，互补效应仍然可以对整体性能做出贡献，最终整体性能是否可以提高取决于相反符号的比例和深度估计精度。

此外，我们选择了具有不同深度预测分支总数的模型进行翻转和评估。我们发现，随着翻转分支的数量接近未翻转分支的数量，整体性能会相应提高。有关更多实验和详细信息，请参阅补充材料

3.3. 3D Detector with Complementary Depths

框架概述。如图 2 所示，我们设计的网络扩展自 CenterNet [42]。回归头分为两部分：局部线索和全局线索，其中选择 DLA-34 [38] 作为网络的主干。局部线索分支参考 MonoFlex [40] 设计，根据预测的 Heatmap 为每个局部峰值点估计维度、关键点、直接深度、方向和 2D 检测。由于这些几何量的预测与图像中局部峰值点的位置高度相关，因此它们被称为局部线索。zdir 和 zkey 均由它们派生而来。全局线索分支根据所有提取的像素特征预测整个图像的 Horizon Heatmap，用于获得场景中 yglo 的趋势，然后输出嵌入全局线索的互补深度 zcomp。如何用全局线索构建深度预测分支并进一步实现形式上的互补将在下文中详细说明。按照[9, 10]的方法，我们对所有七个深度预测（1 个直接深度、3 个关键点深度和 3 个由对角列增强的补充深度，如[40]）建模不确定性。最终深度根据公式（2）获得，其中 wi = 1

利用全局线索进行深度预测。受 [6] 的启发，神经网络通过以下方式从单个图像中看到深度：

其中 y 表示物体在相机坐标系中的 y 轴坐标，vb 表示投影底部中心在像素坐标系中的垂直坐标。考虑到 y 还表示物体所在平面的高程，并且所有物体都大致位于一个平面上，因此 y 包含这样的全局特征，可以与其他深度线索区分开来。与之前隐式利用公式 (9) 的神经网络不同，我们建议显式地预测 y。

为了避免陷入耦合，我们不使用第 2.1 节中讨论的基于中心的方法来预测 y。我们建议首先通过地面方程获得场景中 y 的倾斜趋势。地面方程的预测基于 Horizon Heatmap 分支，类似于 [35]，但我们省略了边缘预测，得到预测结果为：

将式（11）代入式（9），得到一个带有全局线索的新的深度预测分支：

此外，为了更好地利用全局特征以及扩大感受野，我们使用扩张卷积[37]来预测Horizon Heatmap。

求解中的互补形式。仅仅实现更独立的深度预测是不够的，我们希望充分利用多个深度预测分支之间的几何关系，进一步提高互补性。考虑投影的底部中心（ub，vb）和顶部中心（ut，vt），如图4橙色部分所示，[29]中从关键点和高度得出的深度可以重写为：

其中H表示物体的3D高度。结合由等式（11）获得的全局yglo信息和等式（13）中使用的几何量，我们进一步提出了一种与zkey形式互补的深度预测：

几何对应关系如图4蓝色部分所示。可以观察到，设计的等式（14）中H和vt的符号与等式（13）中的符号完全相反。这意味着在预测每个物体的3D信息时，H和vt的误差对zkey和zcomp具有相反的影响。虽然等式(13) 和公式 (14) 并不严格对称，这进一步增加了 zkey 和 zcomp 的误差 ekey 和 ecomp 满足 ekeyecomp < 0 条件的概率。如第 3.2 节所证明的，最终一部分深度误差在公式 (2) 的加权平均中被中和。

5. 结论

本文指出了现有的多深度预测往往具有相同符号的耦合现象，这限制了组合深度的准确性。我们通过数学推导分析了互补深度如何解决这个问题，发现互补性需要从深度估计精度和误差符号反比两方面考虑。为了提高深度互补性，我们提出在全局线索的基础上增加一个新的深度预测分支，通过几何关系实现形式上的互补。大量实验证明了我们方法的有效性。局限性。我们的框架的性能受到物体垂直位置精度的限制，当地平面起伏时，互补效果可能会丢失。未来的工作可能涉及提高对全局道路场景的理解和预测。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文