鸟瞰图 (BEV) 表示已成为自动驾驶场景中描述 3D 空间的主要解决方案。然而,BEV 表示中的对象通常尺寸较小,并且相关的点云上下文本质上是稀疏的,这给可靠的 3D 感知带来了巨大挑战。在本文中,我们提出了 IS-FUSION,这是一种创新的多模态融合框架,可联合捕获实例和场景级上下文信息。IS-FUSION 与仅关注 BEV 场景级融合的现有方法本质上不同,它明确地结合了实例级多模态信息,从而促进了以实例为中心的任务,例如 3D 对象检测。它包括分层场景融合 (HSF) 模块和实例引导融合 (IGF) 模块。HSF 应用点到网格和网格到区域转换器来捕获不同粒度的多模态场景上下文。IGF 挖掘实例候选,探索它们的关系,并聚合每个实例的本地多模态上下文。然后,这些实例将作为增强场景特征的指导,并产生实例感知的 BEV 表示。在具有挑战性的 nuScenes 基准测试中,IS-FUSION 的表现优于迄今为止发布的所有多模态作品。代码可在以下网址获取:https://github.com/yinjunbo/IS-Fusion。
(a)以前的方法通常侧重于多模态编码期间整个场景级别的融合。 (b)相比之下,IS-FUSION 更加强调实例级别的融合,并探索实例到场景的协作以增强整体表现。
在本研究中,我们提出了一个新的多模态检测框架 IS-FUSION 来应对上述挑战。如图 1 所示,IS-FUSION 探索了实例级和场景级融合,并鼓励实例和场景特征之间的交互以加强整体表示。它由两个关键组件组成:分层场景融合 (HSF) 模块和实例引导融合 (IGF) 模块。HSF 旨在利用点到网格和网格到区域转换器以各种粒度捕获场景特征。这也使得能够生成对 IGF 至关重要的高质量实例级特征。在 IGF 中,前景实例候选由场景特征的热图分数确定;同时,使用实例间自注意力来捕获实例关系。然后,这些实例通过可变形注意力从多模态上下文中聚合必要的语义信息。此外,我们结合了实例到场景转换器注意力来强制本地实例特征与全局场景特征协作。这产生了增强的 BEV 表示,更适合 3D 对象检测等实例感知任务。
因篇幅问题不能全部显示,请点此查看更多更全内容
怀疑对方AI换脸可以让对方摁鼻子 真人摁下去鼻子会变形
女子野生动物园下车狼悄悄靠近 后车司机按喇叭提醒
睡前玩8分钟手机身体兴奋1小时 还可能让你“变丑”
惊蛰为啥吃梨?倒春寒来不来就看惊蛰
男子高速犯困开智能驾驶出事故 60万刚买的奔驰严重损毁