AAAIDec, 2023

超越视域:处理部分丢失的模态在音频 - 视觉语义分割中

TL;DR提出了一种新的超出视野语义分割任务和一种名为 SBV 的音频 - 视觉语义分割方法,该方法使用了一个教师 - 学生蒸馏模型(Omni2Ego),通过辅助视觉输入(利用全景信息)和听觉输入(利用 8 通道音频)来推断超出视野范围内物体的语义分割,从而解决了增强现实设备在用户安全方面的挑战。SBV 在比较评估中表现优于现有模型,在不同视野范围和单声道音频设置下表现稳定。