CVPRMay, 2024

使用主观真实感全方位相机的视觉障碍人士视频问答

TL;DR针对视觉障碍者每天面临的挑战,如信息获取的限制、导航困难和社交互动的障碍,本文引入了一种新颖的视觉问答数据集。我们的数据集相对于以往的数据集具有两个重要的改进:首先,通过使用全景佩戴式摄像头拍摄的视频,观察整个环境,与以前的静态图像为中心的数据集不同;其次,与以往集中在单一挑战上的数据集不同,我们的数据集通过创新的视觉问答框架同时解决了多个现实生活中的障碍。我们使用各种先进的视频问答方法和多样化的度量验证了我们的数据集。结果表明,虽然取得了一些进展,AI 辅助服务对于视觉障碍者来说仍然没有达到满意的性能水平。此外,我们的评估突出了 360 度摄像头拍摄的视频中的自我运动特点和各种情境的独特特征。