- 基于语义感知的神经辐射场用于视觉场景理解:综述
本综述全面研究了语义感知的神经辐射场(NeRFs)在视觉场景理解中的作用,覆盖了 250 多篇学术论文的分析。它探讨了 NeRFs 在场景中熟练推断静态和动态物体的三维表示的能力,并介绍了其在生成高质量新视点、补全场景细节(修复)、进行全面 - Rank2Tell: 一种用于联合重要性排序和推理的多模态驾驶数据集
基于黑盒人工智能模型,本研究介绍了一种新的多模态自我中心数据集 Rank2Tell,用于评估重要性等级和解释重要性的原因。通过各种视觉问题回答,该数据集提供了复杂交通场景中各种重要对象的密集注释,为研究视觉场景理解等相关领域的学者提供了宝贵 - SurGNN:使用图神经网络解释性视觉场景理解与外科技能评估
该论文研究了图神经网络如何增强视觉场景理解和手术技能评估,通过使用图神经网络分析以图形结构表示的手术过程的复杂视觉数据,可以提取相关特征并预测手术技能。此外,图神经网络提供可解释的结果,揭示了对预测技能指标有贡献的具体行动、仪器或解剖结构, - ICCVTaskExpert:使用记忆的多任务专家混合动态组装多任务表示
多任务学习中,通过使用多个专家网络对特征进行解耦,动态解码任务特定特征,并利用多任务特征内存实现长期建模,从而提高视觉场景理解任务的性能。
- 走向开放词汇学习:综述
本文综述了开放式词汇学习的最新动态,强调了其与零样本学习、开放集识别和超出分布检测等相关概念的比较,并详细讨论了检测和分割等视觉场景理解任务下的具体应用。研究发现,开放式词汇学习方法在实践中更具广泛性、有效性和实用性,未来仍有许多探索余地。
- 视觉语义分析:从图像到抽象意义表征
本文提出了使用自然语言处理(NLP)中广泛使用的抽象意义表述(AMR)来建立更具有语言信息的图片抽象表述(称为视觉 AMR 图),并通过重复试验和分析表明,我们可以重用现有的文本到 AMR 分析器来分析图像到 AMRs 的转换。
- CVPRGroupViT:语义分割从文本监督中崛起
本文提出了一种针对视觉场景理解任务的新型深度学习网络 —— 分层分组视觉变换器 (GroupViT),能够学习将图像区域分组成任意形状的语义段,且仅依赖于文本监督,无需像素级注释,实现了零阶段语义分割任务,并在 PASCAL 语义分割数据集 - 走向全面的场景理解:语义分割与更多
本论文介绍了视觉场景理解的各方面研究,特别是通过使用语义分割网络在不同数据集上进行训练来提高分割性能和泛化性以及训练效率,以及通过多种方法来实现弱监督学习和部分感知全景分割等新任务,为实现全面、丰富、可持续的视觉场景理解铺平了道路。
- 使用动态工作记忆的认知视觉常识推理
本文提出了一种基于动态工作内存的认知视觉常识推理网络,通过存储句子之间积累的常识来提供先验知识进行推理,可以显著改进现有方法,在视觉常识推理方面提供了直观的解释。
- AAAI面向语义分割的视觉活动学习
本文研究了具体化视觉主动学习任务,该任务通过选择性的视野请求注释来探索三维环境,以获取场景理解,我们通过开发一系列智能体来研究具体化视觉主动学习,其中智能体配备语义分割网络,并使用深度强化学习以及奖励函数平衡任务性能和必要注释数据请求,得到 - FloodNet:一个用于洪水后场景理解的高分辨率航拍图像数据集
本文提出了一种高分辨率无人机图像数据集 FloodNet,用于帮助解决自然灾害后的损害评估问题,数据集提出了 “洪水下的损害” 这个问题,并对其进行了像素级的语义分割标注,提出一些深度学习算法用于解决这些挑战,并比较了该数据集上多个图像任务 - 未来分割
提出了一种基于编码器 - 解码器网络的视频未来语义分割预测方法,使用先前的视频帧,仅利用 RGB 数据,利用知识蒸馏的训练框架预测未来场景的语义分割,并在 Cityscapes 和 Apolloscape 上取得了比基线和现有最先进方法更好 - 使用视觉语义进行外观不变视角对应的地点识别
通过一系列新兴的基于语义和外观的技术,使用卷积特征图从一种状态到另一种状态的本地语义张量(LoST)表述,以及从语义上开采显着的关键点对应来实现高性能的地方识别。
- 自主智能体的 2.5/3D 室内场景理解:一份综述
本文系统地总结介绍了低成本稳定的 2.5/3D 视觉感知器件在计算机视觉领域中如何应用于室内环境中的视觉场景理解,包括数据表示,核心技术,场景理解任务,性能评价以及面临的挑战。
- 使用 RGB-D 相机的多视角深度学习实现一致的语义映射
本文提出一种从多个 RGB-D 视图中进行对象类语义分割的新方法,使用深度学习训练神经网络进行预测,同时借助于 RGB-D 的 SLAM 获取摄像机轨迹,实现多视图一致性训练和测试。实验结果表明,与单视图基准线相比,深度特征池化和多视角融合 - ECCV联合光流和时间一致性语义分割
本文提出了一种同时估计光流和时间连续的语义分割的方法,将这两个问题领域紧密相连并相互利用,从而使场景理解的重要性和需求与自主系统的积极发展不断增加,并对 KITTI 基准测试中的性能进行了演示。