- ECCVBeNeRF:从单个模糊图像和事件流生成神经辐射场
本研究提出了一种方法,通过从单个模糊图像和对应的事件流中恢复神经辐射场来模拟相机运动,并通过最小化合成数据和真实测量值之间的差异来联合学习隐式神经场景表示和恢复相机运动。
- 稳定语义:自然图像中语义表示的合成语言 - 视觉数据集
理解视觉场景的语义是计算机视觉中的基本挑战之一。我们提出了 StableSemantics 数据集,其中包括 22.4 万个人工筛选的提示、处理过的自然语言字幕、超过 200 万个合成图像和 1000 万个对应于单个名词短语的注意力地图。我 - 通过反向层级引导学习物体中心表示
提出了一种引入自顶向下路径的反层次指导网络(Reverse Hierarchy Guided Network),该网络在训练和推理过程中采用不同的方式,通过自顶向下的特征引导底层特征,同时将底层特征纳入感知过程,从而实现了性能优于其他模型的 - 基于累积遮挡学习的顺序非模态分割
通过扩散模型与累积遮蔽学习,我们引入了序列化的不定类目物体的分割,以便在密集的多层视觉场景中准确预测可见和遮挡区域,同时捕捉不可见区域的不确定性和再现被遮挡物体的复杂形状和遮挡顺序分布。
- CVPRHiKER-SGG:分层知识增强鲁棒场景图生成
本研究提出了一种新的 SGG 基准测试方法,包括过程生成的天气损坏和其它转换,提出了一种称为 HiKER-SGG 的方法,利用层次化知识图对场景图生成进行精化预测,并在苛刻环境下展示了卓越的性能。
- 多视角非监督式物体中心学习
通过提出一种深度生成模型,将潜在表示分为视点独立部分和视点相关部分,从多个未指定的视点学习构成性场景表示。在实验中,该方法能够有效地学习来自多个未指定视点的信息。
- MSG-BART: 视频情景增强的多粒度编码器 - 解码器语言模型用于基于视频的对话生成
提出了一种名为 MSG-BART 的新方法,通过将多粒度时空场景图集成到编码器 - 解码器预训练语言模型中,增强了视频信息的整合,改进了整体感知和目标推理能力,进一步提高了信息选择能力。在三个视频对话基准测试上进行了广泛的实验,表明 MSG - SimpleMTOD: 一种用于多模态任务导向对话的简单语言模型与符号场景表示
SimpleMTOD 提出了一个简单的语言模型,将多模态任务导向对话的几个子任务转换为序列预测任务,在大规模的基于 transformer 的自回归体系结构上构建,引入了局部和去局部化令牌来捕获视觉场景的语义,并在不依赖于分类头等任务特定体 - CVPR使用层次和场景的基于查询的全球图像地理定位
我们提出了一种基于 Transformer 的端到端架构,通过层次交叉注意力利用不同地理层次和相应的视觉场景信息来确定照片的确切纬度和经度,实现了在四个标准地理位置数据集上的最新成果,并介绍了一个更困难的测试数据集,从 Google Str - 图像叙述中的共指消解
本文提出了一个使用弱监督技术的解析图片故事中指代关系的新技术,建立了包含核心链的图像文本数据集,并证明了该技术对提高图像叙事的效果。
- CVPR自监督预测学习:一种无需负样本的视觉场景声源定位方法
本文提出了自监督预测学习 (SSPL) 方法,通过显式正样本挖掘以实现声音定位,将声音来源与视频帧的两个增强视图相结合,并引入了预测编码模块以帮助 SSPL 逐步聚焦目标对象和有效降低正向对难度。实验结果表明,SSPL 在两个标准的声音定位 - 可以给一个例子吗?主动学习属性和关系的长尾
本文介绍了一种基于主动学习的方法,通过要求视觉场景中的属性和关系来解决目前机器学习系统训练数据不足的问题,并提出一种从数据分布长尾中获取样本的主动采样方法,证明其在视觉基因组数据集上优于传统的主动学习方法。
- 主动预测编码网络:解决学习参考框架和部分整体层次的神经方案
本文介绍了 Active Predictive Coding Networks(APCNs),一种新的神经网络类别,用于解决神经网络如何学习对象的内在参考框架并将视觉场景解析为部分整体层次结构的主要问题。
- 学习任务感知抽象化
本研究提出了一种基于任务感知的马尔可夫决策过程(TiMDP)的形式化方法,利用学习任务信息抽象(TIA)来改善现有基于模型的强化学习在复杂视觉场景中处理的困难,并取得了显著的性能提升。
- 通过丰富而公正的语义提取实现无偏见的场景图生成
本文提出了一种新的网络体系结构 (RiFa),用于从视觉场景中提取图表示,以提高场景图任务的性能。实验证明,该方法在捕捉不同语义属性的关系方面表现显著优于其他方法,获得了最佳的总体性能
- MMOntoScene, 一种基于逻辑的场景解释器:在岩石艺术领域的实现和应用
OntoScene 是一个用于理解视觉场景的框架,它利用本体论表示知识和 Prolog 来实现 SceneInterpreter 引擎。OntoScene 的应用实验领域是史前岩画,该领域提供了一个有趣且具有挑战性的测试平台。
- 多模态基于注意力机制视频特征的端到端视听场景感知对话
该论文介绍了一种新的视频场景感知对话系统,该系统将多个研究领域的最新技术整合应用 ,包括端到端的对话技术、视觉问答技术,以及视频描述技术。通过收集一个有关人类行为视频的对话数据集,作者们使用该数据集训练出一种多模态对话模型,它可以在对视频进 - ACL比较,量词,比例:一种多任务模型用于从视觉中学习数量
本篇研究通过多任务计算模型研究不同量化机制 (集合比较、模糊量化和比例估计) 在视觉场景中是否可以共同学习。研究结果表明,当有低复杂度任务的信息时,高级比例任务的准确度比单独执行的结果更好,且该多任务模型能够推广至未见过的目标 / 非目标对 - CVPR学习在视觉场景中定位声源
本文提出一种新颖的无监督学习算法,可以通过观察声音和视觉场景对来仅仅聚焦声音源,在仅仅几个监督的情况下可以有效地纠正错误的结论并定位声音源.