- ICLR语义流:从单目视频中学习动态场景的语义领域
本文中,我们提出了 Semantic Flow,一种从单 ocular videos 中学习动态场景的神经语义表示。与以往的 NeRF 方法不同,它通过包含丰富的三维运动信息的连续流来学习语义。我们考虑从二维视频帧中提取三维流特征时视线方向 - 视频场景图生成的时空知识嵌入 Transformer
提出了一种将空间 - 时间知识嵌入到多头交叉注意力机制中的空间 - 时间知识嵌入变压器(STKET)模型,用于生成视频场景图并预测语义标签及其关系。经过广泛实验表明,STKET 在不同设置下相对于当前算法的 mR@50 提升了 8.1%,4 - 语义人体:从单目视频中的人体解析进行人体神经渲染
本文介绍了 Semantic-Human 这一新颖方法,通过扩展 NeRF 以共同编码语义、外观和几何来实现 2D 语义标签,从而实现神经渲染方法下的人体解析,并在连续和新视图中实现一致的人体解析。
- HRHD-HK:高层和高密度城市场景的基准数据集,用于摄影测量点云的 3D 语义分割
本文提出一种高层、高密度城市点云基准数据集 (HRHD-HK),同时对现有的 8 种语义分割算法在此数据集上进行了全面评估,实验结果表明目前的点云 3D 语义分割仍有很大提升空间,特别是对于小体积的城市对象来说。
- EMNLP利用显式语法优化和子句建模提升文档级关系抽取
该研究提出了一种新的基于显式句法改进和子句建模的文档层面关系抽取框架(LARSON),该框架旨在更好地捕获和利用指导信息,进而提高文档内实体之间语义关系的准确性。实验结果表明,LARSON 在三个基准数据集上的性能优于现有方法。
- 图像和视频全景分割的通用框架
本研究利用基于模拟比特的扩散模型来解决全景分割任务中高维的一对多映射,通过添加过去的预测作为信息输入,能够对视频中的对象实例进行跟踪并自动学习,在各项实验中与现有的专业方法相比表现出了竞争性。
- 基于时空学习的动态环境下未来占据栅格的预测
我们提出了一种时空预测网络管道,它可以从环境和语义标签中获取过去的信息来生成未来的占用预测,并将其应用于复杂的 nuScenes 数据集中,相较于当前 SOTA,我们的方法可以预测长达 3 秒的占用情况,并不需要 HD-Maps 和明确模拟 - CVPR渐进接收野组件推理下的全监督点云分割
本文提出了一种在点云分割中使用的全尺度监督方法 —— 逐渐递进的感受野组件推理(RFCR),其中目标 RFCC 将以渐进分类推理方式监督解码器,最终获得语义标签。实验结果表明,RFCR 方法在三个具有挑战性的基准测试中显着提高了骨干网络的性 - SLAKE: 基于语义标注的医学视觉问答增强数据集
本文提出了一个大型的双语数据集 SLAKE,包含全面的语义标签和医学知识库,可以用于促进 Med-VQA 系统的开发和评估。
- SSCNav: 可信的语义场景补全技术,用于视觉语义导航
探讨了通过使用语义场景完整模块来辅助导航规划的任务,这个模块可以同时定位和导航到所需要的物体,提高了导航策略的效率。
- 语义标签能帮助自监督视觉表征学习吗?
本文提出了一种名为 SCAN 的新算法,该算法通过最大限度地防止语义指导损坏外观特征嵌入,有效的融合了有监督和自监督学习方法,取得了比以往的有监督和自监督方法更好的性能,并揭示了语义标签在辅助自监督方法中的作用。
- EMNLP提高语言理解和生成的双重推理
该论文探讨自然语言理解与自然语言生成之间的双重关系,并在推理阶段利用其对模型进行优化,从而提高了实践应用潜力。
- ECCV领域迁移下的聚类学习
本文提出了一种基于无监督域自适应和深度聚类的方法,利用来自多个源域的数据信息建立一个与具体域无关的聚类模型,并通过特征对齐和自我监督实现有效地适应目标域。本文的方法即使在少量目标样本的情况下也能自动发现相关语义信息,并在多个域自适应基准测试 - OpenRooms:用于照片级室内场景数据集的端到端开放框架
提出了一种创造大规模室内场景的照片级真实数据集的新框架,可提供外观、布局、语义标签、高质量变化自由的 BRDF 和复杂照明等显著真实的基准数据,可用于逆向渲染、场景理解和机器人学,与物理引擎结合可创建具有摩擦系数等真实场景对应关系的虚拟机器 - ECCV自回归无监督图像分割
该研究提出了一种基于不同视图之间的互信息最大化的新的无监督图像分割方法,该方法利用不同形式的掩蔽卷积构建数据的不同视图,用于表示学习或聚类。
- ICCV利用时间性进行半监督视频分割
本文提出了一种端到端可训练的深度学习模型,利用时间信息来利用易于获取的未标记数据,从而解决了视频分割中标签稀缺的问题。实验结果表明,该模型能够显著优于基线方法和逐帧图像分割。
- 使用不确定性引导的多流语义网络去模糊面部图像
该文章提出了一种新的多流架构和训练方法,利用语义标签进行面部图像去模糊。本文提出的不确定性引导多流语义网络(UMSN)独立处理属于每个语义类别的区域,并学习将它们的输出组合成最终的去模糊结果。此外,在训练期间,使用预测的置信度度量来引导网络 - Graph-RISE: 基于图的图像语义嵌入正则化
本文介绍了一种名为 Graph-RISE 的大规模神经图学习框架,可以训练图像嵌入以区分不同的超精细语义标签,并在图像分类和三元组排名等多个评估任务中优于当前最先进的图像嵌入算法。图 - RISE 在图像检索中有效捕捉了语义,并与最先进的算 - IJCAI从单张深度图实现语义场景补全的视点网络
本文介绍了一种名为 VVNet 的卷积神经网络,可从单个深度图像中推断出体积三维场景的占用率和语义标签,VVNet 有效地降低了计算成本,提高了结果的准确性。
- ScanComplete: 3D 扫描的大规模场景完成和语义分割
ScanComplete 采用数据驱动方法,输入不完整的 3D 扫描场景数据,预测出完整的 3D 模型并附带像素级语义标签,主要贡献在于处理空间范围不同的大型场景,并且在完成质量和语义分割性能等方面都显著优于其他方法。