- 一种综合数据集训练分割模型的综合模型
通过结合多个部分注释数据集,我们提出了一种方法将互补注释合并到一个模型中,实现更好的场景分割和使用多个可用数据集。我们的方法成功地将 6 个类别组合成一个模型,与单独训练在各个类别上的模型集合相比,总体 Dice 分数提高了 4.4%。通过 - 基于语义感知的神经辐射场用于视觉场景理解:综述
本综述全面研究了语义感知的神经辐射场(NeRFs)在视觉场景理解中的作用,覆盖了 250 多篇学术论文的分析。它探讨了 NeRFs 在场景中熟练推断静态和动态物体的三维表示的能力,并介绍了其在生成高质量新视点、补全场景细节(修复)、进行全面 - CoSSegGaussians:紧凑且快速的场景分割 3D 高斯模型
我们提出了一种紧凑高效的三维高斯分割方法(Compact and Swift Segmenting 3D Gaussians,CoSSegGaussians),通过仅使用 RGB 图像输入,在快速渲染速度下进行三维一致场景分割。
- 面向现实布局的迁移:基于深度感知的场景适应框架
通过无监督领域自适应实现场景分割,利用深度感知框架结合深度估计进行数据增强和上下文学习,即使使用伪深度,也能在两个广泛使用的基准测试上达到有竞争力的性能
- 局部分割:改进场景分割学习
以基于插槽的处理方法为基础的场景表示的分解性处理方法已经取得了巨大的发展。我们介绍了 Loci-Segmented(Loci-s),这是一个先进的场景分割神经网络,扩展了基于插槽的位置和身份跟踪架构 Loci。
- 在视频中发现局部二进制模式方程来移除前景对象
通过符号回归自动发现 LBP 公式,进而通过场景分割将一个场景划分为背景和前景,实验证明所提方法发现的 LBPs 在质量和数量上明显优于先前的最先进 LBP 描述符。
- MMOS-MSL: 一阶段多模态序列链接框架用于场景分割和分类
本文提出了一种新颖的方式 —— 预测镜头之间的链接,将场景分割和分类这两个任务融合成一个任务,同时引入了一个特定的模块 ——DiffCorrNet 来明确提取镜头间的差异和相关性,通过广泛的实验,证明了这种方式确实有效。
- ICLR无监督发现物体辐射场
本文提出了一种无监督的方法,叫做 uORF,用于从单张图像中推断物体场景表示,该方法整合了神经 3D 场景表示和深度推断网络,能够成功地分解复杂的 3D 场景,并完成诸如场景分割、3D 编辑和新视角合成等任务。
- 从视觉场景中学习物理图形表示
本篇论文提出了一种名为 PSGNet 的网络架构,该架构能够通过物理场景图像层次结构学习和提取场景信息,尤其在复杂真实世界图像上的场景分割任务上表现出色,并且能够从物理运动中学习到更为准确的场景估计。
- CVPR一种多模态电影场景分割的从局部到全局的方法
为了对电影进行语义理解,提出了一种局部到全局的场景分割框架,其中包含来自三个级别的多模态信息。通过预先训练 MovieScenes 数据集,该框架能够从长片的分层时间结构中提取复杂语义,提供自上而下的场景分割指导,并在实验中取得了高精度的场 - ICCV场景分割的边界感知特征传播
本文提出了一种基于边界感知的特征传播模块,利用单向有向无环图结构化图像,以及在 PASCAL-Context、CamVid 和 Cityscapes 等数据集上取得了最新的场景分割性能。
- CVPR无缝场景分割
本研究提出了一种基于 CNN 的新型架构,可以进行端到端的训练,以提供无缝的场景分割结果。该网络结构采用了一种新颖的分割头,将由特征金字塔网络生成的多尺度特征与由轻量级 DeepLab 模块传递的上下文信息进行了无缝整合,从而预测一致的语义 - 基于场景分割的多曝光图像融合亮度调整
本文提出了一种新颖的多曝光图像融合的亮度调整方法,该方法基于亮度分布提出了两种新颖的场景分割方法。实验结果表明,该方法可以在给定不理想输入时生成高质量的图像,并且在多个评测指标上优于其他最先进的方法。
- CVPR双重注意力网络用于场景分割
本文通过应用双重注意力网络 (DANet) 和自注意力机制来捕捉语境相关性,以实现更准确的场景分割,在 Cityscapes 数据集上取得了 81.5% 的平均 IoU 得分,并提供了相应的代码和训练模型。
- 通过游戏学习计算机视觉 - ResearchDoom 和 CocoDoom
介绍了一个视频游戏的元数据提取方法及其相关数据集 CocoDoom,提供给研究者用于计算机视觉技术的实例和类别级别的物体识别、检测、分割,运动估计、单目深度估计和场景分割的训练和评估。