VONet：使用并行的 U-Net 注意力与对象逐帧的序列 VAE 进行无监督视频对象学习

ICLRJan, 2024

VONet：使用并行的 U-Net 注意力与对象逐帧的序列 VAE 进行无监督视频对象学习

VONet: Unsupervised Video Object Learning With Parallel U-Net Attention and Object-wise Sequential VAE

Haonan Yu, Wei Xu

TL;DRVONet 是一种无监督视频物体学习方法，通过采用 U-Net 架构和并行的注意力推理过程生成关注掩模，并利用物体级的顺序 VAE 框架增强每个掩模在连续视频帧上的时间一致性，结合表达丰富的基于变压器的解码器，成为跨五个 MOVI 数据集（包括复杂性不同的视频）的领先无监督物体学习方法。

Abstract

unsupervised video object learning seeks to decompose video scenes into structural object representations without any supervision from depth, optical flow, or segmentation. We present vonet, an innovative approac

unsupervised video object learning vonet attention masks sequential vae framework transformer-based decoder

发现论文，激发创造

MONet: 无监督场景分解与表示

该论文介绍了 Multi-Object Network 模型，它可以将复杂的 3D 场景拆分为对象和背景等语义组件，从而更好地表示场景中的抽象要素和关系，提高数据效率和转移性能。

Jan, 2019

看得更多，知道得更多：利用联合注意力孪生网络进行无监督视频对象分割

提出了一种名为 COSNet 的新型网络，用于表示全局视角下的无监督视频对象分割任务，其中利用全局注意机制结合视频帧之间的相关性，训练效果超越当前的深度学习方法。

Jan, 2020

自监督视频分割的统一掩模嵌入和对应关系学习

通过开发一个统一的框架，其中同时建模跨帧密集对应以进行本地区分特征学习并嵌入对象级上下文进行目标掩码解码，从而使得能够直接从未标记的视频中学习执行基于掩码的连续分割，而不是依赖于基于像素的关联的廉价 “复制” 标签的非直接方法。

Mar, 2023

RANet：用于快速视频对象分割的排名关注网络

这篇论文提出了一种在线学习技术与匹配传播相结合的 Ranking Attention Network 方法，以端到端的方式学习像素级的相似度和分割，并使用新颖的排序注意力模块自动排名和选择这些映射，从而显著提高了半监督视频对象分割的准确性和速度。

Aug, 2019

视频分割的密集无监督学习

本研究提出了一种新的无监督学习方法，其中使用密集特征表示直接进行卷积全制度的学习来进行视频对象分割。通过使用一个简单的规则化方案，该方法能够提高分割精度并达到快速的训练收敛。最终，该方法在标准的视频对象分割基准测试中取得了较高的精度。

Nov, 2021

视觉物体网络：利用解缠的三维表示进行图像生成

通过对经典图形渲染管道的启发，我们提出了视觉对象网络（VON）—— 一种生成对象自然图像的新型生成模型，它生成具有解缠的 3D 表示的对象自然图像，让图像不仅具备比最先进的 2D 图像合成方法更加逼真的外观，还能进行各种 3D 操作。

Dec, 2018

基于视频序列的无监督物体表示基准测试

研究了四种基于物体的表征方法的感知能力，设计了一个基准测试集来评估物体检测、分割和跟踪的基本感知能力，并发现具有非约束潜在表征的架构比基于空间变换器的架构具有更强的物体感知能力。

Jun, 2020

真实表演的无监督学习风格感知面部动画

本文提出了一种基于混合形状几何、动态纹理和神经渲染的照片级头部模型的文本 / 语音驱动动画的新方法，该动画方法基于有条件的 CNN 将文本或语音转换为一系列动画参数。

Jun, 2023

通过关注图神经网络进行零样本视频物体分割

提出了一种新的关注图神经网络 (AGNN)，用于零样本视频对象分割 (ZVOS)。所提出的 AGNN 将此任务作为视频图上迭代信息融合的过程。通过参数化消息传递，AGNN 能够有效地捕捉和挖掘视频帧之间更丰富和更高阶的关系，因此实现更全面的视频内容理解和更准确的前景估计。扩展 AGNN 到另一个任务时，我们进一步证明了我们的框架的通用性。广泛的实验验证了 AGNN 能够学习视频帧或相关图像之间的潜在语义 / 外观关系，并发现共同的对象。

Jan, 2020

从未标注的视频中学习视频对象分割

提出了一种利用无标注视频进行物体模式学习的视频对象分割新方法，通过引入统一的无监督 / 弱监督学习框架，可以全面捕捉 VOS 的内在特性，在不同的 VOS 设置中表现出有希望的性能并显著减少标注负担。

Mar, 2020