Sep, 2023

无监督视频目标分割中以输出选择为选项处理动作

TL;DR无监督视频对象分割是一项旨在在没有关于对象的外部指导的情况下检测视频中最显著的对象的任务。为了充分利用显著对象通常与背景具有不同的运动特征的属性,最近的方法共同使用从光流图提取的运动线索与从 RGB 图像提取的外观线索。然而,由于光流图通常与分割掩码非常相关,网络在网络训练期间容易过度依赖运动线索。因此,这种两流方法容易受到混淆的运动线索的干扰,使其预测不稳定。为了缓解这个问题,我们设计了一种将运动线索视为可选的新型运动作为选项网络。在网络训练期间,随机提供 RGB 图像而不是光流图给运动编码器,以隐式降低网络的运动依赖性。由于学习到的运动编码器可以处理 RGB 图像和光流图,因此可以根据所使用的信息源的运动输入生成两种不同的预测。为了充分利用这个特性,我们还提出了一种自适应输出选择算法来在测试时采用最佳的预测结果。我们提出的方法在所有公共基准数据集上都具有最先进的性能,甚至保持了实时推理速度。