CVPRMar, 2018

从句子中分离演员和动作的视频分割

TL;DR该研究旨在实现对视频内容中演员和他们的动作进行像素级别的分割。通过自然语言输入句子推断分割,以实现在同一超级类别中对精细的演员进行区分,并识别演员和动作实例,以及分割超出演员和动作词汇的成对内容。提出了一种用于视频像素级别的演员和动作分割的全卷积模型,采用编码器 - 解码器结构进行优化。扩展了两个流行的演员和动作数据集,并添加了超过 7,500 个自然语言描述,展示了基于句子的分割的潜力、我们模型的泛化能力和其与现有技术相比在传统演员和动作分割方面的优势。