该研究旨在实现对视频内容中演员和他们的动作进行像素级别的分割。通过自然语言输入句子推断分割,以实现在同一超级类别中对精细的演员进行区分,并识别演员和动作实例,以及分割超出演员和动作词汇的成对内容。提出了一种用于视频像素级别的演员和动作分割的全卷积模型,采用编码器 - 解码器结构进行优化。扩展了两个流行的演员和动作数据集,并添加了超过 7,500 个自然语言描述,展示了基于句子的分割的潜力、我们模型的泛化能力和其与现有技术相比在传统演员和动作分割方面的优势。
Mar, 2018
提出了一种基于多模态学习和叙述监督的视频检测模型,可以从嘈杂的音频叙述中学习动作检测,从而降低标注的费用。
May, 2022
通过视觉和语言提示的联合生成模型,对互联网上海量的指示视频进行语义步骤解析,为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。
May, 2016
本文提出了一种基于弱监督学习的人类行为学习方法,通过视频的文字形式来推断其中涉及的行为,并能在没有帧级别标注的情况下学习相关的行为模型;该方法在四个活动数据集上进行了评估,证明了其高效性和竞争力。
Oct, 2016
本文介绍了一种新的无监督视频分割方法,采用迭代鉴别生成方法,通过学习视频视觉特征并建模时序结构,将复杂活动划分为多个子活动,并引入背景模型,验证结果优于现有无监督及弱监督方法。
该研究论文介绍了一种弱监督的行为检测和时间分割方法,利用被动数据采集到的行为集合训练模型,以实现自动的视频行为分割和标注。
Jun, 2017
本文提出了一种弱监督的在线动作分割框架,采用动态规划方法来在线分割流媒体视频,并通过引入 Online-Offline Discrepancy Loss(OODL)优化分割结果的时间一致性,同时仅在训练期间使用多视角帧级一致性作为弱标注来提高精度及减少标注成本,实验结果在烹饪和组装等两个领域的 Breakfast 和 IKEA ASM 数据集中均得到了验证。
Mar, 2022
该研究提出了一种基于连续时间嵌入的无监督学习方法,通过鉴别视觉序列中课程的聚类段以实现发现非结构化视频中的动作。该方法被评估在三个数据集上,可以适用于未知情景下的视觉内容分析
Apr, 2019
提出了一种层次化方法,通过结构化识别来解决从有序动作标签中弱监督学习人类动作的问题,并将一帧 RNN 模型与粗略概率推理相结合,以实现长序列的时间对齐和迭代训练。
Jun, 2019
通过自我监督方法生成原始特征向量的改进表示,提高了现有模型在行动分割的不同子任务上的性能。
Dec, 2023