- CVPRP3IV: 从教学视频中使用弱监督进行概率过程规划
本文提出了一种基于 transformer 和概率生成模块的弱监督方法,用于学习从自然语言指令中提取过程规划,避免了对训练视频进行昂贵的时序视频标注,并在三个数据集上的对比实验证明其优于之前的全监督模型。
- CVPR利用远程监督学习识别过程性活动
本文研究了从长达数分钟的视频中识别精细、多步骤活动的问题,通过远程监督的语言模型方法,基于 wikiHow 的文本数据库自动标注视频中的步骤,并在识别过程中考虑了它们的时间依赖性,实现了较高的泛化性能。
- ICCV通过情境建模和基于模型的策略学习在教学视频中进行程序规划
本文提出了一种新的过程规划公式,通过贝叶斯推论和基于模型的模仿学习,建模人类行为,从而在实际的指导视频中实现了它,证明了我们的方法可以实现达到指定目标的最先进性能的同时,学习到的上下文信息以潜在空间的形式表现出有趣的特征。
- 基于 Transformer 的视觉引导规划在程序化任务中的应用
使用人类决策过程的教学视频培训模型,学习从视频中直接生成可规划结构的状态和行动空间,并使用 Planning Transformer 解决了长期决策的复杂性问题,并通过实验证明了其在达到目标方面的良好性能表现。
- ACL为密集视频字幕编写进行多模态预训练
本文介绍了在视频学习中生成元信息的困难性,提出了一种基于时间戳注释的新数据集 Video Timeline Tags(ViTT)以及采用多模态序列预训练策略来预训练和微调密集视频字幕模型,证明了该模型可以很好地泛化和适用于各种各样的教学视频 - 利用叙述性教学视频的语境化物体嵌入
该论文提出了一种从自动转录的指导视频中学习上下文化对象嵌入(COBE)的新框架,利用语言的语义和组成结构,通过训练视觉检测器预测对象的上下文化词嵌入来实现对象状态和上下文的识别,实验表明在少样本和零样本学习方面非常有效。
- EMNLP从烹饪视频中提取结构化程序化知识的基准
本文提出了从烹饪视频中提取结构化过程知识的基准测试,研究了现有模式的性能。
- CVPR使用文本数据的强化学习快进视频
本文提出一种基于强化学习的方法来加速教学视频,该方法可以自适应地选择不相关的帧以缩小输入视频,同时使用 Visually-guided Document Attention Network(VDAN)产生高度判别的嵌入空间来表示文本和视觉数 - 教学视频问题回答数据集
提出了一种新的基于教学视频的问题回答任务,并介绍了一个包含约 6000 个三元组的数据集(视频,问题,回答跨度),并使用几个基准算法对其进行了实验,从而得出该任务的挑战性并呼吁探索新算法。
- 结合 ASR 和视觉特征产生教学视频字幕的案例研究
研究表明,在视频分享平台上,提供时间戳、子任务注释可以提高用户体验,但是,现有的仅基于视觉特征的自动注释方法仅比常量预测略好。本文考虑 ASR 标记作为输入,通过联合建模 ASR 标记和视觉特征的方式,可以显著提高性能,同时探讨未明示的背景 - 教学视频中的程序规划
本文提出 Dual Dynamics Networks(DDN)框架来解决学习结构化的、可规划的状态和动作空间的技术挑战,以应对复杂任务规划的问题;DDN 框架在真实世界的教学视频上展示了更好的规划性能。
- CVPR指令视频中的无监督视觉语言引用解析
通过学习联合视觉和语言模型,我们提出了一种无监督方法来解决教育视频中的实体指代问题,具有可以显著提高指代解析的能力。
- ICCV无监督视频集合中的语义行为发现
通过视觉和语言提示的联合生成模型,对互联网上海量的指示视频进行语义步骤解析,为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。