- IJCAI引导:一份指导性的用于教学视频理解的数据集
为了解决互联网教学视频缺乏任务层面经验指导的问题,提出 GUIDE 数据集,其中包含 3.5K 个相关任务的 560 个指南,用于评估模型的理解能力,包括步骤字幕生成、指南摘要和指南引导字幕生成等三个子任务。
- 通过大型语言模型从动作中学习对象状态
通过使用大型语言模型,我们提出了一种从指导视频中的动作信息中提取物体状态信息的方法,并使用所生成的伪标签对模型进行训练,从而明确从动作中提取出物体状态信息的有效性。
- 通过融合 MOOC 学习场景中的视频语义进行多模态情感识别
探索视频语义信息对学习者情绪的影响,本文提出一种融合视频语义信息和生理信号的多模态情绪识别方法,实现了情绪识别性能的显著提升,为 MOOC 学习情景的情绪识别研究提供了新的视角和高效的方法。
- ActionDiffusion: 一个针对教学视频程序规划的动作感知扩散模型
我们提出了一个新颖的扩散模型 ActionDiffusion,用于指导教学视频中的过程规划,它是第一个在扩散模型中考虑动作之间的时间依赖关系,与现有方法相比,利用了动作按特定顺序执行的丰富信息内容。我们的方法通过将动作信息投影到噪声空间实现 - ICLRSCHEMA: 在教学视频中,状态变化对流程规划至关重要
我们研究了教学视频中的过程规划问题,旨在根据部分视觉观察结果制定目标导向的行动步骤序列,通过跟踪状态变化建立更有结构化的状态空间。通过在步骤表示中利用通识知识并通过语言描述对齐状态观察,我们提出的 SCHEMA 模型在 CrossTask、 - 无任务名称的上下文注入用于程序规划
本研究探讨了在教学视频中的过程规划挑战,旨在通过观察视频中的视觉起点和目标,创建目标导向的计划。在先前的研究中,通过从大量的中间视觉观察或语言指令逐渐减少训练监督来解决此问题。然而,随着大型语言模型的出现,即使只提供任务名称,这些模型也可以 - AAAIYTCommentQA: 教学视频中的视频问题可回答性
展示了 YTCommentQA 数据集,该数据集包含了 YouTube 上自然生成的问题,按照其可回答性和回答所需的模态进行分类,实验结果突出了在视频推理中视觉和脚本信息的综合作用。
- HowToCaption: 规模化促使 LLMs 转化视频注释
利用大型语言模型从自动语音识别摘要中创建与视频对齐的细致视频描述,以达到大规模教学视频数据训练文本 - 视频模型的目的。这项工作应用于 HowTo100M 数据集的副标题,创建了一个新的大规模数据集 HowToCaption,其结果不仅显著 - Skip-Plan:通过简化的行动空间学习在教学视频中进行程序规划
通过跳过不确定的节点和边,在行动链中以简化行动空间的方式,我们的模型能够探索行动序列中各种可靠的子关系,并在 CrossTask 和 COIN 两个评估数据集上达到了最先进的性能。
- 从医学视频中回答与健康相关的问题:数据集与方法
通过使用大规模数据集和视觉答案,本文聚焦于使用医疗视频为公众提供有关健康的视觉答案,并分析了数据集对模型训练和可视特征在提高单模态和多模态方法性能方面的影响。
- 面具扩散 + 任务感知:教学视频中的程序规划
在教学视频的程序规划中,处理由多个属于不同任务的动作类型组成的决策空间是一个关键挑战。为了理解现实世界的视频内容,人工智能代理系统必须能够根据简要的视觉观察熟练地区分这些动作类型,并能够捕捉这些动作类型与任务目标之间的复杂语义关系以及可变的 - ICCV基于事件引导的通过文本监督的指导视频的流程规划
本研究针对从带有文本监督的指令视频中进行过程规划的任务,提出了一种基于事件引导的范式,通过从观察到的状态中推断事件并基于状态和预测的事件规划行动。在提出的模型中,还采用了遮盖和预测方法进行关系挖掘,通过将事件信息编码到顺序建模过程中来支持过 - CVPRStepFormer:自监督下的指导视频步骤发现和定位
介绍了一种自监督方法,叫做 StepFormer,用于从无需人类监督的大规模教学视频中发现和定位关键步骤。该方法使用 transformer 解码器关注视频,以生成一系列包含视频关键步骤的槽。通过使用文本形式的指导并采用顺序感知损失过滤掉无 - CVPR分层视频时刻检索和分步标题
本研究介绍了 HiREST 数据集和基准测试,涵盖了从以下视频语料库中检索单元(瞬间)并分层检索高亮步骤的任务。HiREST 包括来自教学视频数据集的 3.4K 个文本视频对,其中 1.1K 个视频具有与文本查询相关的瞬间跨度注释,并将每个 - CVPR教学视频中的过程规划:PDPP 算法
研究了指导视频中的过程规划问题,使用扩散模型进行分布拟合,从中采样操作序列达到规划目标,并在三个数据集上验证了其优于当前方法的性能表现。
- 教学视频中任务结构的学习与验证
本论文介绍了一种新的预训练视频模型,VideoTaskformer,利用遮盖步骤建立弱监督学习任务,学习全局步骤表示,实现对多步骤任务的表示和预测。同时提出了两个新的基准测试来检测指令视频中的错误步骤和步骤执行顺序,以及一项长期预测基准测试 - 从教学视频中生成多模态子任务图
该研究旨在从任务的教学视频中建立多模态子任务图,以便更准确地预测下一个子任务,并且与先前方法相比,建立的图更接近于人工标注的图。
- 从教学视频转录中生成无监督任务图
本文探讨了生成真实世界活动任务图的问题,提出了一种无监督的任务图生成方法,结合语言模型的推理能力、聚类和排名组件,比 ProceL 和 CrossTask 数据集中的有监督学习方法生成更准确的任务图。
- 通过问题学习在视频语料库中定位视觉答案
本论文介绍一项新的任务,即视频语料库视觉答案定位(VCVAL),旨在使用自然语言问题在大量未剪辑的指导视频中定位视觉答案,并提出了一种跨模态对比全跨度(CCGS)方法来解决 VCVAL 问题,并在 MedVidCQA 数据集上测试了该方法, - ECCV使用任务相关性和跨模态显著性总结教学视频
本文使用伪摘要的方法,提出了一种结合上下文感知时态视频编码器和片段评分转换器的教学视频摘要网络,并将其应用于 WikiHow Summaries 数据集。结果表明,该模型在教学视频摘要方面显著优于各基准和最先进的视频摘要模型。