在教学视频中基于视频图像挖掘的按键识别
本文探讨了生成真实世界活动任务图的问题,提出了一种无监督的任务图生成方法,结合语言模型的推理能力、聚类和排名组件,比 ProceL 和 CrossTask 数据集中的有监督学习方法生成更准确的任务图。
Feb, 2023
通过最大似然优化边权重的方法,从动作序列中预测任务图,与之前的方法相比提高了 16.7% 的准确性;同时可通过文本或视频嵌入来预测任务图,并在程序性自我中心视频中显著提高在线错误检测的准确性,分别在 Assembly101 和 EPIC-Tent 数据集上获得了 19.8% 和 7.5% 的显著增益。
Jun, 2024
本文研究了从长达数分钟的视频中识别精细、多步骤活动的问题,通过远程监督的语言模型方法,基于 wikiHow 的文本数据库自动标注视频中的步骤,并在识别过程中考虑了它们的时间依赖性,实现了较高的泛化性能。
Jan, 2022
本论文介绍了一种新的预训练视频模型,VideoTaskformer,利用遮盖步骤建立弱监督学习任务,学习全局步骤表示,实现对多步骤任务的表示和预测。同时提出了两个新的基准测试来检测指令视频中的错误步骤和步骤执行顺序,以及一项长期预测基准测试,均取得了优于现有基线的性能,适用于评估全球学习的步骤表示质量。
Mar, 2023
通过提出的 Bootstrapped Multi-Cue Contrastive (BMC2) Loss,我们成功地建立了一个轻量级的时间模型,该模型使用现成的特征进行自我监督,并能够从多个提示信号中获取信息,最终实现从无标记程序性视频中提取出有意义的关键步骤。
Jan, 2023
研究利用大量网络教学视频和其解说学习视频表示方法,以编码动作步骤及其时间排序,推动步骤分类和预测等领域的发展。通过深度概率模型同时学习视频表示和时间依赖关系,且在 COIN 和 EPIC-Kitchens 等数据集上,具有比同类研究更明显的提升。同时,该研究对于不完整步骤的步骤推测也有良好的表现。
Mar, 2023
本研究旨在利用视频表示学习技术,通过构建 Procedural Knowledge Graph (PKG) 生成伪标签来训练视频表示模型,以提高多种程序理解任务的精度。其中 PKG 结构由通过无标签的教学视频和基于文本的程序知识库信息融合而成,训练数据使用了四个新的预训练目标。最终模型 Paprika 在 12 个任务上实现了高达 11.23% 的精度提升。
Mar, 2023
本文提出了一种基于流程图及泛指操作文本的无需标注步骤顺序的视频多步弱监督本地化算法 Graph2Vid,并扩展了 CrossTask 数据集以验证算法有效性。
Oct, 2022
该论文提出了一种新的具有挑战性的任务,即非顺序图脚本推理,旨在捕捉程序规划中的可选步骤和可互换步骤,通过多模态框架将视频转换成观察到的步骤路径,以训练生成明确图脚本和预测未来步骤的模型。该模型优于纯文本 / 视觉基线,人类评估显示超过 WikiHow 线性基线,能够更好地捕捉顺序和非顺序步骤关系。
May, 2023
该研究探讨了代理程序在构建逻辑动作步骤序列方面的能力,从而组装战略性的过程计划。利用来自训练数据的程序化知识图,我们提出了一种名为 KEPP 的新型知识增强程序规划系统,该系统在各种复杂度设置下的实验评估结果表明,KEPP 取得了卓越的、最新的结果,同时只需要很少的监督。
Mar, 2024