基于文本的知识助力视觉:视频行为预测的简单跨模态蒸馏
本研究提出了一种基于 LSTM 网络的多模态框架,用于捕捉和模拟多标签的行动预测问题,并引入标签平滑的概念,以提高机器人技术在人机交互、辅助生活和自动驾驶等领域的预见性。
Apr, 2020
我们提出了一种多模态预测变压器(MAT)架构,它使用来自多模态特征和文本字幕的信息来预测未来的动作。通过对预训练阶段的动作描述和模态特征融合期间检测到的对象和动作的文本输入进行扩展实验,我们评估了预训练阶段的有效性,并在所有数据集上展示了我们模型的优势。此外,我们还评估了通过文本获取的对象和动作信息的影响,并进行了广泛的消融实验。在 EpicKitchens-100、EpicKitchens-55 和 EGTEA GAZE + 三个数据集上评估表现,结果显示文本描述确实有助于更有效的动作预测。
Jan, 2024
研究如何将针对 RGB 视频训练的行动识别网络适应于识别 3D 人体姿势序列这样的另一个模态,提出了一种基于互相学习的小型学生网络集成和交叉模态知识蒸馏的方法,使得几乎达到了使用完全监督训练的学生网络的精度。
Oct, 2019
本研究提出了一种创新的知识蒸馏框架,利用生成模型训练轻量级学生模型,通过特征表示和基于生成模型的特征蒸馏阶段,转移基于注意力的特征语义,在视频动作识别任务中显示出显著的性能改进。
Dec, 2023
本文通过将符号性知识图谱融入变换网络,提高了视频段期望动作的预测准确性,从而加快了编辑工作流程,并通过提供叙事建议来促进创造力。在 Breakfast 和 50Salads 两个基准数据集上,我们的方法在使用短视频上下文进行长期动作预测方面,超过了现有最先进方法高达 9%。
Sep, 2023
基于骨骼的动作识别的训练方法之一是基于监督学习的独热分类,这需要大量的预定义动作类别注释;而基于自监督学习的方法涉及预处理任务中的骨架变换,可能会损害骨架结构。为了解决这些挑战,我们引入了一种新颖的基于骨骼的训练框架(C$^2$VL),基于跨模态对比学习,使用渐进蒸馏从视觉 - 语言知识提示中学习无关任务的人类骨架动作表征。
May, 2024
本文提出了一种名为 VidLanKD 的视频 - 语言知识蒸馏方法,通过在视频文本数据集上训练一个多模教师模型,再将其知识转移到一个文本数据集上的学生语言模型,以达到优化语言理解的目的。实验结果表明,VidLanKD 模型在多个语言理解任务上均取得了较好的效果。
Jul, 2021
本文提出了一种新的动作预测方法,该方法基于多阶段 LSTM 网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数,可以在视频序列仅有少量片段的情况下实现高准确度的预测,并在多个公开数据集上超过了先前最优的动作预测方法,相对提升了 22.0%(JHMDB-21),14.0%(UT-Interaction),和 49.9%(UCF-101)的准确率。
Mar, 2017
ANTICIPATR 模型使用 segment-level representations 和 video-level representation 进行时间跨度较大的 action anticipation 任务,能够直接预测未来一段时间的行为实例。在 Breakfast、50Salads、Epic-Kitchens-55 和 EGTEA Gaze+ 数据集上得到了较好的结果。
Oct, 2022