基于文本的知识助力视觉：视频行为预测的简单跨模态蒸馏

Oct, 2022

基于文本的知识助力视觉：视频行为预测的简单跨模态蒸馏

Text-Derived Knowledge Helps Vision: A Simple Cross-modal Distillation for Video-based Action Anticipation

Sayontan Ghosh, Tanvi Aggarwal, Minh Hoai, Niranjan Balasubramanian

TL;DR本研究将预训练语言模型中的知识转移应用于视觉模型中，以提高动作预测的效果，实验表明简单的蒸馏技术可以在两个动作预测数据集上实现一定的相对增益。

Abstract

Anticipating future actions in a video is useful for many autonomous and assistive technologies. Most prior action anticipation work treat this as a vision modality problem, where the models learn the task information primarily from the video features in the →

action anticipation language models knowledge transfer vision-based models

发现论文，激发创造

标签平滑的行动预测知识蒸馏

本研究提出了一种基于 LSTM 网络的多模态框架，用于捕捉和模拟多标签的行动预测问题，并引入标签平滑的概念，以提高机器人技术在人机交互、辅助生活和自动驾驶等领域的预见性。

Apr, 2020

文本输入模态对动作预测效果的研究

我们提出了一种多模态预测变压器（MAT）架构，它使用来自多模态特征和文本字幕的信息来预测未来的动作。通过对预训练阶段的动作描述和模态特征融合期间检测到的对象和动作的文本输入进行扩展实验，我们评估了预训练阶段的有效性，并在所有数据集上展示了我们模型的优势。此外，我们还评估了通过文本获取的对象和动作信息的影响，并进行了广泛的消融实验。在 EpicKitchens-100、EpicKitchens-55 和 EGTEA GAZE + 三个数据集上评估表现，结果显示文本描述确实有助于更有效的动作预测。

Jan, 2024

跨模态知识蒸馏用于动作识别

研究如何将针对 RGB 视频训练的行动识别网络适应于识别 3D 人体姿势序列这样的另一个模态，提出了一种基于互相学习的小型学生网络集成和交叉模态知识蒸馏的方法，使得几乎达到了使用完全监督训练的学生网络的精度。

Oct, 2019

基于生成模型的特征知识蒸馏用于行为识别

本研究提出了一种创新的知识蒸馏框架，利用生成模型训练轻量级学生模型，通过特征表示和基于生成模型的特征蒸馏阶段，转移基于注意力的特征语义，在视频动作识别任务中显示出显著的性能改进。

Dec, 2023

人类中心视频中基于知识引导的短上下文动作预测

本文通过将符号性知识图谱融入变换网络，提高了视频段期望动作的预测准确性，从而加快了编辑工作流程，并通过提供叙事建议来促进创造力。在 Breakfast 和 50Salads 两个基准数据集上，我们的方法在使用短视频上下文进行长期动作预测方面，超过了现有最先进方法高达 9%。

Sep, 2023

视觉语言与骨骼的融合：逐步蒸馏和跨模态知识用于 3D 动作表示学习

基于骨骼的动作识别的训练方法之一是基于监督学习的独热分类，这需要大量的预定义动作类别注释；而基于自监督学习的方法涉及预处理任务中的骨架变换，可能会损害骨架结构。为了解决这些挑战，我们引入了一种新颖的基于骨骼的训练框架（C$^2$VL），基于跨模态对比学习，使用渐进蒸馏从视觉 - 语言知识提示中学习无关任务的人类骨架动作表征。

May, 2024

VidLanKD: 通过视频提炼的知识转移来改进语言理解

本文提出了一种名为 VidLanKD 的视频 - 语言知识蒸馏方法，通过在视频文本数据集上训练一个多模教师模型，再将其知识转移到一个文本数据集上的学生语言模型，以达到优化语言理解的目的。实验结果表明，VidLanKD 模型在多个语言理解任务上均取得了较好的效果。

Jul, 2021

促进 LSTMs 早期预测动作

本文提出了一种新的动作预测方法，该方法基于多阶段 LSTM 网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数，可以在视频序列仅有少量片段的情况下实现高准确度的预测，并在多个公开数据集上超过了先前最优的动作预测方法，相对提升了 22.0％（JHMDB-21），14.0％（UT-Interaction），和 49.9％（UCF-101）的准确率。

Mar, 2017

OST: 优化时空描述符提升通用视频识别中的文本知识

通过将大型语言模型应用于视频领域，进行语义空间的优化，从而改善图像 - 语言模型在视频数据上的性能限制，并提高视频识别的准确性。

Nov, 2023

重新思考长期行动预测的学习方法

ANTICIPATR 模型使用 segment-level representations 和 video-level representation 进行时间跨度较大的 action anticipation 任务，能够直接预测未来一段时间的行为实例。在 Breakfast、50Salads、Epic-Kitchens-55 和 EGTEA Gaze+ 数据集上得到了较好的结果。

Oct, 2022