如何进行细粒度行为理解:利用伪副词
通过伴随的叙述语的弱监督学习,提出了一种学习广告副词表示的方法,使用缩放点积注意力从指导视频中学习,并联合学习广告副词作为反演变换。实验结果表明,该方法在视频到副词检索方面的表现优于所有基线。
Dec, 2019
在视频的细粒度理解中,我们提出了一个视频 - 副词检索的框架,通过在联合嵌入空间中将视频嵌入与其匹配的组成副词 - 动作文本嵌入进行对齐。我们的方法在视频 - 副词检索的五个最新基准上实现了最新的性能,同时引入了基于 MSR-VTT Adverbs 和 ActivityNet Adverbs 数据集子集的未见副词 - 动作组合的视频 - 副词检索基准,我们的框架在将副词从视频中检索出未见的副词 - 动作组合的泛化任务上优于所有先前的工作。
Sep, 2023
本研究旨在预测视频中动作的副词,将问题转化为回归任务。作者通过测量动词和副词之间的文本关系,生成回归目标,并收集了一个新的高质量数据集:Adverbs in Recipes,评估了该方法并取得了优异的结果。
Mar, 2023
本研究采用弱监督和跨领域转移学习的方法,结合深度卷积神经网络和长短时记忆网络,实现从未剪辑的网络视频中,对于精细的动作定位识别,并使用大量的数据集如 FGA-240 和 THUMOS 2014,得到了令人信服的结果。
Apr, 2015
本文提出一种弱监督的方法来检测细粒度视频动作,通过自我监督聚类获取可重复和自动发现的原子动作集合,并结合语义标签层次将原子动作映射到细粒度和粗粒度行动标签,最终构建了四个层次的视频可视化表示层次,在两个大型数据集上实验表明该方法在细粒度动作检测方面取得了最优性能。
Jul, 2022
本研究基于体操比赛视频开发了 FineGym 数据集,提供了具有三层语义层次的动作和子动作的时间标注,挑战了运动分析中的行为识别和区分问题。
Apr, 2020
我们研究了在图像中识别动作的结束状态的问题,重点是预测切割的粗细,通过合成训练数据的方法进行数据增广,使用基于 UNet 的模型进行训练,并且成功地识别了切割动作的结束状态,展示了模型在训练和测试之间的领域转化,并且对未知对象具有良好的泛化性。
May, 2024
该研究提出了一种用于行动识别的粗到细框架,旨在预测视频级别的行动,并识别视频中每个人体部分的帧级细粒度操作或交互,通过 Kinetics-TPS 的全面实验,该框架取得了最先进的性能,在 31.10%的 ROC 得分上优于现有方法。
Mar, 2022
该研究通过在视频配文中分离词性来丰富嵌入空间,提出了一种新的跨模态细粒度行为检索方法,同时在 EPIC 和 MSR-VTT 数据集上展示了比基准方法更好的结果。
Aug, 2019
通过从原始视频剪辑中提取物体行为,设计了一个新的框架,通过对这些提取的事实进行推理,识别出剪辑对应的副词类型,实验证明我们提出的方法在符号性视频处理方面表现优异。
Jul, 2023