Objects2action: 不依赖任何视频样例的动作分类与定位
本研究旨在通过空间感知物体嵌入实现视频中人类动作的零样本定位和分类,以提高全局对象分类得分并实现新的时空操作检索方案。实验证明,我们的方法在四个当代行动视频数据集中具有竞争优势。
Jul, 2017
本研究提出了一种无需标注视频训练样例来对人类行为在视频中进行分类和空间 - 时间定位。该方法基于物体信息进行分类和定位,引入了三种空间物体先验和三种语义物体先验,并将二者合并为视频嵌入来进行新的视频检索任务,该任务可基于用户指定的对象、空间关系和对象大小来检索视频中的行动。实验表明,空间和语义物体先验对于未知行为的本地化非常有帮助,而使用多语言和简单对象过滤可直接改善语义匹配,从而在未知行为分类和本地化方面达到最新成果。
Apr, 2021
本篇论文探讨零样本学习在现代视频动作识别任务中的应用,采用语义词向量空间作为视频和类别标签的共同空间来解决语义信息相对复杂,并且难以学习的问题。通过自我训练和数据增强等策略,大大提高了这种映射的有效性,在 HMDB51 和 UCF101 等人体动作数据集上,本方法实现了最新的零样本动作识别性能。
Feb, 2015
本文探索了将视频和类别标签嵌入共享语义空间的方法,作为零样本学习(zero-shot learning)动作识别的一种解决方案,并提出了一系列策略来改善标准 ZSL 流程中的泛化问题,大多数策略在性质上是转导的,这意味着在训练阶段可以访问测试数据。
Nov, 2015
本研究提出了一种新型的跨模态 embedding 空间 ——Action2Vec,该方法将语言线索与视频剪辑的时空特征结合起来,并使用分层循环网络捕获视频特征的时间结构。我们使用联合损失训练嵌入,将分类准确度与 Word2Vec 语义相似性相结合。通过零样本动作识别和两项新颖的类比测试,我们评价了 Action2Vec 模型,并在三个标准数据集上获得了最先进的结果。同时,我们是首个将动词和动作视频组合成联合 embedding 空间,并在分布语义上进行全面评估的研究。
Jan, 2019
本文提出了一种分阶段的双向潜在嵌入识别框架,通过探索训练数据的拓扑和标签信息,在底部阶段创建了一个潜在嵌入空间,用于引导未知类别的半监督 Sammon 映射,通过最近邻法预测测试实例的标签,最终实验结果表明,该方法在零样本学习和归纳推理设置下达到了最先进的性能水平。
Jul, 2016
通过引入包含丰富文本描述的 Stories 数据集,我们提出了一种新的方法来处理视频理解中的零样本学习问题,该方法可以在多个基准测试中取得新的最佳效果,提高了顶级准确率。
Sep, 2023
本文介绍了视觉语义角色标注的问题,即在给定图像的情况下,我们希望检测人们进行的动作并定位交互对象,为了实现这个目标,我们注释了一组数据集,并提供了一组基准算法来解决这个问题,并分析了错误模式,为未来的工作提供了方向。
May, 2015