从孤立的岛屿到泛地球:人类行为理解的语义空间统一
本篇论文探讨零样本学习在现代视频动作识别任务中的应用,采用语义词向量空间作为视频和类别标签的共同空间来解决语义信息相对复杂,并且难以学习的问题。通过自我训练和数据增强等策略,大大提高了这种映射的有效性,在 HMDB51 和 UCF101 等人体动作数据集上,本方法实现了最新的零样本动作识别性能。
Feb, 2015
通过引入包含丰富文本描述的 Stories 数据集,我们提出了一种新的方法来处理视频理解中的零样本学习问题,该方法可以在多个基准测试中取得新的最佳效果,提高了顶级准确率。
Sep, 2023
本文讨论了智能机器人如何同时理解环境的几何和语义属性,以构建包含物体级别实体和基于点或网格的几何表示的环境地图。作者的系统结合 RGB-D SLAM、深度学习目标检测和 3D 非监督分割等技术,同时构建几何点云模型和包含这些物体模型的地图。
Sep, 2016
本研究使用自然语言处理技术检测图像中突出的概念,从而代替直接使用视觉特征来推断目标标签,并在 HICO 数据集和 Stanford-40 Actions 数据集上验证,精确度分别达到了 31.54% 和 83.12%,同时为每个类别提供了语义上有意义的关键词列表和相关图像区域。
May, 2016
本论文提出了一种基于深度强化学习的混合模型与无模型集成的方法 LEAPS,通过对含有内在语义规律但视觉多样性的人造环境的实验表明其比不考虑语义内容的强基线更有效。
Sep, 2018
针对自然语言与视觉任务融合的多个数据集和方法的持续爆炸性增长的问题研究,本篇综述将现有的行动识别方法按照它们如何概念化这个问题进行分类,并详细评述现有的数据集及其多样性、优缺点。 重点关注最近开发的数据集,它们将视觉信息与语言资源联系起来,并对图像中的动作进行细粒度的语法和语义分析。
Apr, 2017
本研究提出了一种新型的跨模态 embedding 空间 ——Action2Vec,该方法将语言线索与视频剪辑的时空特征结合起来,并使用分层循环网络捕获视频特征的时间结构。我们使用联合损失训练嵌入,将分类准确度与 Word2Vec 语义相似性相结合。通过零样本动作识别和两项新颖的类比测试,我们评价了 Action2Vec 模型,并在三个标准数据集上获得了最先进的结果。同时,我们是首个将动词和动作视频组合成联合 embedding 空间,并在分布语义上进行全面评估的研究。
Jan, 2019
该研究论文旨在通过提出的模型从二维场景中提取具有建筑意义的语义描述,通过训练合成生成的图像以及相应的高级建筑结构,使用像素级比较评估,在真实环境中对其性能进行测试和评估。
Dec, 2023
本研究旨在通过空间感知物体嵌入实现视频中人类动作的零样本定位和分类,以提高全局对象分类得分并实现新的时空操作检索方案。实验证明,我们的方法在四个当代行动视频数据集中具有竞争优势。
Jul, 2017