由音频叙述引导的弱监督行为检测
本文研究了多模态学习中的音频 - 视觉相关性,并使用该方法在视频中探讨弱监督下的活动密集事件字幕问题,通过实验证明了提出的多模态方法优于单模态方法,同时验证了特定功能表示和体系结构设计的选择。
Sep, 2019
本文介绍了一种新的学习方法,MIL-NCE, 用于从讲述视频中学习强大的视频表示,并能够在不需要手动注释的情况下进行。该方法通过对齐不对称的讲述视频,有效地学习了视频表示。作者在 HMDB-51、UCF-101、Kinetics-700 等多个数据集上进行了评估,证明了该方法优于已发表的自监督方法和多个全监督基准线的表现。
Dec, 2019
本文利用音频监督视频中活跃讲话者检测的学习,通过声音活动检测 (VAD) 以弱监督的方式指导基于视觉的分类器学习。使用时空特征进行分类,学习人特定的模型以及在线适应性的改进,利用时间连续性克服了缺乏干净训练数据的问题。通过跨模态学习,不需要监督,将知识从一种模式传递到另一种模式,建立了自学习活跃讲话者检测系统。
Mar, 2016
提出了一种多模态融合架构,采用中层融合以及稀疏地对融合表示进行时间采样,将 RGB、Flow 和 Audio 三种模态进行融合,重点研究了多模态时间绑定,逐步改进,取得最先进的结果。
Aug, 2019
本文研究了如何在仅使用 RGB 帧作为输入的情况下,保持多模态方法的性能表现,进而采用多模型知识蒸馏框架来处理这个问题,并在输入视角数量减少的情况下展示了更高的性能。
Jul, 2023
提出了一种基于磁盘聚类的统一框架,它可以处理和结合不同类型的较低需求的弱监督,从视频中监测时空活动,并将其应用于训练设置中的不同类型的监督信号实验结果证明:该模型在 UC101-24 和 DALY 数据集上具有竞争性能,而且与之前的方法相比,使用的监督信号更少。
Jun, 2018
通过视觉和语言提示的联合生成模型,对互联网上海量的指示视频进行语义步骤解析,为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。
May, 2016
本文提出了一种基于音频和视觉信息的厨房环境中的多模态方法,利用稀疏时间采样策略,通过音频、空间和时间流的后期融合,在 EPIC-Kitchens 数据集上实验表明多模态方法比单模态方法更好地提高了动作识别性能,特别是在动词分类上实现了 5.18% 的改进。
Oct, 2019
本研究旨在研究如何从视觉数据和新型的音频数据模式 —— 声学图像中学习丰富和强大的音频分类特征表示,通过利用新的多模态标记行动识别数据集,并针对性地训练音频深度学习模型,从视觉和声学图像方面实现知识蒸馏,以获得比单麦克风声音数据训练模型更强大和更具有一般化能力的特征表示。
Apr, 2019