弱监督可扩展音频内容分析
本研究使用基于 CNN 的方法进行弱监督下的音频事件训练,研究了弱标签密度和标签纠错对模型训练的影响,还探索了从网络直接获取弱标签数据的可行性,并与手动标记数据进行了比较,这些因素的分析和理解应考虑在开发未来的弱标签学习方法中。
Apr, 2018
本文提出了一种基于多模态学习的新型框架,可以从非同步的音频和视觉事件中学习,用于事件分类和定位。使用该方法可以取得弱标签音频事件视频大规模数据集的最先进结果。
Apr, 2018
本文研究了多模态学习中的音频 - 视觉相关性,并使用该方法在视频中探讨弱监督下的活动密集事件字幕问题,通过实验证明了提出的多模态方法优于单模态方法,同时验证了特定功能表示和体系结构设计的选择。
Sep, 2019
本文介绍 DCASE 2018 任务 4,重点评估了利用弱标签数据(没有时间边界)进行大规模声音事件检测的系统,挑战在于探索未标记的数据集与小的弱标签训练集结合以提高系统性能。数据来源于 YouTube 家庭环境视频片段,具有环境辅助生活等很多应用潜力。
Jul, 2018
本研究提出了一种基于卷积神经网络的弱标记音频数据分类框架,可用于转移学习,并证明了该方法对于领域和任务适应都具有有效性,此外还展示了该方法有助于捕捉语义含义和关系。
Nov, 2017
本文提出了一种音频视觉融合模型,该模型利用注意机制动态地结合单独的音频和视觉模型的输出来识别声音,实验证明该模型在音频场景分析和机器感知上比单模和多模融合模型具有更好的效果。
May, 2020
本文提出一个无需时间片段注释的方法:针对视频中所有感兴趣事件的稠密描述,基于一一对应的假设,将该问题分解为事件字幕和句子定位的双重问题,并提出了一种循环系统来训练模型。通过大量实验结果证明了该方法在视频事件字幕和句子定位方面的有效性。
Dec, 2018
本文提出了一个多级关注模型来解决弱标签音频分类问题。 实验证明,与单级关注模型和 Google 基线相比,该模型在 Google 音频数据集上表现出更高的平均精度(mAP)。
Mar, 2018
本文介绍了一种门控卷积神经网络和一种基于时间注意力的定位方法,用于音频分类,并在 DCASE 2017 挑战赛的大规模弱监督声音事件检测任务中获得了第一名。
Oct, 2017