弱监督可扩展音频内容分析

Jun, 2016

Weakly Supervised Scalable Audio Content Analysis

Anurag Kumar, Bhiksha Raj

TL;DR本文介绍了一种利用异构弱标注数据进行音频事件检测的弱监督学习框架，同时提出了一种可扩展的多实例学习算法，并证明了其在音频事件检测中具有竞争力。

Abstract

audio event detection is an important task for content analysis of multimedia data. Most of the current works on detection of audio events is driven through supervised learning approaches. We propose a weakly

audio event detection supervised learning weakly supervised learning web multimedia data multiple instance learning

发现论文，激发创造

使用弱标签数据进行音频事件检测

本文提出使用弱标签数据学习声音事件检测器的框架，并给出两个基于支持向量机和神经网络解决多实例学习的方法，有助于提高数据处理效率和实现完整音频记录描述。

May, 2016

音频事件弱标签学习的深入研究

本研究使用基于 CNN 的方法进行弱监督下的音频事件训练，研究了弱标签密度和标签纠错对模型训练的影响，还探索了从网络直接获取弱标签数据的可行性，并与手动标记数据进行了比较，这些因素的分析和理解应考虑在开发未来的弱标签学习方法中。

Apr, 2018

针对不同步视听事件的弱监督表征学习

本文提出了一种基于多模态学习的新型框架，可以从非同步的音频和视觉事件中学习，用于事件分类和定位。使用该方法可以取得弱标签音频事件视频大规模数据集的最先进结果。

Apr, 2018

观看、听取与叙述：多模态弱监督密集事件字幕生成

本文研究了多模态学习中的音频 - 视觉相关性，并使用该方法在视频中探讨弱监督下的活动密集事件字幕问题，通过实验证明了提出的多模态方法优于单模态方法，同时验证了特定功能表示和体系结构设计的选择。

Sep, 2019

家庭环境下大规模弱标注半监督声音事件检测

本文介绍 DCASE 2018 任务 4，重点评估了利用弱标签数据（没有时间边界）进行大规模声音事件检测的系统，挑战在于探索未标记的数据集与小的弱标签训练集结合以提高系统性能。数据来源于 YouTube 家庭环境视频片段，具有环境辅助生活等很多应用潜力。

Jul, 2018

使用卷积神经网络从弱标记音频进行知识转移，用于声音事件和场景

本研究提出了一种基于卷积神经网络的弱标记音频数据分类框架，可用于转移学习，并证明了该方法对于领域和任务适应都具有有效性，此外还展示了该方法有助于捕捉语义含义和关系。

Nov, 2017

利用弱标签数据进行大规模音频视觉学习

本文提出了一种音频视觉融合模型，该模型利用注意机制动态地结合单独的音频和视觉模型的输出来识别声音，实验证明该模型在音频场景分析和机器感知上比单模和多模融合模型具有更好的效果。

May, 2020

视频中弱监督稠密事件字幕生成

本文提出一个无需时间片段注释的方法：针对视频中所有感兴趣事件的稠密描述，基于一一对应的假设，将该问题分解为事件字幕和句子定位的双重问题，并提出了一种循环系统来训练模型。通过大量实验结果证明了该方法在视频事件字幕和句子定位方面的有效性。

Dec, 2018

弱监督音频分类的多层注意力模型

本文提出了一个多级关注模型来解决弱标签音频分类问题。实验证明，与单级关注模型和 Google 基线相比，该模型在 Google 音频数据集上表现出更高的平均精度（mAP）。

Mar, 2018

基于门卷积神经网络的大规模弱监督音频分类

本文介绍了一种门控卷积神经网络和一种基于时间注意力的定位方法，用于音频分类，并在 DCASE 2017 挑战赛的大规模弱监督声音事件检测任务中获得了第一名。

Oct, 2017