Oct, 2018

基于弱标注的声音事件检测中五种多示例学习汇聚函数的比较

TL;DR本文讨论了声音事件检测中弱标注的多实例学习 (MIL) 框架中池化函数的 5 种类型的理论和实验比较,尤其是针对它们的定位性能。结果发现,线性 softmax 池化函数表现最佳,于是作者构建了一个名为 TALNet 的神经网络,在 Audio Set 上达到了最先进的音频标记性能,同时在 DCASE2017 挑战赛上展现了强大的定位性能。