音频场景分类的时空注意池化
此研究提供了一种深度卷积循环模型,结合注意力机制和时间定位模块,进行弱监督的音频标记,以及在 DCASE 2016 挑战中达到了良好的性能。
Mar, 2017
通过引入可解释的时空注意力机制来提高视频动作识别的准确性和模型解释性,并使用一组正则化器对其进行约束。利用弱监督的方式仅使用分类标签,模型不仅提高了准确性,还能时空自动定位区分性区域。
Oct, 2018
本文介绍了一种门控卷积神经网络和一种基于时间注意力的定位方法,用于音频分类,并在 DCASE 2017 挑战赛的大规模弱监督声音事件检测任务中获得了第一名。
Oct, 2017
提出一种新的用于搜索空间时间关注单元的方法,可以用于改善现有的骨干网络(如 I3D 或 S3D)中的视频分类精度,并在 Kinetics-600 和 MiT 数据集上超过 2%。
Jul, 2020
本研究提出了一种基于高斯混合模型的时空注意力模型,并使用人类注视数据进行训练,相比先前的方法,该模型在影片显著性预测方面具有最先进的表现,并在动作分类准确性方面取得了改进。
Mar, 2016
本文介绍一种基于 UNet 结构,与双向 LSTM 和 Attention 机制相结合的创新架构,旨在共同利用卫星数据的时空性质,更好地识别各种土地覆盖的独特时间模式, 并将其用于全球多个地区的作物测绘。实验结果表明,该方法能够缓解噪声和识别区分性时间段的有效性,并与其他最先进的方法在两个实际数据集上进行定量和定性比较。
May, 2021
本文介绍了一种新的卷积神经网络 SCA-CNN,其中引入了空间和通道注意力,用于图像描述任务,结果表明 SCA-CNN 明显优于现有的基于视觉关注的图像描述方法。
Nov, 2016
本文提出使用从多通道音频中提取的低级空间特征进行声音事件检测,通过初始阶段从每个通道中单独学习这些多通道特征,扩展了卷积递归神经网络以处理更多类型的这些特征,并表明将特征呈现为体积的单独层,而不是将每个通道的特征串联成单个特征向量,可以更好地学习多通道音频中的声音事件。与单声道特征相比,在相同网络上使用所提出的空间特征,在公开可用的 TUT-SED 2016 数据集上的 F-score 提高了 6.1%,在 TUT-SED 2009 数据集上的 F-score 提高了 2.7%,该数据集是其 15 倍大。
Jun, 2017
提出了一种基于上下文感知的注意力池化(CAP)方法和特征编码技术,可以有效地捕获子像素梯度,无需边界框和 / 或可区分的部分注释,从而学习关键部位的特征表示。经过在六个最先进的骨干网络和八个基准数据集上的评估,该方法在六个数据集上表现显著优于最先进的方法,并且在其余两个数据集上非常有竞争力。
Jan, 2021
本研究提出了一种时空注意力图神经网络模型,通过结合图神经网络和时间卷积神经网络,以改进预测精度和模型可解释性;该模型在统一归一化下表现出了卓越的结果。此外,对于具有多个操作条件的数据集,聚类归一化提升了我们所提出模型的性能高达 27%。
Jan, 2024