BriefGPT.xyz
大模型
Ask
alpha
关键词
audio event recognition
搜索结果 - 3
VATT:用于原始视频、音频和文本的多模态自监督学习的 Transformer 模型
我们提出了一种使用无标签数据学习多模态表示的框架,利用无卷积的 Transformer 架构。通过使用多模态对比损失训练 Video-Audio-Text Transformer (VATT),我们从三个模态中提取丰富的多模态表示,并在视频
→
PDF
3 years ago
AENet: 学习视频分析的深度音频特征
提出了一种新的深度网络用于音频事件识别,名为 AENet,该网络采用卷积神经网络以在时间维度上对音频事件进行长时间频率结构的建模来训练端到端的音频事件检测系统,在事件识别、动作识别和视频亮点检测等视听任务中,结合 AENet 特征和视觉特征
→
PDF
8 years ago
具有 1-Max 池化卷积神经网络的强健音频事件识别
本研究提出了一种简单而高效的卷积神经网络(CNN)架构,用于鲁棒的音频事件识别,并采用变尺寸的卷积滤波器和 1-max 池化方案等创新特性,在标准的鲁棒音频事件识别任务上表现不但表现出最新技术水准,并且在识别准确率上优于其他深度网络架构 4
→
PDF
8 years ago
Prev
Next