关键词audio spectrogram transformer
搜索结果 - 3
- 自然语言预训练模型在自动语音评估语音障碍中的解释
训练和比较两种配置下的音频频谱变换器,用于语音障碍检测;应用注意力回传方法生成模型相关性图,分析模型在不同条件下的预测方式,证明随着模型微调,注意力的扩散减少,重点集中在特定音素区域。
- 音频分类中最佳时间支持的选择与预训练嵌入
通过研究音频输入时长对现有预训练嵌入模型的影响,本研究发现音频光谱图变换系统在较短的时间支持下仍然有效,从而大大减少了内存和计算成本,同时通过选择最佳时间支持,实现了在所有任务上具有竞争力的结果。
- AST:音频频谱变换器
本文介绍了第一种不依赖卷积操作而采用纯自注意力机制的声音分类模型 ——Audio Spectrogram Transformer(AST),在多个音频分类数据集上取得了新的最优结果。