语义辅助音频分类框架
本文通过使用从声音类别的文本标签和句子描述中提取的语义嵌入来进行零样本学习音频分类,并采用双线性兼容性框架在音频实例和声音类别之间学习声学 - 语义投影,即声学嵌入和语义嵌入。最终采用线性兼容性函数进行音频分类,其中度量声学嵌入和语义嵌入的兼容性。通过实验结果表明:“label/sentence embeddings” 与不同语言模型生成的嵌入的混合连接的分类结果进一步改善了分类性能。
Nov, 2020
本文提出了一种基于语义和音频信息相结合的自动音频字幕生成模型,使用预训练的 ResNet38 来初始化预训练关键字编码器,并使用 LSTM 解码器和语义和音频注意力模块来进行多模态注意力解码,实验证明该模型在 Clotho 数据集上达到了最先进的性能。
Oct, 2021
本文提出了一种无监督的任务无关方法,将大型语言模型中的语义信息融合进入自监督语音编码器,提高了其在意图分类,名称实体识别及槽填充等方面的性能,使其达到了有监督方法同等的效果,为已有的语音编码器的无监督实现提供了可行性证明。
Nov, 2022
通过利用音频的额外语义信息,本文提出了一种新颖的自动图像上色网络(AIAIC),它由三个阶段组成,通过颜色图像语义作为桥梁的预训练、学习音频和视觉场景之间的颜色语义相关性以及利用隐式音频语义表示实现音频引导的上色,实验表明音频引导能够有效改善自动着色的性能,特别是对于那些仅仅从视觉模态理解起来比较困难的场景。
Jan, 2024
本文介绍了一种可以通过一系列简单操作控制输出的自动机器学习的应用范围,提出了一种语义代码分类任务,并探讨了在自然语言到机器学习(NL2ML)数据集上解决此问题的方法。
Jan, 2022
介绍了语义音频可视化导航的概念,提出了基于 Transformer 的模型用于处理语义 AudioGoal 任务,拥有持久的多模态记忆,通过学习语义、声音和视觉提示的关联性,可实现在声音事件停止后,仍能到达目标的导航能力。
Dec, 2020
提出一种基于自然语言监督学习的音频概念学习方法 CLAP,通过两个编码器和对比学习将音频和文本描述连接到多模态空间中,从而实现了零样本性能,其具有无需使用类别标签进行训练、预测灵活度高、具有多个下游任务通用性等优点。
Jun, 2022
该论文提出了一种声学和语义协同解码器 ASRD,可以同时利用声学和语义特征来提高自动语音识别的性能。通过引入因果多模态屏蔽,可以防止在训练期间的信息泄漏,并且还提出了一种改良版的半监督 ASCD 来平衡准确性和计算成本。实验结果表明,ASRD 可以显著提高 ASR 的准确性。
May, 2023
利用语言模型和音频编解码技术,SemantiCodec 是一种能够以非常低的比特率将各种类型的音频压缩为每秒少于一百个标记的新型编解码器,具有更高的重构质量和更丰富的语义信息。
Apr, 2024