本文综述了自动音频字幕生成领域内的研究现状,包括使用的深度学习技术、网络架构、评估指标和挑战,同时讨论了未来的研究方向。
May, 2022
参加了 DCASE 2022 比赛的两个子任务:自动音频字幕和基于语言的音频检索。在 Clotho 数据集上评估使用多种评估指标的基线模型和一些实验,分别对音频字幕和语音检索任务的最终表现进行了改进。
Jul, 2022
本文提出了一个新的Web音频文本检索框架,使用文本编码器、两个音频编码器和对比学习目标来实现语言和音频内容间的连接,包括多个数据集的使用,取得了相对于AudioCaps和Clotho在文本-音频检索上2%和16%的提高,对于音频-文本检索上的6%和23%的提高。
Sep, 2022
该研究针对预先训练的文本和频谱图变换器,提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在2023年的DCASE挑战中排名第一,在ClothoV2基准测试中的表现优于当前的最新技术,提高了5.6个百分点的mAP@10。
Aug, 2023
通过探索未经微调的AAC系统,该研究调查了AAC和ATR之间的关系,发现使用标准的Cross-Entropy损失值可以实现良好的ATR性能。
RECAP是一种新颖有效的音频字幕系统,通过从数据存储中检索与输入音频类似的其他字幕来生成字幕,并且无需额外的微调即可适用于任何领域。
Sep, 2023
我们提出了一种基于公共工具或API的创新型自动音频说明生成流程,并构建了一个大规模、高质量的音频语言数据集Auto-ACD,其中包含超过190万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务(包括音频语言检索、音频说明和环境分类)上的性能改进,证明了所提出数据集的有效性。此外,我们建立了一个新颖的测试集,并为音频文本任务提供了一个基准。该数据集将在此https URL上发布。
我们提出了一种自动音频字幕的新框架EnCLAP,使用了两个声学表示模型EnCodec和CLAP以及一个预训练语言模型BART。我们还引入了一种称为masked codec modeling的新训练目标,提高了预训练语言模型的声学感知能力。在AudioCaps和Clotho上的实验结果表明,我们的模型超过了基准模型的性能。我们将在此网址上提供源代码。在线演示可在此网址上获得。
Jan, 2024
本研究解决了音频检索系统中,由于仅使用匹配的音频-标题对,导致的语义匹配不足的问题。提出了一种两阶段的训练方法,通过利用预测的音频-标题对应关系来改进模型的表现。研究结果表明,该方法在ClothoV2基准上,比当前最优技术提高了1.6个百分点的检索性能。
Aug, 2024
本研究针对自动音频字幕生成领域的EnCLAP框架,探讨了声学编码器组件的修改、不同数据集规模的预训练以及重排序方案的有效性。通过广泛实验和定量分析,提出了EnCLAP++版本,其性能显著优于原始模型。
Sep, 2024