通过优化音频编码增强基于大型语言模型的自动音频字幕生成
本文提出了一种基于语义和音频信息相结合的自动音频字幕生成模型,使用预训练的 ResNet38 来初始化预训练关键字编码器,并使用 LSTM 解码器和语义和音频注意力模块来进行多模态注意力解码,实验证明该模型在 Clotho 数据集上达到了最先进的性能。
Oct, 2021
本文提出一种使用编码器 - 解码器架构的音频标题系统,并引入自上游音频相关任务或大规模领域内数据集的转移学习来缓解数据稀缺性带来的问题。通过强化学习将评估指标纳入模型优化中,可以解决由 “教师强制” 训练策略引起的 “曝光偏差” 和评估指标与损失函数之间的不匹配问题。这种方法在 DCASE 2021 Task 6 中排名第三,并进行了消融研究来研究所提出系统中的每个要素对最终性能的贡献。结果表明,提出的技术显着提高了评估指标的得分,但强化学习可能对生成的标题质量产生不利影响。
Aug, 2021
本文介绍了一种名为 CLIP-AAC 的自动音频字幕系统,该系统结合声学和文本信息学习交互式跨模态表示,并应用对比学习来缩小领域差异,实验结果表明该方法在 NLP 评估标准上显著优于基线方法,表明预训练模型和对比学习对该模型的性能提升贡献都非常重要。
Mar, 2022
近年来,通过对成对音频和字幕进行数据集的研究,自动生成音频剪辑的描述取得了显著的成功,即自动音频字幕生成(AAC)。然而,收集足够数量的配对音频和字幕的工作需要大量人力和时间。受到对比语言音频预训练(CLAP)最新进展的启发,我们提出了一种弱监督方法来训练 AAC 模型,只需要文本数据和经过预训练的 CLAP 模型,从而减轻了对配对目标数据的需求。我们的方法利用 CLAP 中音频和文本嵌入之间的相似性。在训练过程中,我们学习从 CLAP 文本嵌入中重构文本,在推断过程中,我们使用音频嵌入进行解码。为了减小音频和文本嵌入之间的模态差距,我们采用了在训练和推断阶段桥接差距的策略。我们在 Clotho 和 AudioCaps 数据集上评估了我们提出的方法,证明其相对于使用配对目标数据训练的完全监督方法可达到高达 83% 的性能水平。
Sep, 2023
通过直接添加小型音频编码器,扩展大型语言模型的能力,实现与其文本版本相同的自动语音识别系统,并在 Multilingual LibriSpeech 上的实验证明,即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时,多语种 ASR 仍然可行,从而为 LLMs 在长篇音频中进行操作开辟了可能性。
Jul, 2023
该论文提出了一种全转换器的音频字幕生成器,该生成器能更好地模拟音频信号中的全局信息以及音频事件之间的时间关系,并且在最大的音频字幕数据集上显示出与其他最先进方法相竞争的性能。
Jul, 2021
我们提出了一种基于提示工程的文本增强方法,应用于语言查询音频源分离(LASS)任务。该方法利用大型语言模型生成与训练数据集每个句子对应的多个字幕来增强 LASS 的性能。实验结果表明,使用这些增强的字幕训练的 LASS 模型在 DCASE 2024 任务 9 验证集上表现出了比没有增强的模型更好的性能。该研究突出了基于语言模型的字幕增强在推动语言查询音频源分离方面的有效性。
Jun, 2024
本研究利用预训练语言模型 BERT 作为音频字幕解码器,结合预训练的音频模型 PANNs 作为编码器,实现了在 AudioCaps 数据集上与现有音频字幕方法具有竞争力的结果。
Mar, 2022