基于词频的音频字幕处理的前后效果研究
该报告介绍参加 DCASE 2020 挑战 Task 6 的系统,侧重于使用多任务学习解决自动音频字幕生成中的不确定性问题,并通过在开发测试数据集上测试简化模型,实现了 20.7 的 SPIDEr 得分,远高于基线系统的 5.4。
Jul, 2020
该研究针对预先训练的文本和频谱图变换器,提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在 2023 年的 DCASE 挑战中排名第一,在 ClothoV2 基准测试中的表现优于当前的最新技术,提高了 5.6 个百分点的 mAP@10。
Aug, 2023
我们提出了一种基于提示工程的文本增强方法,应用于语言查询音频源分离(LASS)任务。该方法利用大型语言模型生成与训练数据集每个句子对应的多个字幕来增强 LASS 的性能。实验结果表明,使用这些增强的字幕训练的 LASS 模型在 DCASE 2024 任务 9 验证集上表现出了比没有增强的模型更好的性能。该研究突出了基于语言模型的字幕增强在推动语言查询音频源分离方面的有效性。
Jun, 2024
参加了 DCASE 2022 比赛的两个子任务:自动音频字幕和基于语言的音频检索。在 Clotho 数据集上评估使用多种评估指标的基线模型和一些实验,分别对音频字幕和语音检索任务的最终表现进行了改进。
Jul, 2022
本文提出了一种基于语义和音频信息相结合的自动音频字幕生成模型,使用预训练的 ResNet38 来初始化预训练关键字编码器,并使用 LSTM 解码器和语义和音频注意力模块来进行多模态注意力解码,实验证明该模型在 Clotho 数据集上达到了最先进的性能。
Oct, 2021
本文提出了一个对比学习的流程,通过语音数据和自然语言描述来开发一个音频表示,构建了一个对比语音 - 语言预训练模型,通过 LAION-Audio-630K 数据集,并将特征融合机制和关键词 - 标题增强等机制纳入模型设计来增强模型的处理能力,在三个任务中检验模型表现,取得了优秀的性能表现。
Nov, 2022
采用数据增强和 TTS 技术,对 ASR 的训练数据进行扩充,并通过集成语言模型,在 LibriSpeech 数据上建立 end-to-end 模型,相对于半监督技术的效果更好。
May, 2020
本文提出了一种跨模态后处理系统,包括融合不同模态的声学特征和文本特征、联合置信度估计器和错误修正器以及统一的错误修正和话语拒绝模块等,证明相较于单模型或单任务模型,该系统更加有效率地减小语音识别中字符错误率 (CER),且每个单词的额外延迟在可接受范围内。
Jan, 2022
本文提出了一种基于全 Transformer 架构的自动音频字幕生成方法,包含 Patchout、细化预训练分类模型和迁移学习、Mixup 数据增强等技术来提高音频字幕的性能和减少计算复杂度,研究结果在 DCASE Challenge 2022 中荣获评审团奖项。
Apr, 2023