基于词频的音频字幕处理的前后效果研究

Sep, 2020

基于词频的音频字幕处理的前后效果研究

Effects of Word-frequency based Pre- and Post- Processings for Audio Captioning

Daiki Takeuchi, Yuma Koizumi, Yasunori Ohishi, Noboru Harada, Kunio Kashino

TL;DR该研究使用数据扩充、多任务学习和后处理等三个元素进行语音标题，分析了每个元素的贡献，并发现数据扩充和后处理模块显著提高了系统表现。

Abstract

The system we used for Task 6 (automated audio captioning)of the Detection and Classification of Acoustic Scenes and Events(DCASE) 2020 Challenge combines three elements, namely, dataaugmentation, multi-task learning

automated audio captioning detection and classification of acoustic scenes and events(dcase) 2020 challenge data augmentation multi-task learning post-processing

发现论文，激发创造

NTT DCASE2020 Challenge Task 6 系统：使用关键字和句子长度估计的自动音频字幕

该报告介绍参加 DCASE 2020 挑战 Task 6 的系统，侧重于使用多任务学习解决自动音频字幕生成中的不确定性问题，并通过在开发测试数据集上测试简化模型，实现了 20.7 的 SPIDEr 得分，远高于基线系统的 5.4。

Jul, 2020

利用 PaSST 和大量音频标题数据集推进基于自然语言的音频检索

该研究针对预先训练的文本和频谱图变换器，提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在 2023 年的 DCASE 挑战中排名第一，在 ClothoV2 基准测试中的表现优于当前的最新技术，提高了 5.6 个百分点的 mAP@10。

Aug, 2023

基于大型语言模型的字幕增强技术提升的语言查询音频源分离性能：DCASE Challenge 2024 任务 9

我们提出了一种基于提示工程的文本增强方法，应用于语言查询音频源分离（LASS）任务。该方法利用大型语言模型生成与训练数据集每个句子对应的多个字幕来增强 LASS 的性能。实验结果表明，使用这些增强的字幕训练的 LASS 模型在 DCASE 2024 任务 9 验证集上表现出了比没有增强的模型更好的性能。该研究突出了基于语言模型的字幕增强在推动语言查询音频源分离方面的有效性。

Jun, 2024

自动音频字幕和基于语言的音频检索

参加了 DCASE 2022 比赛的两个子任务：自动音频字幕和基于语言的音频检索。在 Clotho 数据集上评估使用多种评估指标的基线模型和一些实验，分别对音频字幕和语音检索任务的最终表现进行了改进。

Jul, 2022

通过融合声学和语义信息来提高自动音频字幕生成的性能

本文提出了一种基于语义和音频信息相结合的自动音频字幕生成模型，使用预训练的 ResNet38 来初始化预训练关键字编码器，并使用 LSTM 解码器和语义和音频注意力模块来进行多模态注意力解码，实验证明该模型在 Clotho 数据集上达到了最先进的性能。

Oct, 2021

大规模对比语音语言预训练：特征融合与关键词生成式扩充

本文提出了一个对比学习的流程，通过语音数据和自然语言描述来开发一个音频表示，构建了一个对比语音 - 语言预训练模型，通过 LAION-Audio-630K 数据集，并将特征融合机制和关键词 - 标题增强等机制纳入模型设计来增强模型的处理能力，在三个任务中检验模型表现，取得了优秀的性能表现。

Nov, 2022

无需更多数据：通过文本到语音数据增强来提高端到端语音识别

采用数据增强和 TTS 技术，对 ASR 的训练数据进行扩充，并通过集成语言模型，在 LibriSpeech 数据上建立 end-to-end 模型，相对于半监督技术的效果更好。

May, 2020

跨模态 ASR 后处理系统，用于纠错和话语拒绝

本文提出了一种跨模态后处理系统，包括融合不同模态的声学特征和文本特征、联合置信度估计器和错误修正器以及统一的错误修正和话语拒绝模块等，证明相较于单模型或单任务模型，该系统更加有效率地减小语音识别中字符错误率 (CER)，且每个单词的额外延迟在可接受范围内。

Jan, 2022

带 Patchout 和文本引导的高效音频字幕 Transformer

本文提出了一种基于全 Transformer 架构的自动音频字幕生成方法，包含 Patchout、细化预训练分类模型和迁移学习、Mixup 数据增强等技术来提高音频字幕的性能和减少计算复杂度，研究结果在 DCASE Challenge 2022 中荣获评审团奖项。

Apr, 2023

自动纠错提高音频字幕流畅度

提出了一种基于神经网络的模型进行 AAC 错误修正的方法，并在两个基准数据集上进行了测试，结果表明该方法显着提高了流畅性同时维持了语义信息。

Jun, 2023