音频差异学习用于音频字幕

Sep, 2023

Audio Difference Learning for Audio Captioning

Tatsuya Komatsu, Yusuke Fujita, Kazuya Takeda, Tomoki Toda

TL;DR该研究介绍了一种新颖的训练范式，音频差异学习，用于改进音频字幕生成。该方法通过创建一个保留音频关系的特征表示空间，能够生成详细描绘复杂音频信息的字幕。实验证明，该方法在 Clotho 和 ESC50 数据集上，相较传统方法，SPIDEr 分数提高了 7%。

Abstract

This study introduces a novel training paradigm, audio difference learning, for improving audio captioning. The fundamental concept of the proposed learning method is to create a →

audio difference learning audio captioning feature representation differential features spider score

发现论文，激发创造

利用相似性差异解耦的音频差异字幕生成

对类似但略有不同的音频剪辑进行语义差异描述的音频差异字幕（ADC）是一项新的扩展任务，通过比较一对音频剪辑和强调潜在空间中的差异以提取差异的交叉注意力集中型变压器编码器来解决常规音频字幕生成类似标题的问题。

Aug, 2023

音频字幕的标题特征空间规则化

本文提出了一种两阶段的语音字幕框架，旨在解决多个字幕与同一段语音的相关性问题。第一阶段采用对比学习构建代理特征空间以减少字幕之间的距离。第二阶段利用代理特征空间作为额外监督以鼓励模型优化方向。经过实验验证，这种方法是有效的，并且在 4 种编码器 - 解码器体系结构上得到了验证。

Apr, 2022

基于视觉语音的大规模表征学习

这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕，并且通过使用双编码器来对音频和图像进行编码，使用掩码边界软最大损失对这些模型进行微调，并在 Flickr8k 音频字幕语料库上实现了最新的结果。

Sep, 2019

看似相似，听起来不同：利用反事实的跨模态样本进行视听表示学习

研究了在音频与视觉之间进行对应时，出现多个音频轨道时的学习效果，探讨了使用配音版本来增加跨模态对比学习的方法，提出了考虑语音变化时学习场景级别的音频视觉对应关系的重要性，并表明配音可以作为训练音频视觉模型的一种有用增强技术。

Apr, 2023

基于对比学习的自动音频字幕交互式音频文本表示

本文介绍了一种名为 CLIP-AAC 的自动音频字幕系统，该系统结合声学和文本信息学习交互式跨模态表示，并应用对比学习来缩小领域差异，实验结果表明该方法在 NLP 评估标准上显著优于基线方法，表明预训练模型和对比学习对该模型的性能提升贡献都非常重要。

Mar, 2022

一种基于编码器 - 解码器的音频字幕系统，具有迁移学习和强化学习

本文提出一种使用编码器 - 解码器架构的音频标题系统，并引入自上游音频相关任务或大规模领域内数据集的转移学习来缓解数据稀缺性带来的问题。通过强化学习将评估指标纳入模型优化中，可以解决由 “教师强制” 训练策略引起的 “曝光偏差” 和评估指标与损失函数之间的不匹配问题。这种方法在 DCASE 2021 Task 6 中排名第三，并进行了消融研究来研究所提出系统中的每个要素对最终性能的贡献。结果表明，提出的技术显着提高了评估指标的得分，但强化学习可能对生成的标题质量产生不利影响。

Aug, 2021

大规模对比语音语言预训练：特征融合与关键词生成式扩充

本文提出了一个对比学习的流程，通过语音数据和自然语言描述来开发一个音频表示，构建了一个对比语音 - 语言预训练模型，通过 LAION-Audio-630K 数据集，并将特征融合机制和关键词 - 标题增强等机制纳入模型设计来增强模型的处理能力，在三个任务中检验模型表现，取得了优秀的性能表现。

Nov, 2022

基于文本 - only 训练实现的弱监督自动音频字幕生成

近年来，通过对成对音频和字幕进行数据集的研究，自动生成音频剪辑的描述取得了显著的成功，即自动音频字幕生成（AAC）。然而，收集足够数量的配对音频和字幕的工作需要大量人力和时间。受到对比语言音频预训练（CLAP）最新进展的启发，我们提出了一种弱监督方法来训练 AAC 模型，只需要文本数据和经过预训练的 CLAP 模型，从而减轻了对配对目标数据的需求。我们的方法利用 CLAP 中音频和文本嵌入之间的相似性。在训练过程中，我们学习从 CLAP 文本嵌入中重构文本，在推断过程中，我们使用音频嵌入进行解码。为了减小音频和文本嵌入之间的模态差距，我们采用了在训练和推断阶段桥接差距的策略。我们在 Clotho 和 AudioCaps 数据集上评估了我们提出的方法，证明其相对于使用配对目标数据训练的完全监督方法可达到高达 83% 的性能水平。

Sep, 2023

具有自适应视听关注的视觉感知音频字幕

本文提出了一种基于视觉感知的音频字幕生成方法，将来自视频的视觉信息整合到音频字幕系统中，采用音视频关注机制自适应地整合音频和视觉信息，显著提高了音频字幕系统的性能。

Oct, 2022

使用基于对比学习预训练的机器 ID 声音表示进行异常声音检测

本文使用对比学习方法，针对每个机器 ID 而不是每个音频样本优化音频表示，使用自我监督 ID 分类器微调学习模型，增强了同一 ID 音频特征之间的关系，在 DCASE 2020 Challenge Task2 数据集上的实验表明，该方法在整体异常检测性能和稳定性方面胜过了使用对比学习或自我监督分类的最先进方法。

Apr, 2023