通过融合声学和语义信息来提高自动音频字幕生成的性能

Oct, 2021

通过融合声学和语义信息来提高自动音频字幕生成的性能

Improving the Performance of Automated Audio Captioning via Integrating the Acoustic and Semantic Information

Zhongjie Ye, Helin Wang, Dongchao Yang, Yuexian Zou

TL;DR本文提出了一种基于语义和音频信息相结合的自动音频字幕生成模型，使用预训练的 ResNet38 来初始化预训练关键字编码器，并使用 LSTM 解码器和语义和音频注意力模块来进行多模态注意力解码，实验证明该模型在 Clotho 数据集上达到了最先进的性能。

Abstract

automated audio captioning (AAC) has developed rapidly in recent years, involving acoustic signal processing and natural language processing to generate human-readable sentences for audio clips. The current models are generally based on the →

automated audio captioning neural encoder-decoder architecture semantic information resnet38 clotho dataset

发现论文，激发创造

通过优化音频编码增强基于大型语言模型的自动音频字幕生成

增强自动音频字幕生成的方法通过预训练音频编码器、查询变换器和大语言模型，改善了音频标记的准确性和结果性能。

Jun, 2024

音频字幕转换器

该论文提出了一种全转换器的音频字幕生成器，该生成器能更好地模拟音频信号中的全局信息以及音频事件之间的时间关系，并且在最大的音频字幕数据集上显示出与其他最先进方法相竞争的性能。

Jul, 2021

一种基于编码器 - 解码器的音频字幕系统，具有迁移学习和强化学习

本文提出一种使用编码器 - 解码器架构的音频标题系统，并引入自上游音频相关任务或大规模领域内数据集的转移学习来缓解数据稀缺性带来的问题。通过强化学习将评估指标纳入模型优化中，可以解决由 “教师强制” 训练策略引起的 “曝光偏差” 和评估指标与损失函数之间的不匹配问题。这种方法在 DCASE 2021 Task 6 中排名第三，并进行了消融研究来研究所提出系统中的每个要素对最终性能的贡献。结果表明，提出的技术显着提高了评估指标的得分，但强化学习可能对生成的标题质量产生不利影响。

Aug, 2021

基于对比学习的自动音频字幕交互式音频文本表示

本文介绍了一种名为 CLIP-AAC 的自动音频字幕系统，该系统结合声学和文本信息学习交互式跨模态表示，并应用对比学习来缩小领域差异，实验结果表明该方法在 NLP 评估标准上显著优于基线方法，表明预训练模型和对比学习对该模型的性能提升贡献都非常重要。

Mar, 2022

自动纠错提高音频字幕流畅度

提出了一种基于神经网络的模型进行 AAC 错误修正的方法，并在两个基准数据集上进行了测试，结果表明该方法显着提高了流畅性同时维持了语义信息。

Jun, 2023

语义辅助音频分类框架

本文提出了一个语义辅助的音频分类框架 SemanticAC，它通过利用标签中的语义信息，保证音频信号与标签之间的语义一致性，从而实现更好的性能。通过在 ESC-50 和 US8K 两个音频数据集上进行广泛实验，验证了该方法能够持续优于其他音频分类方法。

Feb, 2023

可解释的视听视频字幕生成尝试

本论文介绍了一个多模态卷积神经网络视频字幕框架，通过引入模态感知模块，探索了视听交互对视频理解的影响，并证明该可解释模型在情况选择时取得了可比较的性能。

Dec, 2018

利用预训练 BERT 进行音频字幕生成

本研究利用预训练语言模型 BERT 作为音频字幕解码器，结合预训练的音频模型 PANNs 作为编码器，实现了在 AudioCaps 数据集上与现有音频字幕方法具有竞争力的结果。

Mar, 2022

RECAP: 检索增强音乐字幕生成器

通过对多模态数据的构建和深度学习模型的训练，本文提出了一种在音频和歌词之间学习对准关系的方法，并通过此方法优化跨模态对齐，并为音乐搜索和推荐提供了理论和实证结果。

Dec, 2022

基于 CNN 编码器 - 解码器框架的压缩图像字幕生成

我们的项目旨在通过开发结合卷积神经网络（CNN）和编码 - 解码模型的自动图像字幕架构来解决图像字幕的挑战。我们还进行了性能比较，研究了多种预训练 CNN 模型的性能变化，并探索了频率正则化技术在压缩 “AlexNet” 和 “EfficientNetB0” 模型方面的整合，旨在在更节省资源的同时保持模型的有效性。

Apr, 2024