音频字幕转换器

Jul, 2021

Audio Captioning Transformer

Xinhao Mei, Xubo Liu, Qiushi Huang, Mark D. Plumbley, Wenwu Wang

TL;DR该论文提出了一种全转换器的音频字幕生成器，该生成器能更好地模拟音频信号中的全局信息以及音频事件之间的时间关系，并且在最大的音频字幕数据集上显示出与其他最先进方法相竞争的性能。

Abstract

audio captioning aims to automatically generate a natural language description of an audio clip. Most captioning models follow an encoder-decoder architecture, where the decoder predicts words based on the audio features extracted by the encoder. →

audio captioning encoder-decoder architecture convolutional neural networks recurrent neural networks audio captioning transformer

发现论文，激发创造

一种基于编码器 - 解码器的音频字幕系统，具有迁移学习和强化学习

本文提出一种使用编码器 - 解码器架构的音频标题系统，并引入自上游音频相关任务或大规模领域内数据集的转移学习来缓解数据稀缺性带来的问题。通过强化学习将评估指标纳入模型优化中，可以解决由 “教师强制” 训练策略引起的 “曝光偏差” 和评估指标与损失函数之间的不匹配问题。这种方法在 DCASE 2021 Task 6 中排名第三，并进行了消融研究来研究所提出系统中的每个要素对最终性能的贡献。结果表明，提出的技术显着提高了评估指标的得分，但强化学习可能对生成的标题质量产生不利影响。

Aug, 2021

通过融合声学和语义信息来提高自动音频字幕生成的性能

本文提出了一种基于语义和音频信息相结合的自动音频字幕生成模型，使用预训练的 ResNet38 来初始化预训练关键字编码器，并使用 LSTM 解码器和语义和音频注意力模块来进行多模态注意力解码，实验证明该模型在 Clotho 数据集上达到了最先进的性能。

Oct, 2021

利用预训练 BERT 进行音频字幕生成

本研究利用预训练语言模型 BERT 作为音频字幕解码器，结合预训练的音频模型 PANNs 作为编码器，实现了在 AudioCaps 数据集上与现有音频字幕方法具有竞争力的结果。

Mar, 2022

通过优化音频编码增强基于大型语言模型的自动音频字幕生成

增强自动音频字幕生成的方法通过预训练音频编码器、查询变换器和大语言模型，改善了音频标记的准确性和结果性能。

Jun, 2024

Transformer Transducer：基于 Transformer 编码器和 RNN-T Loss 的可流式语音识别模型

该论文提出了一种端到端的语音识别模型，使用 Transformer 编码器可用于流媒体语音识别系统；该模型在 LibriSpeech 数据集上进行了实验结果，结果表明限制 Transformer 层中自注意力左侧上下文对于流式解码是可行的，并展示了我们的全注意力模型在 LibriSpeech 基准测试上的准确性优于现有技术水平。

Feb, 2020

数据与转换器在音频生成中的驯化

我们提出了两种新模型 AutoCap 和 GenAu 来解决由于数据稀缺和标题质量不足造成的环境声音和效果生成问题，AutoCap 利用音频的元数据显著提高了标题的质量，而 GenAu 则通过使用新数据集进行训练，在生成的音频质量上取得了显著的改善。

Jun, 2024

自动音频字幕生成：近期进展与新挑战概述

本文综述了自动音频字幕生成领域内的研究现状，包括使用的深度学习技术、网络架构、评估指标和挑战，同时讨论了未来的研究方向。

May, 2022

端到端视频字幕生成

本文提出了采用端到端训练的方法来实现视频描述生成，并在微软研究视频描述数据集 (MSVD) 和微软视频到文本数据集 (MSR-VTT) 上取得了最新的最优表现。

Apr, 2019

使用 Transformer 模型进行流式自动语音识别

通过使用自我注意力来模拟时间上下文信息，基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统，其可以在每个发音单词之后快速生成输出，因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模，同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上，我们的方案分别达到了 2.8% 和 7.2% 的词错误率，这是我们所知道的这个任务的最好的流式端到端 ASR 成果。

Jan, 2020

基于 CNN 编码器 - 解码器框架的压缩图像字幕生成

我们的项目旨在通过开发结合卷积神经网络（CNN）和编码 - 解码模型的自动图像字幕架构来解决图像字幕的挑战。我们还进行了性能比较，研究了多种预训练 CNN 模型的性能变化，并探索了频率正则化技术在压缩 “AlexNet” 和 “EfficientNetB0” 模型方面的整合，旨在在更节省资源的同时保持模型的有效性。

Apr, 2024