使用合成字幕和迁移学习训练的音频字幕的 Whisper 变形器

May, 2023

使用合成字幕和迁移学习训练的音频字幕的 Whisper 变形器

A Whisper transformer for audio captioning trained with synthetic captions and transfer learning

Marek Kadlčík, Adam Hájek, Jürgen Kieslich, Radosław Winiecki

TL;DR本技术报告介绍了我们在音频字幕领域的研究，重点关注了预训练语音转文字的 Whisper 模型和合成字幕的预训练使用。我们探讨了我们的训练过程，并呈现了我们实验的结果，包括模型大小变化、数据集混合和其他超参数。我们的发现证明了不同训练策略对音频字幕模型性能的影响。我们的代码和训练模型在 GitHub 和 Hugging Face Hub 上公开可用。

Abstract

The field of audio captioning has seen significant advancements in recent years, driven by the availability of large-scale audio datasets and advancements in deep learning techniques. In this technical report, we

audio captioning deep learning pretrained model training strategies publicly available

发现论文，激发创造

用合成标题改进文本到音频模型

通过语音标注管道，使用音频语言模型合成准确且多样的音频标注，提供了合成标注数据集以及训练基于合成标注的文本转音频模型，取得了新的最先进的结果。

Jun, 2024

用低语启迪我：使用语音嵌入增强大型语言模型对口述剧本的分析

通过音频 - 语言知识蒸馏框架，将语音数据中的声学和语用信息转移到学生语言模型，从而改进了传统语言模型在分析口述文本任务上的性能。

Nov, 2023

Whispy：将 STT Whisper 模型调整至实时环境

Whispy 是一个能够实时处理语音流并生成高质量语音转录的系统，优化了 Whisper 预训练模型的架构，具备较低的计算成本，实验结果展示了其在鲁棒性、及时性和准确性方面的优势。

May, 2024

利用开源工具和公开数据复现 Whisper-Style 训练

使用开源工具包与公开可用的数据，本文提出了一种 Open Whisper-style Speech Model (OWSM) 来训练语音模型，以解决以前无法公开访问的全流程模型开发所面临的性能提升、效率、鲁棒性、公正性和偏见等问题，并公开发布所有脚本、预训练模型和训练日志，以促进开放科学。

Sep, 2023

通过合成音频数据进行端到端低资源语音翻译

我们在国际口语翻译会议 (IWSLT 2024) 上描述了我们的系统提交，用于爱尔兰 - 英语语音翻译。我们基于 Whisper 构建了端到端系统，并采用了一些数据增强技术，如语音回译和噪声增强。我们研究了使用合成音频数据的影响，并讨论了几种丰富信号多样性的方法。

Jun, 2024

传递性探究：Whisper 语音表示在 “野外” 跨任务下游应用中的适用性

本文通过探究 Whisper 模型在 ASR 和其他四个语音任务中的泛化性以及在嘈杂环境下的鲁棒性，证明了其表现出色并具有实际应用价值。

May, 2023

OxfordVGG 参加 EGO4D AV 转录挑战

这篇报告介绍了我们（OxfordVGG 团队）参与 EGO4D 音频 - 视觉自动语音识别挑战 2023 的技术细节。我们提出了 WhisperX 系统，用于高效转录长篇音频，并具有单词级别的时间对齐，同时还提供了两个公开可用的文本规范化器。我们的最终提交在挑战测试集中取得了 56.0% 的词错误率（WER），在排行榜上位居第一。该报告还提供了所有基准代码和模型的链接。

Jul, 2023

利用 PaSST 和大量音频标题数据集推进基于自然语言的音频检索

该研究针对预先训练的文本和频谱图变换器，提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在 2023 年的 DCASE 挑战中排名第一，在 ClothoV2 基准测试中的表现优于当前的最新技术，提高了 5.6 个百分点的 mAP@10。

Aug, 2023

音频字幕转换器

该论文提出了一种全转换器的音频字幕生成器，该生成器能更好地模拟音频信号中的全局信息以及音频事件之间的时间关系，并且在最大的音频字幕数据集上显示出与其他最先进方法相竞争的性能。

Jul, 2021

使用 Transformer 进行韵律语音分割（PSST）

本文细调了一个预训练的 STT 模型 Whisper，将低频令牌重新用于标注语调单元（IU）边界，精度达到 95.8％，优于以往的方法，无需大规模标记数据或企业级计算资源，并且通过应用一系列滤波器来减小输入信号，发现在 3.2 kHz 级别下的低通滤波器可以提高样本外和分布外语境下的分段性能，我们将该模型作为转录工具并作为进一步改进语调分割的基准线释放。

Feb, 2023