使用 Transformer 进行韵律语音分割（PSST）

Feb, 2023

使用 Transformer 进行韵律语音分割（PSST）

PSST! Prosodic Speech Segmentation with Transformers

Nathan Roll, Calbert Graham, Simon Todd

TL;DR本文细调了一个预训练的 STT 模型 Whisper，将低频令牌重新用于标注语调单元（IU）边界，精度达到 95.8％，优于以往的方法，无需大规模标记数据或企业级计算资源，并且通过应用一系列滤波器来减小输入信号，发现在 3.2 kHz 级别下的低通滤波器可以提高样本外和分布外语境下的分段性能，我们将该模型作为转录工具并作为进一步改进语调分割的基准线释放。

Abstract

self-attention mechanisms have enabled transformers to achieve superhuman-level performance on many speech-to-text (STT) tasks, yet the ch

self-attention mechanisms transformers speech-to-text intonation unit boundaries pretrained models

发现论文，激发创造

多模式自动韵律标注与对比预训练的 SSWP

在表达性文本转语音（TTS）领域中，显式的语调边界极大地提升了合成语音的自然度和可控性。本论文提出了一个新颖的两阶段自动注释流程，通过对对比的文本 - 语音空间进行预训练来增强从联合文本 - 语音空间中提取的语调空间，并构建了一个多模态语调标注器，该模型在自动生成语调标注方面表现优异，达到了最先进的性能水平，并且在不同数据量的测试中展现出了显著的鲁棒性。

Sep, 2023

利用自监督语音模型进行音素分割

应用迁移学习到音素分割任务中，在自监督预训练中学习的表示对任务的效用得到证明。通过在 Transformer 风格编码器中增加有策略的卷积，操作预训练中学到的特征。在 TIMIT 和 Buckeye 语料库上训练和测试了该模型，分别在监督和非监督设置下达到了以前的最佳性能。在代码审查和尝试复现过去的分割结果中观察到，有必要明确广泛使用的评估指标的定义和实现。通过划分两种不同的评估方案并描述它们的细微差别来解决了这种不确定性。

Nov, 2022

使用合成字幕和迁移学习训练的音频字幕的 Whisper 变形器

本技术报告介绍了我们在音频字幕领域的研究，重点关注了预训练语音转文字的 Whisper 模型和合成字幕的预训练使用。我们探讨了我们的训练过程，并呈现了我们实验的结果，包括模型大小变化、数据集混合和其他超参数。我们的发现证明了不同训练策略对音频字幕模型性能的影响。我们的代码和训练模型在 GitHub 和 Hugging Face Hub 上公开可用。

May, 2023

Whispy：将 STT Whisper 模型调整至实时环境

Whispy 是一个能够实时处理语音流并生成高质量语音转录的系统，优化了 Whisper 预训练模型的架构，具备较低的计算成本，实验结果展示了其在鲁棒性、及时性和准确性方面的优势。

May, 2024

使用预训练的文本 - 语音模型进行自动韵律标注

本文提出了一种利用神经文本语音模型和预训练音频编码器从文本 - 音频数据自动提取韵律分界标签的方法，并表明这种方法与文本基线相比具有显着优势和可比性。同时，利用该方法训练的 TTS 系统略优于使用手动标注的系统。

Jun, 2022

将 ASR 基础模型用于口语评估的适应

本文详细分析了 Whisper 输出，并提出了精细调整和软提示调整两种解决方案，实验证明我们可以有效地改变 Whisper 的解码行为，生成与口语回答中准确的单词。

Jul, 2023

分离 - 转换 - 分段器：多方语音的流式识别和分割

提出了一种基于神经网络的新方法 ——STS，包括一种新的分割建模策略和一种新的发射规则方法 FastEmit 等，用于多方会谈的流媒体识别和分割。

May, 2022

探究语音情感识别变形金刚在语言知识方面的应用

本文研究了使用 self-attention layer（transformers）预先训练的神经网络在情感识别中的表现，并发现这些模型成功利用语言信息来提高其 valence predictions，在测试他们时应包括对语言分析。

Apr, 2022

基于中间 ASR 特征和人类记忆模型的面向听障用户的非侵入式语音可懂度预测

利用神经网络和先前训练的自监督和弱监督模型的中间层特征表示，结合人类记忆的示例驱动型心理模型，预测助听器用户的人类可懂度评级，并在不同任务和训练数据中的普通听众中找到相较于基础系统 28.7 的均方根误差 25.3 的显着性能提升。

Jan, 2024

简单有效的多句 TTS 系统，具有表达和连贯的韵律

本文针对长文本合成语音的特殊困难，通过将上下文信息、强大文本特征和多人数据用于 Transformer-based FastSpeech 的简单扩展，改进了合成语音的韵律，其中 BERT 也受益于更多的训练数据。通过客观的停顿和速度指标和全面的主观评估，得出了一种较强的合成语音系统，其中包括所有改进扩展，相对于同类竞品在语音自然度方面表现出显著的提升。

Jun, 2022