基于遗传算法的语音语料库平衡脚本生成器 BASPRO
采用外部巨大语言模型 (LLMs) 进行自动语音识别 (ASR) 错误订正的首个开源基准测试涵盖了超过 334,000 个 N-best 假设及相应准确转录数据对,通过三种不同程度标记的假设 - 转录对利用 LLMs 实现了显著的词错误率 (WER) 降低,实验结果表明该技术突破了传统的重新排名方法上限并具备生成能力,从而纠正了 N-best 列表中缺失的标记,提供了一个基于 LLMs 的 ASR 错误订正的全新评估范式。
Sep, 2023
介绍了一种依据 BEA 的子集 BEA-Base,用于评估匈牙利语的自然语音识别系统,并使用多语言自监督预训练的方法,比传统的方法实现了 45% 的识别误差率的降低。
Feb, 2022
本研究提出了预训练的基于音素级别的 BERT 编码器,通过预测对应的字母表顺序来提高生成语音的自然度,并在主观评估中证明其在未知范围的文本中相比基于状态的 TTS 模型有显著提高的平均意见评分。
Jan, 2023
本文介绍了 BSTC (Baidu Speech Translation Corpus) 数据集,该数据集基于一组讲座授权视频构建,包括约 68 小时的普通话数据、它们的手动转录和英语翻译,以及自动语音识别 (ASR) 模型的自动转录。我们进一步邀请了三名经验丰富的口译员在模拟会议场景中同时口译测试讲座。预计该语料库将促进自动同声传译的研究以及实用系统的开发。我们组织了同声传译任务,并使用该语料库评估了自动同声传译系统。
Apr, 2021
本研究提出了一种无监督方法来构建语音到语音语料库,并利用视频帧、语音识别、机器翻译和噪声帧去除算法在短片段层面上对齐源语言和目标语言,以生成一种平行语音语料库,并应用于短音频片段和长音频剪辑,效果表现稳健。
Mar, 2022
台湾在 2020 年启动了 VoiceBanking 项目,旨在为肌萎缩性侧索硬化症患者提供个性化的普通话语音合成系统。本文报道了 VoiceBanking 项目中语料库设计、录制、数据整理和修正,以及开发的个性化普通话语音合成系统的评估。
Aug, 2023
本论文介绍了 AISHELL-3 数据集,用于训练多扬声器普通话语音合成系统,同时介绍了一种基于 Tacotron-2 的多扬声器语音合成基线模型,该模型结合了说话人验证模型和相应的语音相似性损失作为反馈约束。该论文旨在利用所提供的语音数据集构建鲁棒的语音合成模型,并实现零 - shot 语音克隆。实验结果表明,该多说话人合成系统在声纹嵌入相似性和等误差率测量方面均能实现较高的语音相似度。
Oct, 2020
为了提供评价语音处理任务通用模型的基准,我们介绍了 Dynamic-SUPERB,该基准通过结合 33 个任务和 22 个数据集,提供了多维度的综合评估平台,并提出了一些建立基准的方法。评估结果表明,虽然这些基准在已知任务上表现得合理,但在未知任务上表现不佳,需要进一步的改进。
Sep, 2023
在菲律宾的低资源语言中,为了扩大可用的语料库和可读性评估的基线模型,我们介绍和发布了 BasahaCorpus,编制了一组用于训练表层特征、音节模式和 n-gram 重叠特征的 ARA 模型的短篇虚构故事的语料库,还提出了一种新的层次化跨语言建模方法,利用语言在语系树种的位置来增加可用的训练数据。我们的研究取得了令人鼓舞的结果,支持先前工作展示了跨语言模型在低资源环境中的有效性,以及相互可理解语言的高信息语言特征的相似性。
Oct, 2023
研究了训练简单的语音处理系统预测互联网音频大量转录的能力,在 680,000 小时的多语言和多任务监督的基础上,生成的模型具有很好的泛化能力,并且通常与之前的完全监督结果竞争,但在零次传输设置下不需要进行任何微调,与人类相比,模型的准确性和稳健性接近,并且同时发布了模型和推理代码,作为进一步稳健语音处理工作的基础。
Dec, 2022