重新思考MUSHRA：应对文本到语音评估的现代挑战

Nov, 2024

重新思考MUSHRA：应对文本到语音评估的现代挑战

Rethinking MUSHRA: Addressing Modern Challenges in Text-to-Speech Evaluation

Praveen Srinivasa Varadhan, Amogh Gulati, Ashwin Sankar, Srija Anand, Anirudh Gupta...

TL;DR这项研究解决了当前文本到语音（TTS）评估中缺乏一致和稳健的人类评估框架的问题。论文提出了两种改进的MUSHRA测试变体，分别解决了参考匹配偏差和评判模糊性的问题，从而实现了对超越人类语音质量的TTS系统的更公正和清晰的评分。此外，研究还发表了MANGO数据集，包含47,100个汉语和泰米尔语的人类评分，为分析人类偏好和开发自动评估指标提供了支持。

Abstract

Despite rapid advancements in TTS models, a consistent and robust human evaluation framework is still lacking. For example, MOS tests fail to differentiate between similar models, and CMOS's pairwise comparisons are time-intensive. The MUSHRA test is a promising alternative for evaluat

发现论文，激发创造

NaturalSpeech：端到端文本语音合成，质量达人类水平

本文提出了一种基于变分自动编码器的TTS系统NaturalSpeech，通过多个关键模块提高文本先验的容量和语音后验的复杂度，同时在LJSpeech数据集上实验证明该系统在句子级别上达到了人类录音的-0.01 CMOS（比较平均意见分数），与人类录音不存在显著性差异。

May, 2022

语音感知对话系统技术挑战赛（DSTC11）

本文涉及针对与书面文本不同的口语输入而设计的任务型对话建模，以解决自动语音识别系统所引入的误差，并针对多轮对话建立了一个公共语料库，研究各种形式的语音输出的性能差距，并给出了初步分析。

Dec, 2022

以阿拉伯广播新闻为案例研究的TTS无监督数据选择

本文探讨了一种针对低资源语言的完全无监督的TTS建模方法，旨在提高语音生成的效率并让其更接近自然人类语音。在案例研究中，该方法成功地使用了广播新闻作为语料集，通过自动数据选择和预训练/微调策略，提高了模型的性能。

Jan, 2023

NPTEL MOOC数千个视频间的单词错误率差异的深入研究

本研究描述了一个庞大的语音数据集的构建过程，并利用该数据集评估了印度不同演讲者的性别、籍贯、年龄和语速对YouTube自动字幕和OpenAI Whisper模型性能的影响。结果表明需要更具包容性和鲁棒性的ASR系统以及更具代表性的数据集进行差异性评估。

Jul, 2023

通过最大差异竞争实现对大型语言模型的高效人工评估

提出一种基于最大偏差（MAD）竞争的样本有效人工评估方法，用于评估大型语言模型的能力与相对优劣，并针对知识理解、数学推理、写作和编码等四种技能，提供有价值的进一步研究发展的见解。

Apr, 2024

评估IWSLT2023语音翻译任务：人工标注、自动评估和分割

从机器翻译系统开发中，人类评估一直是一个关键组成部分，并在文本翻译研究中受到了广泛关注。然而，在人类评估语音翻译方面，之前的研究工作很少，这增加了噪声数据和分割不匹配等额外挑战。我们通过对最近的第23届口语翻译国际研讨会（IWSLT 2023）中几项共享任务的结果进行全面人类评估，填补了这一空白。我们提出了一种基于自动重新分割和带有分割上下文的直接评估的有效评估策略。我们的分析揭示了以下结论：1) 提出的评估策略稳健，与其他类型的人类判断得分相关性很好；2) 自动指标通常与直接评估得分相关性较好，但不总是如此；以及3) 虽然通过重新分割步骤引入了分割噪声，但COMET作为一种自动指标略优于chrF。为了促进进一步的研究，我们发布了收集到的人类标注数据。

Jun, 2024

LAHAJA：评估印地语自动语音识别系统的多口音基准

本研究针对印地语自动语音识别（ASR）系统在多口音下评估的不足，提出了LAHAJA基准，包含了来自132名讲者的12.5小时各种主题的印地语音频。研究发现，基于多语言和良好讲者多样性的训练模型显著优于现有模型，并指出在北东和南印度讲者的表现尤其较差，特别是在涉及命名实体和专业术语的内容中。

Aug, 2024

IndicVoices-R：解锁一个巨大的多语言多说话人语音语料库，以扩展印度文本到语音技术

本研究解决了印度语言缺乏高质量手动字幕数据的问题，通过增强现有的大规模自动语音识别数据集，生成高质量的文本到语音（TTS）训练数据。提出的IndicVoices-R（IV-R）是来自自动语音识别数据集的最大型多语言印度TTS数据集，涵盖22种语言，并引入了IV-R基准，以评估TTS模型在印度语音上的说话人泛化能力。研究表明，使用我们的数据进行微调的模型能更好地实现零-shot说话人泛化，从而推动了印度TTS技术的发展。

Sep, 2024

倡导多语言自动语音识别评估中的字符错误率

本研究针对传统的单一英语数据集评估方法，指出了词错误率（WER）在多语言语音识别中的局限性，尤其在复杂形态词和缺乏明确词边界的语言中。我们主张采用字符错误率（CER）作为主要评估指标，证明了CER在多语言场景中具有更好的一致性和更接近人类评判的相关性，从而对评估标准提出了新的见解与影响。

Oct, 2024

通过多功能TTS增强低资源ASR：弥合数据鸿沟

本研究解决了自动语音识别（ASR）在低资源环境中的表现不足问题，尤其是在方言、口音和少数语言的应用中。论文提出了一种利用强大的文本到语音（TTS）模型进行ASR数据增强的方法，并通过大量实验验证了该方法的有效性与广泛的应用前景。研究表明，文本多样性、说话人多样性及合成数据量是影响ASR性能的关键因素，特别是首次探讨了文本多样性对性能提升的影响。

Oct, 2024