AutoMOS: 学习非侵入式自然语音测评员

NIPSNov, 2016

AutoMOS: 学习非侵入式自然语音测评员

AutoMOS: Learning a non-intrusive assessor of naturalness-of-speech

Brian Patton, Yannis Agiomyrgiannakis, Michael Terry, Kevin Wilson, Rif A. Saurous...

TL;DR利用深度循环神经网络模拟人类评分者评估合成语音质量，AutoMOS 模型通过对多个语音断句进行评分和平均值计算，与人类评分者的相关性接近，为模拟语音合成器参数空间提供可能。

Abstract

Developers of text-to-speech synthesizers (TTS) often make use of human raters to assess the quality of synthesized speech. We demonstrate that we can model human raters' →

text-to-speech synthesizers human raters deep recurrent neural network mean opinion scores automos

发现论文，激发创造

高分辨率图像质量数据库

通过创建高分辨率图像质量数据库，并使用该数据库训练 BIQA 模型，我们展示了高分辨率图像质量数据库对准确预测高分辨率图像的主观评分 (MOS) 所起到的重要作用。

Jan, 2024

超越检测：深度伪造图像视觉真实度评估

本文提出了一种有效的方法来评估 DeepFake 视频的视觉真实感，并详细介绍了两个卷积神经网络模型的数据预处理和训练程序，这些模型通过从帧序列中提取的特征来预测 DeepFake 视频的 Mean Opinion Scores，并在 DeepFake Game Competition (DFGC) 2022 评估中获得了第三名。

Jun, 2023

使用自监督视觉遮盖增强图像质量预测

本文通过引入视觉遮盖的概念并在已有的 FR-IQM 模型上进行改进，提出了一种能够更准确地捕捉人类感知的新型图像质量评价方法。同时也提出了建立视觉遮盖模型的自监督学习方法，以此更好地预测图像质量。

May, 2023

基于 Phoneme 级别的 BERT 和 Grapheme 预测增强文本转语音的韵律

本研究提出了预训练的基于音素级别的 BERT 编码器，通过预测对应的字母表顺序来提高生成语音的自然度，并在主观评估中证明其在未知范围的文本中相比基于状态的 TTS 模型有显著提高的平均意见评分。

Jan, 2023

测量分类器准确性对人工标签等值性的程序

在调查设置中，我们描述了一种过程，它能将分类器的准确度从混淆了分类器质量与人类评分一致性的惯常测量中重估为具有直观解释的测量。通过将分类器与单个人类评级者进行比较，可以比较预测者得分尤其是由多个人类评级者标记结果的预测者得分，所以此过程中的关键洞察力是将分类器评分不与评分者的大多数共识之类的最佳地面实况代理进行比较，而是一次与单个人类评级者进行比较。在此过程中，我们定义了调查等效性，即需要多少评分者才能产生与分类器相同的期望得分。

Jun, 2021

轮廓检测的循环神经回路

该研究提出了一个称之为 Gamma-Net 的深度递归神经网络结构，可以在解决轮廓检测任务时比现有前馈网络具有更好的样本效率，同时表现出经典的感知错觉，称作方向倾斜错觉，而纠正这种错觉会显著降低 Gamma-Net 表现的准确性，试验证明这种错觉是帮助生物视觉系统实现稳健和高效轮廓检测的神经电路的副产品，将这些电路结合到人工神经网络中可以提高计算机视觉。

Oct, 2020

2020 年语音转换挑战赛主观评级和欺骗性评估的预测

该研究分析了五种客观评估方法对于語音转换（VC）的有效性，并发现与具有客观评估相比，排行榜依赖用户测试的次要评估可能效果较差；同时，还揭示了某些 VC 方法存在潜在的高安全风险。

Sep, 2020

主观性实验中主体行为的简单模型

本文提出了一个简单的模型来解决主题不准确的困扰，并通过比较真实数据和合成模拟来证明其价值和优越性。

Apr, 2020

LibriTTS：从 LibriSpeech 中衍生的用于文本转语音的语料库

该论文提出了一个新的语音语料库 LibriTTS，用于文本转语音，并展示了该语料库训练出的神经完整端到端的 TTS 模型在自然度方面的评估结果不低于 4.0。

Apr, 2019

RAPID: 基于深度学习的爆炸式瞬变早期分类

RAPID 是一个用于时间序列分类的深度递归神经网络工具，可自动从初始警报的一天内到完整光度曲线的整个生命周期内识别瞬变现象，并且无需从数据中提取计算量昂贵的特征，因此非常适合处理 ZTF 和 LSST 等广域巡天发现的数百万警报。

Mar, 2019