AutoMOS: 学习非侵入式自然语音测评员
通过创建高分辨率图像质量数据库,并使用该数据库训练 BIQA 模型,我们展示了高分辨率图像质量数据库对准确预测高分辨率图像的主观评分 (MOS) 所起到的重要作用。
Jan, 2024
本文提出了一种有效的方法来评估 DeepFake 视频的视觉真实感,并详细介绍了两个卷积神经网络模型的数据预处理和训练程序,这些模型通过从帧序列中提取的特征来预测 DeepFake 视频的 Mean Opinion Scores,并在 DeepFake Game Competition (DFGC) 2022 评估中获得了第三名。
Jun, 2023
本文通过引入视觉遮盖的概念并在已有的 FR-IQM 模型上进行改进,提出了一种能够更准确地捕捉人类感知的新型图像质量评价方法。同时也提出了建立视觉遮盖模型的自监督学习方法,以此更好地预测图像质量。
May, 2023
本研究提出了预训练的基于音素级别的 BERT 编码器,通过预测对应的字母表顺序来提高生成语音的自然度,并在主观评估中证明其在未知范围的文本中相比基于状态的 TTS 模型有显著提高的平均意见评分。
Jan, 2023
在调查设置中,我们描述了一种过程,它能将分类器的准确度从混淆了分类器质量与人类评分一致性的惯常测量中重估为具有直观解释的测量。通过将分类器与单个人类评级者进行比较,可以比较预测者得分尤其是由多个人类评级者标记结果的预测者得分,所以此过程中的关键洞察力是将分类器评分不与评分者的大多数共识之类的最佳地面实况代理进行比较,而是一次与单个人类评级者进行比较。在此过程中,我们定义了调查等效性,即需要多少评分者才能产生与分类器相同的期望得分。
Jun, 2021
该研究提出了一个称之为 Gamma-Net 的深度递归神经网络结构,可以在解决轮廓检测任务时比现有前馈网络具有更好的样本效率,同时表现出经典的感知错觉,称作方向倾斜错觉,而纠正这种错觉会显著降低 Gamma-Net 表现的准确性,试验证明这种错觉是帮助生物视觉系统实现稳健和高效轮廓检测的神经电路的副产品,将这些电路结合到人工神经网络中可以提高计算机视觉。
Oct, 2020
该研究分析了五种客观评估方法对于語音转换(VC)的有效性,并发现与具有客观评估相比,排行榜依赖用户测试的次要评估可能效果较差;同时,还揭示了某些 VC 方法存在潜在的高安全风险。
Sep, 2020
该论文提出了一个新的语音语料库 LibriTTS,用于文本转语音,并展示了该语料库训练出的神经完整端到端的 TTS 模型在自然度方面的评估结果不低于 4.0。
Apr, 2019
RAPID 是一个用于时间序列分类的深度递归神经网络工具,可自动从初始警报的一天内到完整光度曲线的整个生命周期内识别瞬变现象,并且无需从数据中提取计算量昂贵的特征,因此非常适合处理 ZTF 和 LSST 等广域巡天发现的数百万警报。
Mar, 2019