- 从人类评判到预测模型:解析混合代码句子的可接受性
当前分析或生成混合代码句子的计算方法没有明确建模混合代码句子的 “自然性” 或 “可接受性”,但依赖于训练语料库来反映可接受的混合代码句子的分布。建模混合文本的可接受性可以帮助区分自然的混合文本,并实现质量控制的混合文本生成。为此,我们构建 - 用语义保持变换评估程序修复:一种自然性评估方法
研究通过人工调查探讨了语义保持转换的自然性对 NPR(Naturalness of Program Repairs)系统评估的影响,发现 60% 的转换被认为是自然的,20% 的转换被认为是不自然的,这些不自然的转换对 NPR 系统的稳健性 - 基于详细人类中心文本描述的大规模场景合成
DetText2Scene 是一种新颖的文本驱动大规模图像合成方法,具有高度的忠实度、可控性和自然性,在全局范围内实现了对详细人类中心化文本描述的合成。
- 自然度模式形成的解释和评估框架:自信自然度解释
本研究提出了一种名为 “自信自然性解释(CNE)框架” 的新型框架,结合了可解释的机器学习和不确定性量化来评估和解释自然性。通过引入一种新的定量指标来描述模式对自然性概念的自信贡献,并为每个输入样本生成了一个不确定性感知的分割蒙版,突出了模 - FluentEditor:聲學和韻律一致性考慮下的基於文本的語音編輯
设计了一种流利的语音编辑模型,考虑了流畅感知训练标准,在语音编辑培训中通过声学一致性约束和韵律一致性约束实现流利的语音编辑,优于其他基线模型的自然度和流畅性。
- VITS2: 用对抗学习和架构设计提高单阶段文本转语音的质量和效率
通过改进结构和训练机制,提出的 VITS2 单阶段文本转语音模型在自然度、多说话人模型的语音特征相似性以及训练和推断的效率方面取得了显著改进,并且成功减少了对音素转换的强依赖,实现了完全的端到端单阶段方法。
- 零数据的文本语音可控重音
本文提出了一种可扩展的方法来产生高质量的文本转语音 (TTS) 的强调效果,并在不需要录音或注释的情况下实现,通过预测强调词的持续时间的简单但有效的方法,比光谱图修改技术更好地改善自然度 7.3%,并通过 40%正确测试强调的单词在一个女性 - 增强葡萄牙手语动画的动态定时与口型
本文提出了一种新的动态方法,通过口型动画来改进葡萄牙手语中的手势之间的流畅过渡,结果表明,这种方法提高了初学者的理解和感知自然度,对计算语言学、人机交互和合成签名头像具有重要的意义。
- 基于 Phoneme 级别的 BERT 和 Grapheme 预测增强文本转语音的韵律
本研究提出了预训练的基于音素级别的 BERT 编码器,通过预测对应的字母表顺序来提高生成语音的自然度,并在主观评估中证明其在未知范围的文本中相比基于状态的 TTS 模型有显著提高的平均意见评分。
- 物理世界中的等角 3D 对抗样本
本文提出了一种新颖的 epsilon - 同构攻击方法,通过考虑 3D 物体的几何特性和物理变换的不变性,在物理世界中生成自然和强健的 3D 对抗性样本,并借助 MaxOT 方法来提高攻击成功率和自然性。实验证明,相较于现有攻击方法,我们的 - 对话系统任务化与非任务化之间的桥梁: Chat, Shift and Perform
CASPER 是一种新型的对话系统,包含三种对话模型:聊天机器人,主题转换机器人和执行机器人。在用户研究中,相比于端到端训练的基线对话系统,CASPER 在自然度、无强制主题转换和用户满意度等方面给人留下了更好的印象。在消融研究中,我们发现 - ACL跨语句有条件变分自编码器用于非自回归式文本到语音
本文提出了一种跨话语 CUC-VAE 模型来估计每个音素的潜在韵律特征的后验概率分布,该模型结合语音,说话人信息和文本特征,并允许与上下文相关的生成韵律特征,实验结果表明此模型可以显著提高其自然度和韵律分布。
- 简单有效的无监督语音合成
利用未标记语音音频、未标记文本和词典,我们引入了第一个基于简单而有效的配方的无监督语音合成系统。实验结果表明,该无监督系统在自然度和可理解度方面与监督训练的同类系统基本相同。
- 在师生框架下进行数据增强的跨语言合成
本篇论文旨在通过应用师生范式来解决跨语言综合中常见的泛化问题。结果表明,该方法在保持语音自然度和韵律变化的同时,有效提高了说话人特征的保留。
- 面向友好语音代理的日语共情对话语料库研究
介绍了一种新的语音语料库 STUDIES,用于开发一种语音代理程序,可以友好地说话,并通过将 “共情对话” 行为纳入口语对话系统来开发可以更自然地响应用户的声音代理程序。通过将交际者的情感标签和会话上下文嵌入到文本到语音合成中,可以产生与使 - 使用三元组训练方案提升跨语言语音合成
本文提出了一种三元组训练方案,借助额外的微调阶段和三元组损失在跨语言语音合成中提高发音自然度和可懂度。
- 基于深度学习的合成语音自然度评估
本文提出了一种新的客观预测合成语音自然度的模型,采用 CNN-LSTM 网络逐端训练,独立于语言,能用于评估文本转语音或语音转换系统的效果,通过在多个数据集上测试证明模型的可靠性。
- EMNLP将发给虚拟助手的信息的身份转换
本文介绍了一种系统,该系统允许虚拟助手接收一种声音消息,将消息的观点转换为目标用户的观点并将结果交付给目标用户。 该系统基于一种基于规则的模型,将线性文本分类模型、词性标注和组成结构分析与基于规则的转换方法相结合。此外,文中还探讨了多种神经 - 非平行语音转换中源样式转移
本研究提出一种基于序列到序列的非并行语音转换方法,该方法能够通过显式建模将源语音中的说话风格转移至转换后的语音,并在客观评估和主观听力测试中证明了其在语音自然度和说话人相似度方面优于其他方法,并进行了实验来展示该方法的源语音风格可转移性。
- 数据减少对序列到序列的神经文本到语音系统的影响
本文研究表明,基于自回归神经网络模型的最近的语音合成系统几乎可以生成与人类录音难以区分的语音。而这些模型需要大量的数据,本文证明可以用其他讲话者的数据弥补一个讲话者数据的不足。