- 方言?我几乎不了解她:风格控制与刻板印象的挑战
大型语言模型(LLMs)在教育和学习应用中的使用不断增加。 研究表明,在控制风格以适应学习者需求的情况下,能够增加理解力,促进包容性,并有助于知识蒸馏。 为了了解当代 LLMs 在风格控制方面的能力和局限性,我们评估了五个最先进的模型:GP - 通过合成注释实现高保真度文本转语音的自然语言指导
通过对大规模数据集进行训练的文本到语音模型展示了令人印象深刻的语境学习能力和自然度。然而,这些模型中的说话人身份和风格的控制通常需要以参考语音录音为基础,从而限制了其创造性应用。相反,关于说话人身份和风格的自然语言提示已经展示了有希望的结果 - 使用少量人工注释的自然语言提示驱动的表达性语音合成
通过利用大型语言模型的语义推理能力,我们提出了 FreeStyleTTS(FS-TTS),一个具备最小人为注释的可控表达性语音合成模型,能够从原始输入文本或用户定义的描述中检索所需风格,从而实现灵活、多功能和精确的风格控制。
- kNN 语言模型的可控生成的风格局部性
使用外部存储器改进的最近邻语言模型,通过检索相似的语境来辅助词语预测,添加局部级别使模型能够学习如何根据相对于源文件中当前文本的位置来加权邻居,从而进一步提高模型性能。我们提出了一种新的方法,并在礼貌、正式、支持性和毒性文本数据上进行自动和 - SC VALL-E:风格可控的零样本文本到语音合成器
本研究提出了基于神经编解码语言模型(VALL-E)的风格控制(SC)VALL-E 模型,用以生成具有可控属性的表达性语音,并通过与其他模型的比较实验评估其性能。
- 使用扩散器混合进行场景构图和高分辨率图像生成
本文介绍了一种建立在现有扩散模型之上的算法 ——Diffusers 混合器,它能够在不同区域之间协调多个扩散过程来控制图像组合,从而提供更细致的组合控制方式。
- 可控文本朗读:基于文本描述的文本朗读系统
本研究开发了一个名为 PromptTTS 的语音合成系统,利用文本描述来指导语音的生成,从而实现了对语音风格的精确控制。与已有的控制语音风格的技术相比,PromptTTS 更加用户友好。实验表明,PromptTTS 可以生成具有精确风格控制 - EMNLP最近邻语言模型用于风格可控生成
本文构建并评估了一种基于外部记忆的语言建模方法,利用政治正确、正式性和毒性等属性进行样式控制,结果显示基于样式专用数据存储器的生成性能得到了提高,但仍需在未来的工作中探索预训练数据和特定样式的效果。
- ECCV双层特征对齐用于多功能图像翻译和操作
本文介绍了一种新的图像翻译和操作框架,通过明确地建立一种对应关系,在图像生成中实现准确的语义和风格引导,并设计了一个新的特征对齐策略,解决了建立密集对应关系所引发的计算复杂度问题。
- ECCVTSIT: 一种简单且通用的图像到图像翻译框架
提出了一种简单而通用的图像到图像翻译框架,利用归一化层和新提出的特征变换,实现了多模态图像合成并具备任意风格控制的能力,进行了与多个先进方法的比较,证明了其在感知质量和定量评估方面的有效性。
- 学习可控图像合成的布局和风格可重构 GANs
该论文提出了一种新的范例 (layout-to-mask-to-image) 来实现从给定布局生成物体掩膜的任务,给出了一种通过实例感知和布局感知归一化来实现物体掩膜水平的风格控制,使用生成对抗网络 (GANs) 在两个控制水平上进行风格控 - CVPRSEAN: 带有语义区域自适应归一化的图像合成
提出语义区域自适应归一化 (SEAN) 的算法,可在生成对抗网络中应用分割掩模控制图像的语义区域样式,具有更好的重构质量和可变性,并可用于交互式图像编辑。
- 端到端语音合成中学习风格控制与转移的潜在表示
本文介绍了利用变分自编码器(VAE)来实现语音合成模型的端到端学习,以无监督的方式学习发音风格的潜在表示。通过 VAE 学习到的风格表示具有解缠、缩放和组合等良好的特性,使得风格控制变得容易。通过先通过 VAE 的识别网络推断出风格表示,然 - 用神经自然语言生成器控制基于个性的风格变化
本文探讨了自然语言生成在任务导向对话中的应用,提出了三种序列到序列模型,并考虑如何实现内容和风格的分离,通过控制 36 个风格参数,实现对语义和风格的高度还原。