具有可控风格的上下文感知语音识别的 PromptASR
通过用于自动语音识别的注意机制中的超级提示灵感引入一种新颖机制,将文本上下文与声音表示融合起来,并通过在包含多轮互动的测试集上实现 5.9% 的相对词错误率减少 (rWERR),显示出我们的方法在以前的基线上有所改进。我们证明了即使没有上下文,我们的方法也不会退化,并且在不使用上下文训练模型的情况下仍然有所改进。此外,我们进一步表明,利用预训练的句子片段模型进行上下文嵌入生成可以优于外部 BERT 模型。
Jan, 2024
本研究开发了一个名为 PromptTTS 的语音合成系统,利用文本描述来指导语音的生成,从而实现了对语音风格的精确控制。与已有的控制语音风格的技术相比,PromptTTS 更加用户友好。实验表明,PromptTTS 可以生成具有精确风格控制和高质量的语音。
Nov, 2022
该论文提出了一种基于提示的文本风格转换编辑方法,其中使用预训练语言模型进行风格分类,使用分类概率计算风格得分,然后通过词级别的编辑,以最大化全面的评分函数来实现风格转换任务,实验表明其性能远高于具有 20 倍参数的现有技术。
Jan, 2023
我们提出了一种通过由情感丰富的文本衍生出的嵌入来作为提示信息的系统,通过在基于 Transformer 的架构内多次集成发言者和提示信息的联合表示。我们的方法在合并情感语音和文本数据集上进行训练,并在每次训练迭代中变化提示信息,以增加模型的泛化能力。客观和主观评估结果表明,该条件合成系统能够准确地将提示中的情感转移到语音中。同时,保持了发言者身份的精确可追踪性以及整体的高话语质量和可理解性。
Jun, 2024
通过引入自我条件 CTC 框架中的编码器提示技术,我们实现了 CTC 模型的语言特定适应,从而实现了多语言语音识别的端到端处理,并取得了平均错误率下降 28% 和低资源语言下降 41% 的显著效果。
Jun, 2024
本文通过使用 context 动态提示的方法,改善了在多轮任务指向对话系统中的通用响应生成。在 MultiWOZ 2.2 数据集上验证后,相较于仅进行的前缀手段,综合值得分提高了 3 个绝对点,同时还将状态对话的提升幅度加大了 20 个绝对点。
Jan, 2023
该论文介绍了一种新颖的基于实例控制代码的提示调整算法来探索其对于对话生成的影响,该算法不同于传统的离散提示和连续提示,可以适应输入变化较大的任务,如开放领域对话生成,并在经典数据集上实验证明其比提示基线更好,而参数却只需用到总计量的 5-6%。
Jul, 2023
本文提出了一个度量标准,评估了一个固定提示对标签或给定属性的预测偏差,并提出了一种新的基于贪心搜索的搜索策略来确定最佳提示,以提高上下文学习的性能,并在多种下游任务中使用 GPT-3 等最先进的主流模型进行全面实验。结果表明,我们的方法可以有效提高模型的在上下文学习性能。
Mar, 2023
该文提出了一种基于文本的图像编辑框架,利用交叉注意力层控制图像布局和文本之间的关系,实现了在不改变原始内容情况下的全局和局部编辑,从而达到高质量的图像合成。
Aug, 2022
在机器学习模型的部署过程中,分布偏移是一个主要的挑战,特别是在文本到音频生成领域。为了解决用户提示信息过于模糊导致生成音频质量下降的问题,本文提出了一个基于检索的上下文提示编辑框架,利用训练标题作为示范样本重新审视用户提示,进而增强了收集到的用户提示的音频质量。
Nov, 2023