SIG: 文学中的说话者识别通过基于提示的生成
大型预训练视觉语言模型(VLMs)在下游任务中展现出令人印象深刻的零 - shot 能力,但人工设计的提示对特定领域不够优化。本文提出了一种用于下游任务的软提示方法,通过在特定域数据上进行微调,将软提示作为学习向量。我们从生成的角度重构了提示学习框架,并提出了一种简单而高效的域泛化(DG)任务方法,即软提示生成(SPG)。在训练阶段,我们引入了每个领域的软提示标签,以融合生成模型的领域知识。在推理阶段,生成模型的生成器被用来获取未知目标域的实例特定软提示。对三个域泛化任务的五个领域泛化基准进行的大量实验证明了我们提出的 SPG 方法达到了最先进的性能。代码将很快提供。
Apr, 2024
Gen-Z 是一种用于零食文本分类的生成提示框架,通过在标签的自然语言描述上依赖语言模型的可能性来改善任务性能,并在多个标准分类基准上展现了优越性能。
Nov, 2023
通过对大规模数据集进行训练的文本到语音模型展示了令人印象深刻的语境学习能力和自然度。然而,这些模型中的说话人身份和风格的控制通常需要以参考语音录音为基础,从而限制了其创造性应用。相反,关于说话人身份和风格的自然语言提示已经展示了有希望的结果,并提供了一种直观的控制方法。然而,依赖于人工标注的描述限制了其扩展到大规模数据集的能力。我们的工作弥合了这两种方法之间的差距。我们提出了一种可扩展的方法来对说话人身份、风格和录音条件的各个方面进行标注。然后,我们将这种方法应用到一个 45k 小时的数据集上,用于训练语音语言模型。此外,我们提出了简单的方法来增加音频保真度,尽管完全依赖于现有数据,但性能显著超越了最近的工作。我们的结果展示了通过单一模型和直观的自然语言条件,实现了高保真度的语音生成,在各种口音、韵律风格、信道条件和声学条件下均表现出色。可以在此网址听到音频样本。
Feb, 2024
本研究提出了一种基于提示的方法,通过连续或离散提示来区分不同构建的输入,例如基础来源和会话内容,证明提示的语言模型表现优于会话模型,并进一步分析影响提示效果的各种因素,为未来研究提供了有价值的发现和见解。
Sep, 2021
本文通过使用 context 动态提示的方法,改善了在多轮任务指向对话系统中的通用响应生成。在 MultiWOZ 2.2 数据集上验证后,相较于仅进行的前缀手段,综合值得分提高了 3 个绝对点,同时还将状态对话的提升幅度加大了 20 个绝对点。
Jan, 2023
我们提出了一种方法,通过在给定的文本提示上条件生成,利用文本域信息创建领域敏感的语音识别模型。我们通过对预训练的端到端模型(Whisper)进行微调,从示范中学习文本示例,展示了这种能力可以推广到不同领域甚至不同的提示上下文,我们的模型在来自各种领域的未见数据集上的词误差率(WER)降低了最多 33%,如医疗对话、空中交通管制通信和金融会议。考虑到音频 - 文本配对数据的有限可用性,我们进一步将我们的方法扩展到纯文本微调,以实现领域敏感性和领域适应性。我们证明了我们的纯文本微调模型也可以关注各种提示上下文,该模型在医疗对话数据集上的词误差率降低了最多 29%。
Jul, 2023
通过在受控的、受过教育的方式下丰富模型的说话人信息,可以指导模型捕捉相关的归纳偏差。在预测英语 - 西班牙双语对话中的代码切换点的任务中,加入基于社会语言学的说话者特征可以显著提高准确性。此外,我们发现通过将有影响力的短语添加到输入中,基于说话者的语言模型可以学习有用且可解释的语言信息。这是我们首次将说话人信息纳入神经模型进行代码切换,更进一步地,朝着开发使用受控方式的透明个性化模型迈出了一步。
Mar, 2022
通过无监督的提示学习方法,本文提出了一种改进图像字幕生成通用性的方法,该方法利用预训练的视觉 - 语言模型来学习目标领域的特定提示向量,通过属性一致性和语义一致性优化领域特定提示向量,从而有效地保留了大型模型中的知识并引入了领域特定知识。
Aug, 2023
本文提出两种自动设计多种提示并集成自动 verbalizer 的 SSL 方法,其中第一种通过可学习的持续提示令牌使用各种演示示例生成多样化的提示模型,第二种使用不同数量的软提示令牌鼓励语言模型学习不同的提示。通过使用原型 verbalizer 替换手动 verbalizer,在不同的少样本学习设置中获得了最好的平均准确率(73.2%,相对于先前使用手动提示和 verbalizer 的最新 SSL 方法的相对提高 2.52%)。
Feb, 2023
这篇论文提出了 PromptTTS++,一个基于提示的文本到语音合成系统,通过自然语言描述实现对说话者身份的控制。为了在基于提示的 TTS 框架内控制说话者身份,引入了说话者提示的概念,描述了与说话风格大致独立的语音特征,可以有效地学习从自然语言描述到多样化说话者的声学特征的映射。研究结果表明,与没有说话者提示的方法相比,该方法可以更好地控制说话者的特征。
Sep, 2023