通过提示调整实现参数高效的低资源对话状态跟踪
本文介绍了一种基于深度学习的可伸缩的多领域对话状态跟踪方法,通过引入一个新的状态跟踪框架,该框架独立于具体的槽值集合,并将对话状态表示为候选值集合的分布,此方法能够快速适应新领域,提高跨领域和可扩展性。
Dec, 2017
本文提出了一种新的架构,利用多粒度的注意力机制来更稳健地编码对话历史和槽的语义,用于实现准确的跨域对话状态跟踪,并在MultiWoZ 2.1数据集上将联合目标准确率提高了5%(绝对值),并在零-shot设置下比现有最先进技术提高至多2%(绝对值)。
Feb, 2020
本文提出了Temporally Expressive Networks(TEN)模型以同时模拟对话轮次间的时间特征依赖和状态依赖。利用循环网络和概率图模型,模型对话状态追踪(DST)的准确率得到了提升。
Sep, 2020
通过设计双提示学习框架,利用预训练语言模型的语言理解和生成能力,将对话状态跟踪任务高效地转化为一项语言建模任务,提高了低资源情况下对话状态跟踪的效率。实验证明,该方法优于现有的少样本学习方法,并且可生成未见过的槽位。
Jan, 2022
本研究提出了一个基于in-context learning (ICL)框架、利用大型预训练语言模型 (LM)进行零样本和小样本学习的对话状态跟踪 (DST)方法,重点是通过将DST优化为文本到SQL问题和使用新颖的对话检索方法,以检索标注对话作为样本来提高对答案问题的准确性。在MultiWOZ上的实证结果表明,IC-DST法在小样本情境中明显优于以往最先进的模型,在只输入固定任务指令的零样本情境下,也比以往的零样本方法表现得更好。
Mar, 2022
我们探讨了基于任务导向的对话系统的对话信念状态跟踪(DST)问题。通过以Prompt为基础进行少样本学习,我们证明了Prompt-based方法在DST的Few-shot学习中具有潜在的潜力,并提供了未来改进的方向。
Apr, 2022
本文提出了一种名为DiSTRICT的基于有关上下文调整的DST的方法,通过检索与给定对话高度相关的训练示例,优化模型,相对于现有方法,使用较小的模型在各种零射和少样本设置下实现更好的性能,在资源不足的实际部署中提供了重要的优势
Dec, 2022
我们使用 ChatGPT ,一个通用语言模型,展示了它在零-shot DST 上达到的最先进的表现,并证明了通用模型在专业系统替代方面的能力受到其属性的限制,但我们认为通用模型的语境学习能力很可能成为支持专门的动态对话状态跟踪器开发的有力工具。
Jun, 2023
对ChatGPT在对话状态跟踪(DST)任务中的能力进行了初步评估,发现其表现出色。为了解决ChatGPT的局限性,提出了基于小型开源模型的LLM驱动的DST框架LDST,通过领域-槽位指令调优方法,LDST在零样本和少样本设置下相较于之前的SOTA方法取得了显著的性能提升。提供源代码以保证可复现性。
Oct, 2023
本研究解决了零-shot对话状态跟踪中系统在新领域中缺乏手动注释或广泛再训练的问题。提出的双低秩自适应架构(DualLoRA)有效整合了对话上下文处理和提示优化,在不增加推理延迟的情况下,提升了模型的性能,展示了显著的跨域改进。
Jul, 2024