将语言知识注入 BERT 用于对话状态跟踪
本文介绍了一个基于 attention mechanism 的迁移学习方法,适用于在训练过程中缺乏丰富人工标注数据的情况下训练 extractive DST 模型,通过两种新颖的输入级 dropout 方法来减轻样本稀疏性的负面影响。我们的实验表明,提出的模型训练策略和架构方法在应对新概念、样本稀疏性等挑战时表现出优越性。
Feb, 2022
通过语义解析将原始对话文本转换为 JSON,使用大型语言模型和更多模块来实现更新策略,提出一种新的上下文学习方法 ParsingDST,通过引入复杂的更新策略改进了零样本对话状态跟踪 (DST),在 MultiWOZ 数据集上优于现有的方法,对比现有的上下文学习方法在联合目标准确性和槽准确性方面有显著的改进。
Oct, 2023
本文研究了 Convex-Polytopic-Model 的模型细节,并在 ATIS 语料库上展示出该模型在自然语言理解任务中自动提取语义模式的能力及其对 NLU 模型性能提升的影响。
Jan, 2022
对 ChatGPT 在对话状态跟踪 (DST) 任务中的能力进行了初步评估,发现其表现出色。为了解决 ChatGPT 的局限性,提出了基于小型开源模型的 LLM 驱动的 DST 框架 LDST,通过领域 - 槽位指令调优方法,LDST 在零样本和少样本设置下相较于之前的 SOTA 方法取得了显著的性能提升。提供源代码以保证可复现性。
Oct, 2023
本文提出一种基于 BERT 的简单而有效的对话状态跟踪模型,避免了当前神经架构通常存在的繁琐和复杂,具有不随本体论规模增长和适用于领域本体动态变化的优点。经实验验证,该模型在标准 WoZ 2.0 数据集上显著优于以往方法,经知识蒸馏压缩后性能依旧可与原模型相媲美,在资源受限的系统中表现出出色的效果。
Oct, 2019
本文研究了多语言预训练 seq2seq 模型在跨语言对话状态追踪中的可转移性,尝试了联合训练、预训练等不同设置,并发现了转化能力较低的问题。
Jan, 2021
本文介绍了一种基于后处理的知识注入技术,该技术从外部源中提取相关知识,并将其合并到对话响应中,实验表明使用这种方法可以在目标导向和基于知识的对话环境中实现更具吸引力和更丰富的对话响应。
Mar, 2022
任务驱动的对话系统使用外部非结构化知识源来扩展任务领域 API 的覆盖范围,三个任务包括知识寻找、选择和响应生成,并用集成方法和大规模预训练语言模型取得了高性能。
Jan, 2021