简化生成结构的用户模拟器和任务驱动对话系统的联合强化学习

Oct, 2022

简化生成结构的用户模拟器和任务驱动对话系统的联合强化学习

Jointly Reinforced User Simulator and Task-oriented Dialog System with Simplified Generative Architecture

Hong Liu, Zhijian Ou, Yi Huang, Junlan Feng

TL;DR本研究首次探讨了使用在线增强学习的基于 GPT-2 的对话系统和端到端用户模拟器，并提出了简化的生成架构作为 DS 和 US 的模型，使用缩短的历史，同时展示了 SGA-JRUD 模型在离线和在线评估中的优异表现。

Abstract

Recently, there has been progress in supervised funetuning pretrained gpt-2 to build end-to-end task-oriented dialog (TOD) systems. However, online reinforcement learning of a →

dialog system gpt-2 supervised learning reinforcement learning end-to-end user simulator

发现论文，激发创造

基于 GPT 架构和目标状态跟踪的增强式多领域对话系统的生成式用户模拟器

本文提出了一种以 GPT-2 模型为基础，利用目标状态追踪的生成式用户模拟器（GUS）来解决用户模拟器训练时遇到的挑战，并在 MultiWOZ2.1 数据集上通过交叉模型评估、基于语料库的评估和人类评估等方法对训练出的多个对话系统进行对比，证明了 GUS 在三个评估任务中的表现均优于基于议程的用户模拟器（ABUS）和其他削减模拟器。

Oct, 2022

GenTUS: 基于生成式 Transformer 技术的任务导向对话中用户行为和语言模拟

本文提出了一个基于生成式变形器的用户模拟器（GenTUS），它可以同时优化用户策略和自然语言生成，并生成语义动作和自然语言话语，保持可解释性和增强语言变异。它还利用大型预训练语言模型，将输入和输出表示为单词序列，从而实现特征表示的可泛化性。评估结果表明，GenTUS 生成的自然语言更真实，能够在没有先验知识的情况下转移到未见过的本体，并且可以通过强化学习进一步优化行为，从而为训练专门的用户模拟器打开了大门。

Aug, 2022

使用上下文摘要和领域框架的零样本泛化端到端任务导向对话系统

该研究介绍了一种基于 GPT-2 模型的零 - shot 通用端到端任务导向对话系统，该系统利用域模式允许对未见过的域进行健壮的泛化，并利用对话历史的有效摘要，实现一般任务完成技能的学习。经过了大量的实验评估 SGD 和 SGD-X 数据集，跨越多达 20 个独特的领域，ZS-ToD 在关键度量上优于现有技术，联合目标准确率提高了 17％，信息传递提高了 5 个单位。

Mar, 2023

基于半监督学习的面向知识检索任务的对话系统

提出一种基于检索的方法，以加强 TOD 系统中的知识选择，并结合半监督学习进行潜变量模型，该模型可以与知识检索器一起利用有标签和无标签的对话数据。实验证明，该方法在有标签和半监督设置下均优于传统的数据库查询方法。

May, 2023

基于可靠 LLM 的任务导向对话系统用户模拟器

DAUS 是一种基于大型语言模型的领域感知用户模拟器，通过在真实的面向任务对话示例上进行微调，显著提高用户目标的实现，并有效减少模拟器回应中的不一致性来源。

Feb, 2024

使用大型语言模型进行任务导向对话评估的用户模拟

为了推动自动化任务导向对话系统的评估，本研究提出了一种基于预训练语言模型的新型用户模拟器，并通过上下文学习来生成具有鲁棒性和语言多样性的输出，以模拟人类对话行为。通过与现有对话系统交互，并收集人机交互数据集，验证了该用户模拟器在单一意图对话目标方面的表现与人类相似。

Sep, 2023

面向任务导向对话系统的半监督知识驱动预训练

本文介绍了我们的 Track 2 模型，利用大规模真实世界的 MobileCS 中国 TOD 数据集，使用半监督学习和强化学习构建知识引导的对话模型，实现了任务导向对话系统的高效预测和人机交互。我们的系统在自动评估和人工交互中表现都极佳，尤其是 BLEU (+7.64) 和 Success (+13.6%) 方面比第二名更优秀。

Oct, 2022

响应增强的半监督对话查询生成

提出了一种半监督学习框架 SemiDQG，通过使用未标注的对话数据来改进模型性能，使用类似度选择策略选取高质量伪查询进一步训练模型，并采用 REINFORCE 算法作为精细化训练信号，实验结果表明该框架在跨领域和资源有限场景中具有显著优势。

Dec, 2023

SGP-TOD: 通过模式引导的 LLM 提示轻松构建任务机器人

该研究提出了 SGP-TOD—— 基于大型语言模型的模式引导对话系统，可以在不使用任何特定任务数据的情况下，生成适当的回应，具有零 - shot 性能，并且能够通过添加附加模式规则轻松适应新功能。

May, 2023

通过强化学习进行协作多智能体对话模型训练

本文利用 DSTC2 数据为种子数据，建立了功能包括：natural language understanding 和 natural language generation 的 conversational agent，并让它们通过生成自然语言进行在线交互，进而将这个交互行为建模成一个随机协作游戏，并在实验中表现出优于 deep learning 的结果。

Jul, 2019