可迁移的对话系统和用户模拟器

ACLJul, 2021

Transferable Dialogue Systems and User Simulators

Bo-Hsiang Tseng, Yinpei Dai, Florian Kreyssig, Bill Byrne

TL;DR通过对话系统和用户模拟器之间的交互，开发了一种建模框架，旨在通过自动对话场景的创建来解决训练数据不足的问题，并使用强化学习来改进智能体的行为，从而在转移学习中提高对话系统性能。

Abstract

One of the difficulties in training dialogue systems is the lack of training data. We explore the possibility of creating dialogue data through the interaction between a dialogue system and a user simulator. Our

dialogue systems training data user simulator self-play reinforcement learning

发现论文，激发创造

任务完成对话用户模拟器

该研究论文介绍了用于电影预订领域的用户模拟器，它利用规则和收集到的数据，并支持电影票预订和电影寻找两个任务。为了实现对对话框架的经验算法比较，论文提出了一种新的模拟框架，展示了多个代理的思路，并详细介绍了将自己的代理添加到所提出的框架中进行测试的过程。

Dec, 2016

使用迁移强化学习个性化对话系统

提出了一个基于 POMDP 的迁移学习框架 PETAL，该框架可以将多个用户的数据作为源域，个人用户的数据作为目标域进行适应，来学习个性化的任务导向式对话系统，展现了针对不同用户采取不同合适动作的行为结果，从而有效地提高了个性化情境下的对话质量。

Oct, 2016

基于角色感知奖励分解的多智能体面向任务的对话策略学习

本文介绍了一种采用多智能体对话策略学习的方法，用于同时训练系统和用户策略，并通过角色感知奖励分解和行为者 - 评论家框架提高预训练和可扩展性。结果表明，该方法能够通过对话交互，使两个智能体成功完成任务。

Apr, 2020

使用多维建模适应新动作集的对话策略调整

使用多维方法对话管理加速训练，通过预先训练的任务无关策略来实现转移学习，从而在有限的训练数据下实现更好的性能，人工用户评估表明多维系统（针对目标情境的有限训练数据进行适应）比一维基准（在同样的训练数据上不进行适应）提高了 7％的成功率。

Apr, 2022

基于可靠 LLM 的任务导向对话系统用户模拟器

DAUS 是一种基于大型语言模型的领域感知用户模拟器，通过在真实的面向任务对话示例上进行微调，显著提高用户目标的实现，并有效减少模拟器回应中的不一致性来源。

Feb, 2024

面向多领域和多任务对话的少样本结构化策略学习

本研究旨在探讨使用结构化政策提高在多领域和多任务环境下的强化学习样本效率。作者在测试不同结构化水平时，发现图形神经网络具有优势，且建议未来的研究应聚焦于连接人类数据、模拟器和自动评估器。

Feb, 2023

使用大型语言模型进行任务导向对话评估的用户模拟

为了推动自动化任务导向对话系统的评估，本研究提出了一种基于预训练语言模型的新型用户模拟器，并通过上下文学习来生成具有鲁棒性和语言多样性的输出，以模拟人类对话行为。通过与现有对话系统交互，并收集人机交互数据集，验证了该用户模拟器在单一意图对话目标方面的表现与人类相似。

Sep, 2023

使用合成数据进行零样本迁移学习的多领域对话状态跟踪

本文提出了一种采用零样本迁移学习的技术，通过从域本体和抽象对话模型中合成所有域内训练数据，对多域对话状态跟踪进行了改进，表明对话状态跟踪中的数据增强可以提高 TRADE 模型和基于 BERT 的 SUMBT 模型在 MultiWOZ2.1 数据集上零样本学习的准确性，并表明只用合成的域内数据对 SUMBT 模型进行训练，可以达到全局数据集训练的 2/3 的准确度，文章的方法还提高了领域之间的平均零样本学习水平达到 21%

May, 2020

NeuralWOZ: 基于模型的仿真学习任务导向对话收集

本文提出了一种新型的对话收集框架，名为 NeuralWOZ，该框架使用基于模型的对话模拟，并且使用 collector 和 labeler 两个模型，其中 collector 生成对话，而 labeler 则将生成的对话进行注释并将注释形成为一个多项选择问题。这个方法在对话状态跟踪的零样例转移学习中表现出了很好的效果，产生的合成对话语料库在多个领域上以 4.4％的联合目标准确度和 5.7％的待测试覆盖率的改善实现了新的最高水平。

May, 2021

走向开放领域对话学习

本文提出修改对话系统，使其能够学习的方法，并讨论了如何从对话中提取知识、更新代理的语义网络并以行动和观察为基础。希望引起人们对该领域的关注，并成为未来研究的重点。

Feb, 2022