JoTR: 对话策略学习的联合 Transformer 和强化学习框架

Sep, 2023

JoTR: 对话策略学习的联合 Transformer 和强化学习框架

JoTR: A Joint Transformer and Reinforcement Learning Framework for Dialog Policy Learning

Wai-Chung Kwan, Huimin Wang, Hongru Wang, Zezhong Wang, Xian Wu...

TL;DR使用 JoTR 框架，利用文本到文本的 Transformer 模型生成灵活的对话动作，以解决传统方法中预定义动作候选的不足，从而提高对极限情况的处理能力，并通过强化学习和奖励调整机制有效地优化对话策略。在广泛的评估中，JoTR 在两个基准对话建模任务上展现出卓越的性能。

Abstract

dialogue policy learning (DPL) is a crucial component of dialogue modelling. Its primary role is to determine the appropriate abstract response, commonly referred to as the "dialogue action". Traditional DPL meth

dialogue policy learning abstract response edge cases jotr reinforcement learning

发现论文，激发创造

对话行为感知 Transformer 用于对话策略学习

利用预训练语言模型的纯文本知识，加速强化学习代理的学习速度，并通过探索对话行为空间最大化长期累积奖励，提出了一种对话行为感知的变压器编码器（DaTrans）。该模型通过在模拟器和人类评估中的验证展示了其有效性和高效性。

Sep, 2023

动态对话策略的连续强化学习

为了解决任务导向的对话系统在学习新知识时需要不断适应的问题，我们提出了一种动态对话策略变换器 (DDPT)，它是一种能够无缝集成新知识、处理大状态空间并在暴露到未见过的领域时获得重要的零 - shot 性能的新的动态架构。我们提供一个不间断的学习算法、基线架构和度量标准来评估不间断学习模型。

Apr, 2022

面向任务导向的对话策略学习中强化学习方法的最新进展和挑战综述

本文综述了基于强化学习的对话策略学习中的最新进展和挑战，并将近期方法归类为强化学习的基本元素，以期为未来的对话管理研究提供一些启示。

Feb, 2022

奖励关键之处：面向任务的对话的逐步强化学习

通过引入逐步奖励机制，我们的方法在理解和生成任务中对强化学习进行了扩展，实现了平衡优化，提高了任务导向对话系统的性能，并在包括 MultiWOZ2.0、MultiWOZ2.1 和 In-Car 在内的三个广泛使用的数据集上取得了新的最先进结果。与现有模型相比，我们的方法还展现了在低资源环境中的出色少样本能力。

Jun, 2024

基于工作流的任务导向对话生成

本文提出了一种基于强化学习的新框架，用于生成与给定工作流程对齐的对话回复，通过结合 ComplianceScorer 评估指标和交互式采样技术的 RL 优化过程，评估结果表明该框架在任务导向对话系统上优于基线方法，并能生成遵循预定工作流程且自然流畅的对话回复。

Nov, 2023

通过对话策略和语言生成之间的替代优化构建面向任务的视觉对话系统

本研究提出一种新的框架，可有效学习任务导向视觉对话系统的最优对话策略，并在 GuessWhich 任务中实现了最新的任务完成和对话质量表现。

Sep, 2019

行动前先思考：将语言推理与行动交错的统一策略

提出了一种将 Transformer 模型与强化学习相结合，并在 BabyAI 任务上表现出色的新方法，其中模型输出既包含动作，也包含文本描述。

Apr, 2023

分布式结构化演员 - 评论家强化学习在通用对话管理中的应用

本篇论文主要探讨针对特定任务的语音对话系统，重点在于如何通过部分可观察的马尔可夫决策过程来制定对话策略，并以神经网络为函数逼近器的方式，探索深度强化学习算法在对话决策中的应用。

Sep, 2020

DialogBERT: 通过学习恢复和排序话语生成具有话语意识的响应

本文提出了 DialogBERT，这是一种新型的对话响应生成模型，通过使用分层 Transformer 架构和两个训练目标，包括掩码语调回归和分布式语调顺序排名来提高先前基于 PLM 的对话模型，在三个多轮对话数据集上进行实验证明，相比于 BART 和 DialoGPT，DialogBERT 在定量评估方面表现出色，并且在人类评估中证明，DialogBERT 比基线模型生成的响应更连贯、信息量更大，并更加接近人类表现。

Dec, 2020

对话生成的深度强化学习

本研究基于强化学习，建立一个可生成更多交互式回复、更长且不重复的对话、更容易回答问题的聊天机器人的神经对话模型。

Jun, 2016