利用离线强化学习构建具有一致性个性的对话代理

EMNLPOct, 2023

利用离线强化学习构建具有一致性个性的对话代理

Building Persona Consistent Dialogue Agents with Offline Reinforcement Learning

Ryan Shea, Zhou Yu

TL;DR通过使用离线强化学习框架提高对话系统的人物一致性，结合监督学习的现有数据训练和奖惩特定话语，引入简化的重要性采样方法，可以改善社交聊天机器人的人物一致性和对话质量。

Abstract

Maintaining a consistent persona is a key quality for any open domain dialogue system. Current state-of-the-art systems do this by training agents with supervised learning or online reinforcement learning (RL). H

persona consistency dialogue system supervised learning offline rl framework importance sampling

发现论文，激发创造

离线强化学习下的以人为中心的对话训练

通过在线收集人类反馈数据，使用离线强化学习算法训练对话模型，识别并融合对话线索来产生更好的对话。

Oct, 2020

利用自然语言推理生成人物一致的对话

利用自然语言推断技术探讨生成持续一致人格的对话，提出基于强化学习框架使用从响应 - 人格对得到的自然语言推断信号作为奖励来生成至关一致的对话，并通过对话者的关注机制编码器 - 解码器来生成基于人格的响应，使用对抗训练的自然度模块和基于自然语言推断的一致性模块来评估生成的响应的一致性，实验表明该方法优于强大的生成基线，特别是在生成响应的人格一致性方面。

Nov, 2019

通过强化学习和人类示范来减少说服对话中的重复和不一致性

本文通过引入强化学习（RL）进行用户交互训练，实现了一个更加人性化的劝说对话系统，并成功在捐赠劝说任务中取得了优于先前最先进的对话模型的表现。

Dec, 2020

我会听起来像我自己吗？通过实践自我意识提高对话中的人物形象一致性

我们探讨了如何通过 Rational Speech Acts 框架的方法，为已有的对话代理赋予公共自我意识的能力，以强化其一致性并减少矛盾，同时探索了如何在对话中提高背景一致性。

Apr, 2020

提高回复和角色真实事实之间的事实一致性

通过增加奖励机制，使用强化学习方法来提高响应与用户角色特征事实之间的一致性，从而促进神经模型的响应生成能力。

Apr, 2020

通过角色扩展来提高对话中的人格一致性

该论文提出了一种新的检索到预测范例来解决个性化聊天机器人中 OOP 问题，并通过采用实际人物进行后验转换来进一步缓解训练和推理之间的差距。并通过 IT-ConvAI2 和 ConvAI2 的广泛实验表明，我们提出的模型在自动指标和人类评估方面都取得了可观的改进。

Aug, 2022

离线强化学习在对话回复生成中的有效性

研究通过离线强化学习方法在对话响应生成中最大化序列级目标，对多个数据集、模型和度量进行全面评估，离线强化学习相比于教师强制训练能够明显提高性能却不会导致训练不稳定或牺牲实际训练预算。

Jul, 2023

离线混合专家对话管理强化学习

本文旨在解决用强化学习为动力的聊天机器人中的在线探索困难问题。作者使用了针对对话规划的多种 RL 算法，利用 MoE-LM 对话模型的结构，通过缩小行动空间并提高 RL-DM 的效能来展示这些算法在开放领域对话中的有效性。

Feb, 2023

离线监督正则化的方式复制人类复杂对话策略

通过离线模仿学习和状态转移信息的利用，结合正则化技巧进行有效地优化，可使模型更好地完成基于对话系统的任务。

May, 2023

使用离线强化学习学习影响人类行为

本篇论文提出了一种离线强化学习方法，通过利用多样化的人机交互行为，在不需要在线训练或高保真模拟器的情况下，学习一些对人类行为产生积极影响的策略，从而提高人类在合作任务中的表现。该方法成功在 Overcooked 协作基准域中提高了人类的表现。

Mar, 2023