通过在线收集人类反馈数据,使用离线强化学习算法训练对话模型,识别并融合对话线索来产生更好的对话。
Oct, 2020
利用自然语言推断技术探讨生成持续一致人格的对话,提出基于强化学习框架使用从响应 - 人格对得到的自然语言推断信号作为奖励来生成至关一致的对话,并通过对话者的关注机制编码器 - 解码器来生成基于人格的响应,使用对抗训练的自然度模块和基于自然语言推断的一致性模块来评估生成的响应的一致性,实验表明该方法优于强大的生成基线,特别是在生成响应的人格一致性方面。
Nov, 2019
本文通过引入强化学习(RL)进行用户交互训练,实现了一个更加人性化的劝说对话系统,并成功在捐赠劝说任务中取得了优于先前最先进的对话模型的表现。
Dec, 2020
我们探讨了如何通过 Rational Speech Acts 框架的方法,为已有的对话代理赋予公共自我意识的能力,以强化其一致性并减少矛盾,同时探索了如何在对话中提高背景一致性。
Apr, 2020
通过增加奖励机制,使用强化学习方法来提高响应与用户角色特征事实之间的一致性,从而促进神经模型的响应生成能力。
该论文提出了一种新的检索到预测范例来解决个性化聊天机器人中 OOP 问题,并通过采用实际人物进行后验转换来进一步缓解训练和推理之间的差距。并通过 IT-ConvAI2 和 ConvAI2 的广泛实验表明,我们提出的模型在自动指标和人类评估方面都取得了可观的改进。
Aug, 2022
研究通过离线强化学习方法在对话响应生成中最大化序列级目标,对多个数据集、模型和度量进行全面评估,离线强化学习相比于教师强制训练能够明显提高性能却不会导致训练不稳定或牺牲实际训练预算。
Jul, 2023
本文旨在解决用强化学习为动力的聊天机器人中的在线探索困难问题。作者使用了针对对话规划的多种 RL 算法,利用 MoE-LM 对话模型的结构,通过缩小行动空间并提高 RL-DM 的效能来展示这些算法在开放领域对话中的有效性。
Feb, 2023
通过离线模仿学习和状态转移信息的利用,结合正则化技巧进行有效地优化,可使模型更好地完成基于对话系统的任务。
May, 2023
本篇论文提出了一种离线强化学习方法,通过利用多样化的人机交互行为,在不需要在线训练或高保真模拟器的情况下,学习一些对人类行为产生积极影响的策略,从而提高人类在合作任务中的表现。该方法成功在 Overcooked 协作基准域中提高了人类的表现。
Mar, 2023