离线混合专家对话管理强化学习
通过使用强化学习进行交互式对话的目标导向任务,本研究提出利用大型语言模型生成可能的交互示例,再通过强化学习算法优化这些示例,以实现更优化的交互能力,从而在教学和偏好引导等不同目标导向对话任务中实现了最新的性能。
Nov, 2023
使用大型语言模型作为强化学习代理以解决对话式强化学习问题,通过提出的提示技术,演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略,并通过两个具体案例研究展示了该方法的实用性。
Apr, 2024
本研究利用强化学习技术结合最先进的自然语言理解模型创造了一个实时的对话系统,并在使用谷歌智能助手的实验中,使用众包数据进行训练,显著超越了强化模型,证明其对于自然人对话有较高的开放性和可行性。
Jul, 2022
本文旨在提供用于对话模型开发与评估的一组具有挑战性的模拟环境,其中包括常用的参数算法和非参数算法,并使用公共 PyDial 工具包实现了这些环境和策略模型,以建立一个实验测试平台并促进可重现性的实验。
Nov, 2017
通过利用大型语言模型的及时反馈,Lafite-RL(语言代理反馈互动式强化学习)框架使强化学习智能体能够有效地学习机器人任务,实验结果表明,Lafite-RL 智能体在自然语言的简单提示设计下,通过大型语言模型的引导在学习效率和成功率方面优于基准模型,凸显了大型语言模型所提供的奖励的功效。
Nov, 2023
通过将强化学习与大型语言模型结合,研究了在开放性文本学习环境中增强代理的泛化能力,提出了三种代理类型:基于强化学习的代理、基于大型语言模型的代理和融合两者的混合代理,以提高代理的性能和泛化能力,并通过 PharmaSimText 提供的基准测试验证了研究成果。结果表明,基于强化学习的代理在任务完成方面表现出色,但在提问诊断问题方面有所欠缺;相反,基于大型语言模型的代理在提问诊断问题方面表现较好,但在完成任务方面表现较差;而混合的大型语言模型辅助强化学习代理能够克服这些限制,凸显了将强化学习和大型语言模型相结合在开放性学习环境中开发高性能代理的潜力。
Apr, 2024
本文提出使用分层强化学习(VHRL)框架对基于变分序列模型的话语级嵌入进行策略梯度调整的新方法,以优化开放域对话生成。使用自我对弈和强化学习优化人类中心的会话指标,与包括变形金刚在内的最先进的对话模型相比,证明我们的方法在人类评估和自动指标方面提供显着的改进。
Sep, 2019