通过自然语言引导,我们对深度强化学习技术进行了改进,实现了对 StarCraft II 等任务的有效训练,并与传统的奖励塑形方法相比,取得了更好的性能表现。
Oct, 2019
本研究基于强化学习,建立一个可生成更多交互式回复、更长且不重复的对话、更容易回答问题的聊天机器人的神经对话模型。
Jun, 2016
本文介绍了一种使用自然语言帮助强化学习泛化至未知环境技术的方法,使用编码器 - 解码器网络来学习自然语言行为描述与状态 - 动作信息之间的关联,并使用改进的策略塑造算法来指导智能体探索,从而提高其在未知环境中的学习能力。通过对经典游戏 Frogger 的评价,表明我们的改进策略形态算法在优化学习上优于 Q-Learning 算法和基线策略形态算法。
Jul, 2017
该文提出了一种通过注入领域知识的方式来改善基于文本游戏中的智能代理的实现过程,并考虑了多种不同的注入策略,包括知识图谱和输入编码策略的增强,实验结果在 ScienceWorld 文本游戏环境中得到证明。
May, 2023
本文探讨了使用增强学习的方式,通过与人类交互并接受其反馈来提高对话代理的能力,模拟了在人工环境中的各种学习情况,介绍了适用于此类学习的模型,并通过机械土耳其实验验证了此方法。
Nov, 2016
本研究利用强化学习技术结合最先进的自然语言理解模型创造了一个实时的对话系统,并在使用谷歌智能助手的实验中,使用众包数据进行训练,显著超越了强化模型,证明其对于自然人对话有较高的开放性和可行性。
Jul, 2022
使用大型语言模型作为强化学习代理以解决对话式强化学习问题,通过提出的提示技术,演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略,并通过两个具体案例研究展示了该方法的实用性。
Apr, 2024
本文旨在解决用强化学习为动力的聊天机器人中的在线探索困难问题。作者使用了针对对话规划的多种 RL 算法,利用 MoE-LM 对话模型的结构,通过缩小行动空间并提高 RL-DM 的效能来展示这些算法在开放领域对话中的有效性。
Feb, 2023
使用自然语言指令进行奖励塑形,在复杂的 Atari 游戏中,比标准强化学习算法成功完成任务的次数平均提高了 60%,并且可以无缝集成到任何标准强化学习算法中。
Mar, 2019
通过使用强化学习进行交互式对话的目标导向任务,本研究提出利用大型语言模型生成可能的交互示例,再通过强化学习算法优化这些示例,以实现更优化的交互能力,从而在教学和偏好引导等不同目标导向对话任务中实现了最新的性能。
Nov, 2023