基于交互的学习与行动包容性反馈
该研究提出了一种基于 Interaction Grounded Learning(IGL)范式的方法,用于处理不同用户通信方式的多样性,从而实现对不同用户的个性化奖励函数学习,以直接优化潜在的用户满意度,实验结果表明该方法的成功应用。
Nov, 2022
提出了一种信息理论方法,Variational Information-based IGL(VI-IGL),用于增强学习问题,在 Interaction-Grounded Learning(IGL)条件下改进了 RL 算法,并在多个强化学习设置中取得了性能上的改进。
Jan, 2024
通过与环境进行交互并观察依赖奖励的反馈,互动地接触学习(IGL)是一个强大的框架,该框架中学习者通过最大化无法观察的奖励来改进。我们研究了个性化奖励问题,并提出了第一个在实现性条件下能够证明高效的算法。通过分析,我们发现先前工作的阶跃函数估计器可能由于样本有限效应而无法控制地偏离。我们的解决方案是一种新颖的利普希茨奖励估计器,它低估了真实奖励并具有良好的泛化性能。基于该估计器,我们提出了两种算法,一种基于探索 - 利用,另一种基于反间隙加权。我们将 IGL 应用于从图像反馈和文本反馈中进行学习,这是在实践中出现的无奖励设置。实验结果突显了使用我们的利普希茨奖励估计器的重要性和算法的整体有效性。
May, 2024
基于 2D 迷宫世界,通过虚拟代理学习语言的模型,将语言的生成与理解与其他计算流程分离,从而成功地解决新单词出现的问题。模型可以解释人类可理解的中间输出结果,大幅优于其他五种比较方法。
Jan, 2018
该研究提出了 IGLU 来解决如何让交互式实体智能在协作环境中学习自然语言指令并解决任务的问题,其关键词包括互动式语言理解、实体智能、自然语言理解和生成、强化学习和人类环评。
May, 2022
本文提出一种名为知识引导强化学习(KGRL)的框架,该框架采用一种基于嵌入式的注意机制,可以在训练和推理阶段中灵活地改编、重新排列和重复使用外部知识,使得 RL 智能体更受社会接受,并在离散和连续动作空间的任务中展现出更高的样本效率和可解释性。
Oct, 2022
提出了一种交互式学习协议,可以通过口头描述训练实现请求响应的代理程序,相对于强化学习和模仿学习,这种协议提供了更多的反馈并提高了样本效率,通过实验和理论保证,证明了该方法的优势在于更加样本高效且具有竞争性的成功率。
Feb, 2021
本文介绍了一个交互式培训方法,以改进自然语言对话系统的视觉基础任务。培训过程中,共同的奖励函数引导着两个代理逐渐适应并合作完成任务,同时,该参数化奖励函数更新自身使训练效果得到了明显提高。虽然我们在训练过程中观察到了语言漂移问题,但我们提出使用奖励工程来提高生成对话的可解释性。此外,该研究结果表明评估目标为视觉对话任务时,需要比任务成功率更有语义相关性的评估标准。
Dec, 2017