外部模型驱动智能体：增强环境采样的强化学习

Jun, 2024

外部模型驱动智能体：增强环境采样的强化学习

External Model Motivated Agents: Reinforcement Learning for Enhanced Environment Sampling

Rishav Bhagat, Jonathan Balloch, Zhiyu Lin, Julia Kim, Mark Riedl

TL;DR提出了一种利用兴趣领域和通过兴趣领域进行行为塑造的强化学习算法框架，用于在变化环境中提高外部模型的适应效率。通过测试结果表明，该方法在效率和性能方面优于基准算法。

Abstract

Unlike reinforcement learning (RL) agents, humans remain capable multitaskers in changing environments. In spite of only experiencing the world through their own observations and interactions, people know how to balance focusing on tasks with learning about how changes may affect their

reinforcement learning multitasking adaptation efficiency interest fields behavior shaping

发现论文，激发创造

加速强化学习的人类启发式框架

本文提出了一种基于人类启发的框架以提高采样效率，其中通过逐步提供简单但相似的任务来适应复杂的强化学习任务，并且使用任何转移学习方法来减少样本复杂性而不增加计算复杂性，实验表明该框架能够在优化问题方面表现出良好的性能。

Feb, 2023

学习如何激励其他学习智能体

本文提出了在多个智能体环境中，为每个 RL 智能体提供直接向其它智能体给予奖励的能力，并通过学习后的激励函数影响其它智能体，从而达到协作的目的。实验结果显示，在 challenging general-sum Markov games 中，相对于标准 RL 和对手建模代理，这种方法在寻找最优的分工方面取得了巨大的成功。

Jun, 2020

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

多智能体强化学习实现新兴社交学习

该论文研究在多智能体环境下，独立强化学习代理人是否可以学习使用社会学习来提高性能，并发现通过在训练环境中强加约束条件和引入基于模型的辅助损失，可以获得广义的社会学习策略，使代理人能够发现不是通过单个代理人训练获得的复杂技能并且通过从新环境的专家那里获取线索在线适应新环境。

Oct, 2020

知识驱动强化学习

本文提出一种名为知识引导强化学习（KGRL）的框架，该框架采用一种基于嵌入式的注意机制，可以在训练和推理阶段中灵活地改编、重新排列和重复使用外部知识，使得 RL 智能体更受社会接受，并在离散和连续动作空间的任务中展现出更高的样本效率和可解释性。

Oct, 2022

使用离线强化学习学习影响人类行为

本篇论文提出了一种离线强化学习方法，通过利用多样化的人机交互行为，在不需要在线训练或高保真模拟器的情况下，学习一些对人类行为产生积极影响的策略，从而提高人类在合作任务中的表现。该方法成功在 Overcooked 协作基准域中提高了人类的表现。

Mar, 2023

利用人类反馈的强化学习来提升多模态交互代理

使用人类反馈的强化学习方法，通过记录人类与模拟世界中的代理进行交互，构建能够自然交互和学习的代理行为，有效提高了代理在复杂领域中的行为表现。

Nov, 2022

无监督环境设计中有效的多样性

利用强化学习的自适应课程和基于新颖距离测量的方法训练代理来适应不同的环境设计，与其他无监督环境设计方法相比，证明了本方法在文献中使用的三个不同基准问题的多样性和有效性。

Jan, 2023

来自真实多智能体演示的强化学习中的自适应动作监督

本文提出了一种自适应动作监督的 RL 方法，通过动态时间规整的最小距离选择 RL 真实世界演示中的动作，使得 RL 模型能够在网络空间获得回报

May, 2023

现实世界中基于内在动机的人机交互强化学习

本文提出了一种基于内在动机的强化学习框架，通过预测模型和动作条件获得内在动机驱动下的奖励，并通过与人的互动学习类似于人类的社交技能，结果表明该机器人不仅获得了人类般的社交技能，而且在测试数据集上做出了更符合人类的决策。

Apr, 2018