开放环境中的持续演化奖励

May, 2024

Continuously evolving rewards in an open-ended environment

Richard M. Bailey

TL;DR在复杂的现实环境中，准确识别驱动实体行为的奖励是困难的，特别在环境改变时，由于目标和相关行为在内生地出现并动态更新。本文通过学习和期望的方式考察了一种用于动态更新奖励的候选算法 RULE。通过在简化的生态系统模拟实验中测试，该方法成功模拟了实体的行为调整，包括放弃最初有奖励但最终有害的行为、增强有益的行为，以及对环境中新物品的恰当反应。这些调整是通过持续学习中实体自身奖励函数的内生修改而发生的，无需外部干预。

Abstract

Unambiguous identification of the rewards driving behaviours of entities operating in complex open-ended real-world environments is diffic

identification rewards behaviours dynamic updating adaptive capabilities

发现论文，激发创造

在复杂环境中产生运动行为

本文研究增强学习中环境对复杂行为的促进作用，通过在多个不同环境下训练代理人，使用基于前进步伐的简单奖励函数，利用可扩展的策略梯度强化学习方法，代理人可以学会奔跑、跳跃、蹲下和转弯等复杂行为而无需明确的基于奖励的指导。

Jul, 2017

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

论学习奖励函数的脆弱性

本文研究了基于奖励学习的优化过程中，由于训练数据集的变化或奖励模型的设计问题导致重新学习变得困难的问题，强调了需要在文献中加入更多的基于重新训练的评估方法。

Jan, 2023

突发模型变化下的强化学习

提出了一种基于模型无关算法的强化学习问题解决方案，该算法通过与环境互动学习最优策略，并利用最快的变化检测算法来检测模型变化，从而获得长期折现奖励。

Apr, 2023

通过内在奖励调节行为：一项调查和实证研究

本文通过在一个类似于赌博机的并行学习测试平台中比较 14 个不同的回报机制，探索并比较不同的内在回报机制，重点突出了奖励和预测学习器之间的交互作用和内省预测学习器的重要性。结果表明，基于学习量的内在奖励可以生成有用的行为，如果每个学习器是内省的。

Jun, 2019

开放式世界中的学习课程

该论文介绍了一种称为无监督环境设计（UED）的方法，通过自动生成无限的训练环境序列或课程以匹配或超过真实世界的复杂性，从而实现深度强化学习代理在鲜有环境示例中表现出显著改进的鲁棒性和泛化能力，这些自生成的环境课程为不断生成和掌握自主设计的额外挑战的开放式学习系统提供了有希望的路径。

Dec, 2023

无监督感知奖励用于模仿学习

利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数，以便在真实世界环境中使用强化学习智能体执行任务。

Dec, 2016

演化奖励函数自动化强化学习

使用 AutoRL，一种进化层，通过将奖励调整视为超参数优化并训练一组 RL 代理来寻找最大化任务目标的奖励，使得评估了两个 RL 算法上四个 Mujoco 连续控制任务之后 AutoRL 在改善之前的工作基础之上表现出提升，复杂任务上的提升最大。

May, 2019

无参判别奖励的无监督控制

本文提出了一种基于无人监督学习的算法，用于训练代理达成感知确定目标，通过学习目标条件化策略和目标实现奖励函数，代理人能够在没有手工奖励或专业数据的情况下掌握环境的控制方法。

Nov, 2018

通过模拟出生和死亡来演化食物和动作的奖励

通过模拟进化奖励功能并研究环境条件如何影响进化奖励函数的形状，本研究发现奖励系统中存在对食物获取的正向奖励和对运动行为的负向奖励，但运动行为的奖励出现了两种模式：相当正向和稍微负向，并指出在贫瘠和有毒食物环境下，奖励为次要食物的进化不稳定，而对正常食物的奖励仍然稳定，这些结果证明了模拟环境和能量依赖的出生和死亡模型在奖励系统起源研究中的实用性。

Jun, 2024