强化学习中奖励函数的信息性

Feb, 2024

Informativeness of Reward Functions in Reinforcement Learning

Rati Devidze, Parameswaran Kamalaruban, Adish Singla

TL;DR设计具有信息量的奖励函数以加速学习代理的收敛，并通过提出一种新的奖励信息量准则来适应性地设计代理奖励。实验证明了提出的奖励信息量准则在自适应设计代理奖励方面的有效性。

Abstract

reward functions are central in specifying the task we want a reinforcement learning agent to perform. Given a task and desired optimal behavior, we study the problem of designing informative reward functions so

reward functions reinforcement learning informative reward functions reward design adaptive reward informativeness criterion

发现论文，激发创造

感知奖励函数

该论文研究了使用感知奖励函数的方法，以提供视觉任务的描述，使代理能够从基于原始像素而不是内部参数的奖励中进行学习。

Aug, 2016

信息内容探索

稀疏奖励环境对于强化学习代理是具有挑战性的，本文提出了一种新的内在奖励，系统地量化探索行为并通过最大化代理路径的信息内容来促进状态覆盖，通过与其他探索性内在奖励技术（即好奇心驱动学习和随机网络蒸馏）进行比较，证明了该信息理论奖励具有高效探索，其在包括 Montezuma Revenge 在内的各种游戏中的表现优于其他方法。最后，我们提出了一种在离散压缩的潜在空间中最大化信息内容的扩展方法，提高了样本效率并推广到连续状态空间。

Oct, 2023

快速学习的奖励设计

研究如何选择奖励函数以提高强化学习的学习速度，提出基于状态的奖励设计原则，并提出线性规划算法以最大化行动差距和最小化主观贴现；通过在表格环境中使用 Q 学习算法进行实验，表明设计奖励遵循一定的原则，如逐步增加接近目标奖励，可以加速学习。

May, 2022

无监督感知奖励用于模仿学习

利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数，以便在真实世界环境中使用强化学习智能体执行任务。

Dec, 2016

学习内在奖励能够捕捉什么？

研究探讨奖励函数是否可以成为有用的学习知识中心，提出了一种可扩展的元梯度框架来学习多次体验中有用的内在奖励函数。通过实验证明，学习奖励函数可以捕获关于长期探索和开发的知识，并且可以应用于其他类型的智能体和环境动态的变化。

Dec, 2019

互信息状态内在控制

本文提出了一种基于 Intrinsic motivation 的强化学习方法，其奖励函数被定义为智能体状态与周围状态之间的互信息，实现了比以前的方法更好的效果，包括在没有任何任务奖励的情况下首次完成了 pick-and-place 任务。

Mar, 2021

多智能体强化学习中的信息设计

这项研究探索了多个强化学习代理中的信息设计问题，提出了 Markov 信号博弈的概念，根据信号梯度和扩展服从约束开发算法，有效地解决了非稳定性和信息被忽略的挑战，并在各种混合动机任务中提供了更深入的计算经济学见解。

May, 2023

主动反向奖励设计

通过与用户交互，选择最能反映真实回报的问题来迭代 AI 代理的奖励函数设计，我们的方法优于 Inverse Reward Design，且可以推断非线性奖励函数，包括可解释的线性奖励函数。

Sep, 2018

信息导向的强化学习奖励学习

使用基于贝叶斯模型的信息导向方法进行强化学习，通过最大化不同策略间回报差异的信息增益来选择专家反馈以提高政策性能。

Feb, 2021

通过奖励函数优化进行行为对齐

通过使用双层目标的新框架，将辅助奖励与环境的主要奖励相结合，我们提供了一种集成设计者指定的启发式方法的鲁棒且有原则的方式，以解决现有方法的主要缺点，即使给出不对齐或指定不良的辅助奖励函数，也能始终导致高性能解决方案。

Oct, 2023