- ChatPCG: 大型语言模型驱动的程序化内容生成中的奖励设计
论文提出了 ChatPCG,一个基于大型语言模型驱动的奖励设计框架,它利用人类级洞察和游戏专业知识,通过自动化生成奖励来满足特定游戏功能的需求,并与深度强化学习整合,展示了其在多人游戏内容生成任务中的潜力。研究结果表明,该模型具备理解游戏机 - 马尔可夫决策过程的鲁棒奖励设计
回报设计问题研究了领导者与追随者之间的相互作用,其中领导者通过修改追随者的奖励函数来塑造追随者的行为以最大化领导者的回报。现有的奖励设计方法依赖于准确模拟追随者对奖励调整的反应,而这可能对模型不准确性敏感。为了解决这个敏感性问题,我们提出了 - 强化学习中奖励函数的信息性
设计具有信息量的奖励函数以加速学习代理的收敛,并通过提出一种新的奖励信息量准则来适应性地设计代理奖励。实验证明了提出的奖励信息量准则在自适应设计代理奖励方面的有效性。
- 外部奖励的软 Q 模仿学习和判别器
利用鉴别器的软 Q 模仿学习算法(DSQIL)结合通过对抗逆强化学习的奖励函数,对小规模样本数据进行高效、鲁棒的模仿学习与训练。
- Eureka:通过编码大型语言模型实现与人类水平的奖励设计
Eureka 是一个由 LLMs 支持的人类级奖励设计算法,通过利用 GPT-4 等最先进的 LLMs 的无需提示、代码编写和条件改进能力,进行奖励代码的进化优化,从而生成可用于强化学习的复杂技能获取奖励函数。在一个多样的包含 10 个不同 - 深度强化学习基于层次性弱偏好反馈
通过排列的方式学习奖励函数,本研究提出了一个新的强化学习框架 - HERON,通过比较轨迹并使用决策树进行优先级排序来训练基于偏好的奖励模型,从而在处理复杂任务时减少了人工成本同时提高了性能。
- 由时序逻辑信号规范引导的多智能体强化学习
本论文提出了一种新的基于 STL 模板的多智能体强化学习算法以指导奖励设计,实验证明相比没有 STL 指导的情况下,算法能够显著提高多智能体系统的性能和安全性。
- 离线强化学习中的生存本能
研究表明,线下强化学习算法具有一定的鲁棒性,即使使用错误的奖励标签经过训练,也能产生表现良好和安全的策略。该现象归功于线下 RL 算法中的悲观主义和常见数据收集实践中的某种偏见之间的相互作用,该特性在解释现有离线 RL 基准结果和创建未来基 - ICLR使用语言模型进行奖励设计
本文探讨以自然语言接口为代理奖励函数来简化奖励设计,在强化学习框架下利用大型语言模型对用户目标进行培训,实现智能体与用户目标的对齐,并在 Ultimatum 游戏、矩阵游戏和 DealOrNoDeal 谈判任务中优于通过监督式学习学习的奖励 - 故事塑造:通过故事教授智能体类人行为
本研究提出了一种名为 Story Shaping 的技术,能够通过故事来表达暗示性过程知识,让强化学习智能体从范例故事中推断知识,并在执行行动时给予内部奖励,以使其当前的环境符合推断故事世界的要求
- 使用层次奖励函数指定行为偏好
考虑在任务中以达到期望状态和避免不良状态的形式下,建议采用严格偏序的政策空间、环境独立的层次化奖励结构以及 Pareto 最优性的奖励函数设计,经实验证明其具有期望行为和快速学习的能力。
- 通过学习动机一致的内在回报自动设计奖励
本文提出了一种基于动机的奖励设计方法,自动生成目标一致的内在奖励,以最大程度地增大期望的累积外在奖励,该方法在处理延迟奖励、探索和信用分配问题方面优于现有方法。
- ACL语言沟通作为 (反向) 奖励设计
本文提出了奖励设计的推广原则作为语言交流的基础,包括概括未知未来状态的线性赌博设置、演讲者模型和实用主义听众对演讲者潜在视角和奖励的联合推断。
- 通过奖励设计实现可接受的政策教学
本文针对给定一组可采用政策,探讨了奖励设计策略的问题,考虑通过改变原始奖励函数,从而使得任何一个新奖励函数下的最优策略被保证是可采用的;通过引入一个代理问题,提出了一种轻量级的算法,使其能够在复杂度受限的情况下寻找符合要求的最优解。
- 自动驾驶奖励(误)设计
本文旨在解决奖励设计过程中常见误区的问题,提出了 8 项简单的方法来鉴别奖励函数的缺陷,并对强化学习中的自动驾驶任务的奖励函数进行了分析,揭示了奖励设计的普遍缺陷。最后,探讨了自适应奖励函数设计的可能方向。
- 针对交通信号控制的强化学习诊断
本文通过经典交通理论的视角重新审视强化学习在交通信号控制中的应用,提出了 LIT 方法,使用简单的状态和奖励设计达到最优解,实验结果显示该方法明显优于现有交通信号控制方法。