- 基于大型语言模型的高效强化学习搜索
通过将大型语言模型与 MEDIC 框架结合,我们的研究旨在改善强化学习的样本效率,特别针对稀疏奖励领域和随机转换等问题,以提高 PPO 和 A2C 强化学习算法的样本复杂度,并为进一步探索如何利用这些模型增强现有强化学习流程铺平道路。
- 利用大型语言模型启发增强 Q-Learning
LLM-guided Q-learning combines the advantages of large language models and Q-learning without introducing performance bi - 带有平滑对数障碍函数的有约束强化学习
我们提出了一种新的约束强化学习方法,称为 CSAC-LB(具有对数势函数的约束软 Actor-Critic)。通过将线性平滑对数势函数应用于附加的安全评论家,它实现了适应性政策学习的惩罚,并减轻了对数势函数方法应用中已知的数值问题,从而在几 - AnySkill: 学习互动型代理程序的开放词汇物理技能
通过开放词汇物理技能学习,在物理基于运动生成中,使用传统的基于物理的方法往往难以适应新的情景。为了解决这个限制,我们提出了一种名为 AnySkill 的层次化方法,该方法通过遵循开放词汇指令学习物理上可行的相互作用。我们的方法首先通过模仿学 - AAAI马尔科夫决策过程中的委托 - 代理奖励塑造
两个参与方之间的代理问题会给利益产生冲突。本文探讨了奖励设计在预算限制下如何提高委托方效用,研究了一个两人博弈模型中的马尔科夫决策过程,结果表明该问题的求解是 NP 难的,但我们提供了针对随机树和具有有限时间跨度的确定性决策过程的多项式逼近 - 实时策略游戏中的奖励塑造以提高学习能力
我们研究了奖励塑型在实时策略的夺旗游戏中提高强化学习性能的效果,并证明适当设计的奖励塑型函数能显著提高玩家的性能和训练时间。
- 通过奖励塑造在强化学习中保证控制需求
在满足控制问题中的规范和追踪要求的过程中,需要通过强化学习来保证所获得的策略在部署之前能够满足必要的性能和稳定性准则,如期望的调整时间和稳态误差。基于这种必要性,本文提出了一组结果和系统奖励设计过程,可以确保最优策略生成的轨迹与指定的控制要 - 关于马尔可夫决策过程的奖励结构
马尔可夫决策过程在强化学习中起着关键作用,本研究探讨了多种与强化学习相关的 ' 成本 ',研究了策略评估的样本复杂度,并开发了一种具有实例特定误差界限的新估计器;在在线遗憾最小化设置下,通过引入基于奖励的常量和基于潜力的奖励塑形技术,提供了 - 基于磁场的奖励设计器用于目标导向式强化学习
本文提出了一种基于磁场的奖励制形式,结合了非线性和非各向同性分布,将传统奖励制应用于目标驱动的强化学习任务,得到更好的样本效率和学习性能。根据磁铁所产生的磁场强度建立奖励函数,并通过学习二次潜在函数以实现最优策略不变性。实验结果表明,相对于 - 时间差异强化学习动力学
本研究使用统计物理学的理论,研究了具有线性函数逼近器的时间差分学习的典型学习曲线。通过对小型马尔可夫决策过程进行验证,发现随机半梯度噪声导致价值误差的显著平台现象,并分析了如何使用学习率退火和奖励塑形等策略促进学习动态和平台的优化。
- MM利用奖励塑形模仿学习方法合成生成类似人类数据以解决序列决策问题
本研究通过结合奖励塑造和模仿学习算法,提出了一种生成人工智能系统中类似于人类决策数据的新算法,证明使用这种合成的数据可以成功解决具有逐步增加难度的计算机游戏中的决策任务,并且与人类表现几乎无差异。
- 通过奖励塑造将上下文信息嵌入多智体学习中:以 Google 足球为例的案例研究
本研究旨在通过奖励塑形方法来解决多智能体环境下 MARL 算法以及稀疏奖励信号产生的挑战,在 Google Research Football 环境中实验结果表明,奖励塑形方法对于训练多智能体环境下的 RL 算法是有用的。
- AAAI通过奖励塑造在基于情节的强化学习中利用多重抽象
研究提出了一种基于奖励设计的强化学习算法,通过使用层次结构的抽象模型,将抽象层级中的解决方案用于指导更复杂领域的学习,从而提高了学习效率且具有实际应用价值。
- 使用策略和奖励塑形的无人机控制强化学习
本研究采用奖赏塑形和策略塑形技术同时训练 RL 智能体,以控制无人机;结果表明,与仅使用基于策略的方法训练智能体相比,使用两种技术同时训练的智能体获得了较低的回报,但训练期间达到了更低的执行时间和更少的离散度。
- AAAI熵正则化强化学习中利用之前的奖励塑形和组合方案
本文提出了一种针对熵正则化强化学习中的奖励塑形和任务组合的方法,可以利用先前的解决方案帮助智能体快速解决新问题并加快学习速度。
- 卷积神经网络在奖励塑造中的应用
本文提出了一种用 CNN 进行的潜在基于价值的奖励塑造机制 VIN-RS,该方法基于 Hidden Markov Model 的信息传递机制对 CNN 进行训练,并通过自我学习的卷积过滤器估计环境的转移矩阵,实现了有效的潜在函数的构建。通过 - 强化学习中考虑可达性的拉普拉斯表示
该研究论文介绍了一种基于 Laplacian Representation 并能够有效解决 inter-state reachability 问题的任务无关状态表示方法 RA-LapRep, 该方法能够显著提高 reward shaping - 受限马尔科夫决策过程中的安全策略改进
该研究提出了一种解决增强学习自动合成策略的算法,该算法通过解决奖励形状设计和安全策略更新等挑战来实现,同时使用基于模型的 RL 算法来有效地利用我们收集的数据,并在标准控制基准中展示了其有效性和鲁棒性。
- 基于 REINFORCE 推荐算法的用户满意度奖励塑造
本研究提出了一种基于强化学习的推荐方法,通过联合训练一个策略网络和一个满意度插补网络,利用奖励设计来驱动用户满意度,以帮助解决评估、稀疏性和训练的挑战。
- 线性奖励塑造的乐观好奇探索和保守利用
该研究探讨了在基于价值的深度强化学习过程中的奖励构造,并在此基础上提出了正向奖励构造可以实现保守型利用、负向奖励构造则有助于优化探索等观点,建立了一套实现快速收敛的解决方案。