通过具有噪声标签的课程学习来探索强化学习中的平衡挑战

Dec, 2023

通过具有噪声标签的课程学习来探索强化学习中的平衡挑战

Exploring Parity Challenges in Reinforcement Learning through Curriculum Learning with Noisy Labels

Bei Zhou, Soren Riis

TL;DR在战略游戏中应用强化学习，尤其是那些具有平衡挑战的游戏，通过模拟学习过程和噪声标签结构构建的课程学习框架，探讨神经网络在不同复杂游戏中的适应和发展过程。实证研究发现，即使带有最小的标签噪声，也会显著影响神经网络识别有效策略的能力，随着游戏复杂性的增加，这一困难将进一步加剧。因此，需要开发针对嘈杂评估所带来困难的强化学习训练的先进方法，不仅可以提高神经网络在具有平衡要素的战略游戏中的表现能力，还可以扩展强化学习系统在复杂环境中的韧性和效率。

Abstract

This paper delves into applying reinforcement learning (RL) in strategy games, particularly those characterized by parity challenges, as s

发现论文，激发创造

深度强化学习代理的进化策划课程学习

本文提出了一个针对深度强化学习代理的新的训练循环，采用进化生成器进行进化过程生成来构建训练课程，结果表明相较于没有导向的输入，进化课程的训练优化和泛化能力均有所提高。

Jan, 2019

重复博弈中预测人类互动的神经网络

使用神经网络预测人类玩家在重复战略互动中的行为，证明神经网络可以通过历史记录的序列预测未来行为，同时比行为经济学模型有更准确的预测和更高的经济价值。

Nov, 2019

深度强化学习的自动课程学习：简要调查

本文介绍了自动课程学习（ACL）的相关文献，并对当前状态进行了概述，旨在促进现有概念的交叉和新思想的出现。ACL是深度强化学习成功的中坚力量，可用于改善样本效率和渐进性能，组织探索，鼓励泛化或解决稀疏奖励问题，等等。

Mar, 2020

一阶逻辑中的神经符号强化学习

为了在文本角色扮演游戏中实现快速收敛和可解释的知识表示，我们提出了一种新的基于逻辑神经网络的强化学习方法，该方法可以从文本观察中提取一阶逻辑事实并使用逻辑算子训练策略，实验结果表明该方法比其他基于神经元符号框架的方法更快收敛。

Oct, 2021

公正博弈：强化学习的挑战

本文介绍了 AlphaZero 和 MuZero 的算法，探究了它们的局限性，并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题，并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。

May, 2022

持续深度强化学习中的可塑性丧失

探讨在Atari 2600游戏环境中使用基于价值的强化学习方法在面对不同程度的非随机性（non-stationarity）时，其所采用的策略的丧失学习能力现象，通过对不同维度条件下的实验结果，发现这种现象与网络中激活函数的稀疏性相关，本文提出的嵌入化ReLU(CReLUs)激活函数可以有效提高在环境变化中的持续学习能力。

Mar, 2023

高维度策略学习的泛化动态的强化感知器

提出了一种可以捕捉多种学习协议的RL可解高维模型，并将其典型动态推导为一组封闭形式ODE，我们推导出了学习率和任务难度的最优计划，同时还展现了丰富的行为，包括稀疏奖励下的延迟学习;因奖励基线的不同而产生的各种学习模式;以及由奖励严格性驱动的速度-准确性权衡。与“Bossfight”的Procgen游戏和Arcade Learning Environment游戏“Pong”的变体的实验还表明，在实践中存在速度-准确性权衡问题。

Jun, 2023

使用子博弈课程学习加速多智能体零和博弈中的强化学习

本文介绍了一个基于子博弈课程学习框架（Subgame Automatic Curriculum Learning，SACL）的新算法，通过重置智能体到先前访问过的状态来加速学习，使用 SACL 可以生成比基线更强的策略，并且在 hide-and-seek quadrant 环境中使用了比 MAPPO 自我对抗训练只多一半的样本，得出了四个新的发展阶段。

Oct, 2023

跨两个领域利用无标签领域数据的离线增强学习

通过开发一种融合正负无标签学习的离线强化学习算法，该研究论文针对域未标记数据的挑战，有效地识别领域并学习优于基准的策略，以实现域未标记数据的有效利用。

Apr, 2024

基于动态规划的模型预测控制和强化学习的统一框架

本文描述了一个将近似动态规划(DP)、模型预测控制(MPC)和强化学习(RL)连接起来的新概念框架，其中通过牛顿法的强大机制，离线训练和在线应用算法相互独立地设计，协同运作。这一理论架构为强化学习和模型预测控制之间的文化差距提供了桥梁，并对模型预测控制中的一些基本问题提供了新的见解。

Jun, 2024