本文介绍了在深度强化学习模型中添加安全层以确保多智能体控制问题的安全性的方法,该方法采用线性化单步转换动态的思想,并使用软约束解决了实施步骤中的不可行性问题,在保证软约束的约束满足性的基础上实现了学习过程中的安全控制。
Aug, 2021
本文研究深度强化学习在多智能体领域的应用,提出一种基于演员 - 评论家方法的适应性策略,可成功学习需要多智能体协作的复杂策略,并通过使用每个智能体的策略集进行训练,得到了更强大、更健壮的策略。在合作和竞争场景中,我们的方法相比现有方法能够发现各种物理和信息协调策略。
Jun, 2017
本论文将 Deep Q-Learning 算法应用于连续动作域,并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法,可在连续动作空间中进行操作,成功解决了 20 多个模拟物理任务,并能与完全访问动态并了解其导数的规划算法相竞争,并证明该算法对许多任务能够进行端到端学习。
Sep, 2015
使用通信媒介增强的多智能体深度确定性策略梯度算法在六种高度非稳态环境中表现良好,相比基线模型具有显著性能提升。
Dec, 2018
探索使用强化学习解决多智能体问题,将多智能体强化学习问题视为分布式优化问题处理,假设多智能体群体中每个智能体的策略在参数空间中相近且可以用单一策略代替,结果表明该算法在协作和竞争任务上比现有方法更加有效。
May, 2018
提出了一种基于混合策略、利用两个独立网络来校正过度估计偏差的新方法,在少量 MuJoCo 环境上展示了有前景的接近 SOTA 的结果。
Sep, 2023
本文探讨了在离散动作空间的场景下,使用多种代替 Gumbel-Softmax 估计器的方法来扩展 MADDPG 算法,并对各种性能指标进行了测量和分析,结果表明,在几项任务中,其中一种提出的估计方法比原始的 Gumbel-Softmax 在返回率上表现显著更好,同时收敛更快。
Feb, 2023
研究如何通过强化学习来解决机器人之间进行优化的问题,证明了基于策略梯度方法的算法在均值场问题中能够收敛。
Oct, 2019
研究表明,$Q$-learning 方法在最初的样本效率和有效性方面能够有效地实现,但其估计的 $Q$-value 非常不准确,本文给出了一个部分解释,即 $Q$-learning 方法在秘密地实现 policy gradient 更新。
Apr, 2017
本研究提出了两个基于集中式训练、分散式执行范式的深度多智能体软策略优化算法以解决混合行动空间问题,并在基本物理模拟和易于实现的多智能体环境下进行了实验验证并取得了良好的表现。
Aug, 2022