本文提出 Learning With Opponent-Learning Awareness (LOLA) 的一个改进算法 —— 造假 LOLA(proximal LOLA,POLA),并证明其可在部分竞争性环境下更可靠地实现基于互惠的合作。
Oct, 2022
通过在 LOLA 算法中引入一种方法称为 Consistent LOLA,其中学习更新功能在彼此影响时保持一致,作者在广义和游戏模型中进行了一系列实验,发现这种方法比 HOLA 和 LOLA 更容易收敛,并能够找到更加符合社会期望的解决方案。
Mar, 2022
该论文提出了稳定对手塑造方法,该方法通过插值实现了区分对手学习(LOLA)和稳定对手塑造的最佳属性,并在可微分游戏中表现出卓越的性能。
Nov, 2018
本文介绍了一种名为 LOQA 的分布式强化学习算法,用于在部分竞争环境中优化代理个体效用并促进对手之间的合作,在统一代理应用中取得了良好的性能。
May, 2024
本文以两个强化学习代理经常在矩阵游戏中相互博弈作为情境,考虑透明性决策制定对于对手的预测及对手感知梯度步长能力,探究透明性决策制定与对手感知学习相结合能否在囚徒困境和鸡斗中取得可接受的收益等问题,发现透明性决策制定和对手感知学习的组合能对囚徒困境中的双方达成互惠合作。而在鸡斗场景中,由于平衡点的选择问题,需要进一步开发适合的对手感知学习算法。
Dec, 2020
提出了一种名为 LeMOL 的对手学习动态建模方法,该方法用于结构化对手建模,以通过学习对手的适应和学习行为来降低策略搜索算法中的方差,从而提高多代理系统中算法代理的性能。
Jun, 2020
人工智能代理、冲突、对手塑造、优势对齐和社会困境是该研究论文的主要关键词和研究领域,通过引入优势对齐方法,该论文证明了对手塑造方法的效果,并在不同情况下取得了最先进的结果。
Jun, 2024
本文介绍了一种基于深度强化学习的多智能体协作方法,通过分布式学习实现了高效的策略搜索,并在合作变道场景中进行了仿真和实际案例验证。
Jun, 2022
本文提出了一种算法框架,用于在不完美信息的非对称博弈中学习鲁棒策略,并通过对手建模来推断对手类型,使用多智能体强化学习技术通过自我博弈学习对手模型,并使用集成训练方法来提高策略的稳健性,借助随机优化方案动态更新对手整体来平衡稳健性和计算复杂性。
Sep, 2019
本文提出了一种名为 Model-Free Opponent Shaping(M-FOS)的方法,利用元学习在长周期博弈下进行对手塑造,解决通过算法塑造对手进行博弈中的困境,实验表明该方法在训练中充分利用其他算法,达到了社会最优结果,同时还能扩展到高维博弈场景。
May, 2022