高社会福利纳什均衡的规范导向学习
本研究探讨了如何在多个目标之间实现公平的多目标强化学习,其中一个代理必须学习一种同时在矢量价值回报的多个维度上获得高回报的策略。我们采用期望福利最大化方法,通过某些非线性公平福利函数对长期累积回报的矢量进行建模。我们提供了 Q-learning 的新颖自适应方法,以学习为非线性福利函数进行优化。我们的算法可以被证明收敛,并且实验表明与线性标量化、最佳线性标量化混合或固定行动选择技术相比,在 Nash 社会福利目标方面,我们的方法表现出更好的效果。
Nov, 2022
本文提出了一种基于强化学习的方法,结合 “探索,策略改进和监督学习”,以找到与纳什均衡相关的价值函数和策略。通过实验证明了该方法在特定情况下可以在近似值方面找到纳什均衡。
Feb, 2020
本文提出了一种奖励设计方法,通过多智能体强化学习和黑盒优化使得自利型智能体在非合作多智能体系统中选择的动作能够产生优化的系统结果,并且能通过离线的马尔可夫博弈来得到最优的激励设计结构。
Jan, 2019
该研究旨在建立一个框架,以引导一群简单、专业、自我利益代理人解决传统上作为整体单一代理人序列决策问题的难题,并通过设计一种学习环境机制,使每个代理人的最优解与 Nash 平衡策略一致,并为其推导出了一类分散式强化学习算法,同时展示了该社群内在结构对于更高效的迁移学习可能带来的潜在优势。
Jul, 2020
本文研究了具有竞争性的马尔可夫游戏中的 Nash 均衡学习,使用了一种新的无模型方法找到近似 Nash 均衡,其中策略 - ε 对应性和状态至 ε- 最小策略是用神经网络表示的。在动态价格领域,可以学习到近似的 Nash 均衡。
Jul, 2022
本文研究在存在战略个体行为的情况下的算法决策,其中使用机器学习模型作出对人类个体的决策,而后者可以战略性地调整自己的行为以改进其未来的数据。研究重点在于非线性设置,其中个体只能通过决策策略的本地信息来响应决策策略。同时考虑最大化决策者福利(模型预测准确性)、社会福利(战略行为导致的个体改进)和个体福利(机器学习对个体的低估程度)的目标。理论结果表明,仅仅最大化某些参与方的福利必然会减少其他方的福利,因此我们认为在非线性设置中平衡各方福利是必要的,并提出了一种适用于一般战略学习的不可缩减优化算法。通过对合成数据和真实数据的实验证实了所提算法。
May, 2024
本文提出了一种新的适用于多智能体环境的 Multi-Agent 模仿学习框架,它建立在广义反向强化学习的基础上,并引入了实用的多智能体演员 - 评论家算法。该方法可用于多个合作或竞争代理的高维环境中模仿复杂的行为。
Jul, 2018
该研究探讨了如何设计自主智能体,使其在没有访问联合奖励函数的情况下能够有效地与潜在的次优合作伙伴进行合作。我们将这个问题建模为一个合作的、情节性的两个代理 Markov 决策过程。我们分析了该交互式两个代理场景中关于奖励函数的信息如何被获得,结果显示学习代理的策略对转移函数具有显著影响时,奖励函数可以被高效地学习。
Nov, 2021
本研究论文提出了一种利用强化学习来实现团队合作与跨团队竞争的线性二次结构的方法,并通过均值场设定下的广义和型场博弈,证明了该方法能够有效地达到纳什均衡。通过将问题分解为子问题,并利用时间独立对角优势下的后向递归离散时间哈密顿 - 雅可比 - 艾萨克斯方程,进一步证明了多人迅速消退自然策略梯度算法能够收敛到全局纳什均衡。实验结果验证了该方法在实践中的优点。
Mar, 2024