BriefGPT.xyz
Ask
alpha
关键词
nash equilibrium policy
搜索结果 - 4
语言模型对齐的自我游戏偏好优化
提议了一种基于自对弈的语言模型对齐方法,称为 SPPO,通过迭代策略更新近似求解纳什均衡策略,可以有效提高所选择的响应的对数似然并降低所拒绝响应的对数似然,同时在多个实验中表现优于其他基于对称成对损失的方法。
PDF
2 months ago
腐败稳健的离线双人零和马尔可夫博弈
我们研究了线性马尔可夫游戏中离线两人零和游戏中的数据损坏鲁棒性问题,提出了鲁棒版本的悲观极小极大值迭代算法,并给出了关于 epsilon 的 (近) 最优次优性能界限。
PDF
4 months ago
关于均场博弈中的模仿问题
本文研究了均场博弈中的模仿学习问题,引入了 Nash 模仿差作为新的解决方案,研究发现在仅收益需求受到人口分布影响时,该问题等价于单智能体模仿学习,并给出了适用于整体系统动力学的新的上界限定。
PDF
a year ago
Exploiter 的威力:在大状态空间下可证明的多智能体强化学习
本文提出了一个新算法,能够有效地应用于大量状态空间问题中的多智能体强化学习,以寻找具有低复杂度的多代理贝尔曼 - 伊鲁德维度的零和马尔科夫博弈 Nash 平衡策略。
PDF
3 years ago
Prev
Next