无遗憾学习匹配: 基于Markov匹配市场的强化学习
本研究提出了一种统计学习模型,用于解决双边市场中的稳定匹配问题,其中一方需从随机奖励中学习另一方的偏好,该模型扩展了标准的多臂赌博机框架,并研究了集中式和分散式方法,发现与单人多臂赌博机设置相比,具有令人惊讶的探索-利用权衡。
Jun, 2019
提出一种基于马尔可夫决策过程的实现多目标强化学习的模型,针对不确定性的reward函数,使用内积方法建立了一种新的衡量指标,探讨了在线学习以及基于Preference-free exploration的学习方式,并提出了一种轨迹复杂度几乎最优的算法。
Nov, 2020
在双边撮合市场中,我们研究了竞争环境下在线学习的问题,如一方的代理人必须通过重复互动了解对另一方的企业的偏好,并与其他代理人竞争成功匹配。我们提出了一类分散、不需要协调的算法,代理人可以使用该算法在结构化匹配市场中达到稳定匹配,其决策仅基于代理人自己的游戏历史,不需要预先了解企业的偏好。研究表明,在代理人和企业的底层偏好具有现实结构假设的情况下,所提出的算法在时间范围内具有最多对数增加的后悔成本。在匹配市场的情况下,我们的结果表明,竞争不会极大地影响分散、不需要通信和协调的在线学习算法的性能。
Jun, 2022
简而言之,本文提出了一种针对广义和博弈的、分散、计算高效的算法,其保证所有代理都使用时可以提供次线性遗憾保证,并且不需要代理之间的通信。该算法的主要观察结果是,通过马尔可夫游戏的在线学习基本上可以归结为一种加权遗憾最小化。
Jul, 2022
我们提供了一种名为explore-then-Gale-Shapley(ETGS)的新算法,并展示了每个参与者的最佳稳定后悔可以由O(KlogT/Δ^2)上界来限制,其中K是参与者的数量,T是时间,Δ是参与者在前N+1个排名的选择中的最小差距。
Jul, 2023
在这篇论文中,我们介绍了适应性的探索-延迟接受算法(AETDA)用于回应性设置,并得到了一个玩家最优稳定遗憾的 O(Nmin{N,K}ClogT/Δ²)上界,同时证明了它的激励兼容性保证。我们还考虑了更广泛的可替代偏好,在此设置中设计了一种在线DA(ODA)算法,并为其建立了一个 O(NKlogT/Δ²)的玩家最差稳定遗憾界限。
Jan, 2024
本研究针对多智能体学习中非线性偏好的问题,提出了凸马尔可夫博弈的框架,该框架允许对状态占用度量的广泛凸偏好进行处理。实验结果表明,该算法在囚徒困境中提供了高效的公平解,同时在模仿人类决策时能显著提高单个参与者的效用。
Oct, 2024
本研究解决了在自适应对手下的马尔可夫博弈中学习的挑战,填补了现有研究对适应性对手的策略后悔关注不足的空白。提出了一种新的政策后悔概念,展示了在特定条件下(如记忆限制下的一致对手)可以实现高效学习。主要发现显示在这些条件下,算法能够在对手存在时有效降低策略后悔。
Nov, 2024