社会福利的自适应最大化
本研究探讨了如何在多个目标之间实现公平的多目标强化学习,其中一个代理必须学习一种同时在矢量价值回报的多个维度上获得高回报的策略。我们采用期望福利最大化方法,通过某些非线性公平福利函数对长期累积回报的矢量进行建模。我们提供了 Q-learning 的新颖自适应方法,以学习为非线性福利函数进行优化。我们的算法可以被证明收敛,并且实验表明与线性标量化、最佳线性标量化混合或固定行动选择技术相比,在 Nash 社会福利目标方面,我们的方法表现出更好的效果。
Nov, 2022
研究公平地将一组不可分割的物品在代理商之间进行分配的问题,通过加法估值来衡量分配的公平程度,即代理商对其组合的估值的几何平均数,研究了特定情况下简单贪婪算法的有效性,其中代理的估值不同或是二元估值。
Jan, 2018
在线多智能体 NSW(Nash 社会福利)最大化问题中,我们提出了一种完全回答 NSW 作为目标的无悔公平学习是否可能的算法,并且在不同设置下得到了相应的后悔界限。
May, 2024
基于反馈的交互式最大化在线 M${}^{atural}$- 凹函数研究中,我们提出了 $O (T^{-1/2})$-simple regret 和 $O (T^{2/3})$-regret 算法,证明了贪心算法对于 M${}^{atural}$- 凹函数最大化中的局部误差的鲁棒性,并对于多项式时间每回合运行算法无法实现 $O (T^{1-c})$ regret 的可能性给出了证明。
May, 2024
研究一种新颖的多臂赌博问题,旨在解决公司在探索最大化收益新策略的同时,保持其收益在固定时间内持续增长的挑战。 通过提出自然而又新颖的策略来维护限制,我们在随机和对抗设置下分析了限制维护的代价。
Feb, 2016
该研究考虑了一类随机组合优化问题,其中输入数据集中的元素权重不确定,并提出了一种基于预期效用的解决方案,以最大化某些给定实用函数的预期效益,并证明了在问题的精确版本下,可以针对几种重要的实用函数类得到多项式时间逼近算法。
Dec, 2010
研究动态变化的人群中使用学习算法适应变化环境的重复博弈的质量,证明了如果玩家以一种保证低自适应遗憾的方式选择策略,则在许多种类的游戏中,即使变化非常频繁,也可以确保高社会福利,这一点比以前的工作更具现实意义。
May, 2015
通过观察决策者过去的决策,能否理解或模拟他们的决策理念?我们将这个问题形式化为学习社会福利函数的问题,属于广为研究的幂均值函数家族。我们专注于两个学习任务:第一个任务的输入是群体中个体采取行动(决策或政策)的效用向量以及由决策者判断的与之关联的社会福利,而第二个任务的输入是给定一对效用向量关联的福利的两两比较。我们证明了在两种情况下,即使比较的社会福利信息是噪声的,幂均值函数也能够在多项式样本复杂度下进行学习。最后,我们设计了实用的算法来解决这些任务并评估它们的性能。
May, 2024