社会福利的自适应最大化

Oct, 2023

Adaptive maximization of social welfare

Nicolo Cesa-Bianchi, Roberto Colomboni, Maximilian Kasy

TL;DR旨在最大化社会福利，我们研究重复选择政策的问题，由私人效用和公共收入构成的加权和。通过实验证明，我们获得了与误差下界相匹配的上界，表明福利最大化比多臂赌博问题更困难，且我们的算法实现了最佳速率。

Abstract

We consider the problem of repeatedly choosing policies to maximize social welfare. Welfare is a weighted sum of private utility and public revenue. Earlier outcomes inform later policies. Utility is not observed

social welfare private utility public revenue regret exp3 algorithm

发现论文，激发创造

多目标强化学习中的福利与公正

本研究探讨了如何在多个目标之间实现公平的多目标强化学习，其中一个代理必须学习一种同时在矢量价值回报的多个维度上获得高回报的策略。我们采用期望福利最大化方法，通过某些非线性公平福利函数对长期累积回报的矢量进行建模。我们提供了 Q-learning 的新颖自适应方法，以学习为非线性福利函数进行优化。我们的算法可以被证明收敛，并且实验表明与线性标量化、最佳线性标量化混合或固定行动选择技术相比，在 Nash 社会福利目标方面，我们的方法表现出更好的效果。

Nov, 2022

贪心算法求解纳什社会福利最大化问题

研究公平地将一组不可分割的物品在代理商之间进行分配的问题，通过加法估值来衡量分配的公平程度，即代理商对其组合的估值的几何平均数，研究了特定情况下简单贪婪算法的有效性，其中代理的估值不同或是二元估值。

Jan, 2018

公平多智体社会福利优化的无懊悔学习

在线多智能体 NSW（Nash 社会福利）最大化问题中，我们提出了一种完全回答 NSW 作为目标的无悔公平学习是否可能的算法，并且在不同设置下得到了相应的后悔界限。

May, 2024

无悔的 M${}^{atural}$ 凹函数最大化：随机赌博算法和对抗完全信息设置的 NP 困难性

基于反馈的交互式最大化在线 M${}^{atural}$- 凹函数研究中，我们提出了 $O (T^{-1/2})$-simple regret 和 $O (T^{2/3})$-regret 算法，证明了贪心算法对于 M${}^{atural}$- 凹函数最大化中的局部误差的鲁棒性，并对于多项式时间每回合运行算法无法实现 $O (T^{1-c})$ regret 的可能性给出了证明。

May, 2024

保守型赌徒

研究一种新颖的多臂赌博问题，旨在解决公司在探索最大化收益新策略的同时，保持其收益在固定时间内持续增长的挑战。通过提出自然而又新颖的策略来维护限制，我们在随机和对抗设置下分析了限制维护的代价。

Feb, 2016

公平影响最大化：福利优化方法

该研究提出了一种基于社会福利理论的公平影响最大化算法框架，旨在解决传统算法中存在的对少数群体不公平的问题，并证明了该框架可以高效地解决优化问题。

Jun, 2020

随机组合优化问题的期望效用最大化

该研究考虑了一类随机组合优化问题，其中输入数据集中的元素权重不确定，并提出了一种基于预期效用的解决方案，以最大化某些给定实用函数的预期效益，并证明了在问题的精确版本下，可以针对几种重要的实用函数类得到多项式时间逼近算法。

Dec, 2010

动态人口博弈中的学习与效率

研究动态变化的人群中使用学习算法适应变化环境的重复博弈的质量，证明了如果玩家以一种保证低自适应遗憾的方式选择策略，则在许多种类的游戏中，即使变化非常频繁，也可以确保高社会福利，这一点比以前的工作更具现实意义。

May, 2015

强盗之中的荣誉：面向在线公平分配的无遗憾学习

通过探索 - 执行算法设计实现在线公平分配研究，解决基于多臂赌博携带公平约束的未知价值非可分配商品的社会福利最大化问题.

Jul, 2024

学习社会福利函数

通过观察决策者过去的决策，能否理解或模拟他们的决策理念？我们将这个问题形式化为学习社会福利函数的问题，属于广为研究的幂均值函数家族。我们专注于两个学习任务：第一个任务的输入是群体中个体采取行动（决策或政策）的效用向量以及由决策者判断的与之关联的社会福利，而第二个任务的输入是给定一对效用向量关联的福利的两两比较。我们证明了在两种情况下，即使比较的社会福利信息是噪声的，幂均值函数也能够在多项式样本复杂度下进行学习。最后，我们设计了实用的算法来解决这些任务并评估它们的性能。

May, 2024