- 多智能体模仿学习:价值易得,遗憾难求
协作学习中的多智能体模仿学习问题,以减小学习者和专家之间的价值差为目标,但无法保证对战略智能体的偏离具有鲁棒性。因此,研究了在马尔科夫博弈中以后悔差作为目标的代替方案,并提出了两种有效的方法来最小化后悔差。
- 战略线性上下文强盗
通过研究策略性代理商操控推荐系统以最大化推荐次数的现象,我们针对线性上下文赌博问题的策略变体进行研究,其中,策略可以误报私有观察到的上下文给学习者。我们将算法设计问题视为不确定性下的机制设计问题,并提出了乐观的致命开关机制(OptGTM), - 自动化数据标注在战略人工智能代理下的风险和潜在解决方案
机器学习模型在社会领域中应用越来越广泛,本文研究了当模型利用自身注释的样本进行重训练,并结合人类战略反应时的长期影响,分析了它们在动态交互下的演变,并提出了一种改进的重训练过程来稳定这种动态,最后研究了这些重训练过程如何影响算法公平性,发现 - 多臂赌博机与战略代理的鲁棒和激励性算法
我们考虑了一种随机多臂赌博问题的变种,其中臂是可以改善奖励或吸收奖励的战略代理。我们设计了一种机制,以鼓励在平衡状态下实现最高水平的性能,并在非平衡情况下至少获得具有最高均值的诚实代理的收入。我们还确定了一类称为性能激励的 MAB 算法,它 - 分配家务:妒忌和真相
研究了具有策略性代理的可分割坏资源的公平分配问题,证明了在一定约束下,没有确定性的、讲真话的、无妒忌的机制存在。
- 无遗憾学习匹配:基于 Markov 匹配市场的强化学习
研究马尔可夫匹配市场,提出强化学习框架,结合最大权匹配算法解决序列探索、匹配稳定性和函数逼近等问题,并证明算法可达到次线性的遗憾率。
- (几乎) 免费的去中心化学习代理的激励探索
本文探讨了在多臂赌博机中利用多个具有长期战略的代理人进行奖励探索,并提出了一种简单但有效的激励策略,结果表明,当涉及足够多的学习代理人时,主体的探索过程几乎是免费的。
- 状态化的战略回归
对在线评估工具进行策略应对的研究表明,在考虑个体决策者和决策机构间多次周期策略互动的情况下,多轮互动使得决策机构更加有效地激励个体决策者朝期望的方向累积努力,并考虑延长时间框架和考虑决策累积的很多关键因素需要加以研究和解决。
- 来自显式偏好的战略分类
研究在线线性分类问题,应对操纵特征的策略代理的对抗性选择和他们操纵向量的揭示偏好,提供一个计算有效的学习算法,获得减小的 Stackelberg 后悔以近似于最佳分类器。
- 具有策略武器的多臂赌博问题
研究了一种多臂赌博机问题的策略版本,其中每个臂是一个个体战略代理人,在拉动一个臂膀时,臂膀将获得私人奖励,并可以选择一定金额传递给主体,以使主体将奖励基金尽可能分发给臂膀。通过该研究,设计了一种算法,引导代理人提交尽可能多的私人奖励。
- NIPS基于深度强化学习的战略对话管理
本研究成功应用深度强化学习 (DRL) 训练具备谈判能力的智能策略代理程序,实验表明该程序与由人工设计的规则、随机等算法相比,获胜率提高至 53%。
- MM通过主动数据采购实现低成本学习
本研究致力于设计在线数据采购机制,旨在使代理人能够通过使用过去的数据主动定价以购买未来的数据,同时即使代理人透露数据的成本取决于数据本身,也能给出学习保证。我们的算法和分析是构建在无悔学习模型上的,具备基于预算约束条件下的风险控制保证,且使 - 算法理性:代价计算的博弈论
本文提出了一个关于战略代理进行可能昂贵计算的普适的博弈论框架,利用该框架在一些已研究的博弈中(如有限重复犯罪囚徒困境和剪刀石头布)提供心理学上合理的解释,同时提出了保证博弈中存在均衡的自然条件。
- 廉价开展真实调查
研究了在个体参与调查的成本未知且服从已知分布的情况下,设计一种激励机制使得参与者能够真实反映的调查方案,以达到最小化估计方差和调查成本的目标。