- 战略线性上下文强盗
通过研究策略性代理商操控推荐系统以最大化推荐次数的现象,我们针对线性上下文赌博问题的策略变体进行研究,其中,策略可以误报私有观察到的上下文给学习者。我们将算法设计问题视为不确定性下的机制设计问题,并提出了乐观的致命开关机制(OptGTM), - 通过对机构合成的对比学习,学习设计和性能空间的联合表示
该论文引入了 LInK,这是一个将性能和设计空间的对比学习与工程设计中的复杂反问题的优化技术相结合的新型框架,针对平面连杆机构的路径合成问题,通过多模态和变换不变性对比学习框架的应用,LInK 学习到了一种捕捉机构复杂物理学和设计表征的联合 - 为了取得更好成绩而付费:学习智能体之间的游戏支付
在重复博弈中,我们研究了采用货币调节等教授动态学习策略的玩家对于行为激励的影响,包括其对学习动态、福利和分配的影响,并提出了一个简单的博弈论模型以解释这些情况。我们的研究表明,在一类广泛的博弈中,通过让学习代理在游戏动态过程中向其他玩家支付 - 设施位置机制设计的 MAC 建议
基于预测的机制设计研究设施位置问题中的鲁棒性及其影响
- SusFL: 面向可持续智能农场的节能联邦学习监测
我们提出了一种新颖的节能联邦学习系统,名为 SusFL,用于可持续智能农业,以解决由于太阳能传感器能量波动导致的不一致健康监测的挑战。该系统装备了搭载树莓派等计算能力的太阳能传感器,用于训练本地深度学习模型处理健康数据。这些传感器定期更新 - IJCAI多智能体路径规划的可扩展机制设计
我们介绍了可扩展的多智能体路径规划的机制设计问题,并提出了三种不可否认策略的机制,其中两种甚至使用了近似的多智能体路径规划算法。我们在实际应用中测试了这些机制,问题规模从几十到数百个智能体。研究结果表明,与简单基准相比,它们可以提高整体效益 - 深度学习应用于机制设计:主要成果和一些新的应用
机制设计是通过深度学习逼近满足所需特性的机制,研究中介绍了技术细节和关键成果,并展示了三个实证案例。
- 通过主动回归实现精细机制设计以获得近似结构先验
通过使用主题模型,设计了一个主动学习组件和一个机制设计组件,以最大化卖家利润,解决了具有大量销售商品和来自高维未知先验分布中的策略性竞标者的问题。该研究首次发现了机制设计和主动学习的联系,为将随机线性代数基元应用于机制设计开辟了新的可能性。
- 纳什福利与设施选址
我们考虑了沿着一条线分布的一组代理人中设施定位的问题。我们应用了纳什福利目标函数,将个体成本转化为效用,分析了最大化纳什福利的设施位置。最后,我们从机制设计的角度提出了一种有界近似比的策略证明机制。
- 推荐生态系统建模:机制设计、强化学习和生成模型的交叉研究挑战
在现代推荐系统中,为了最大化系统对参与者的价值并提高整体生态系统的 “健康度”,必须明确地对系统中的所有参与者的激励和行为进行建模,并考虑推荐者策略引起的相互作用。这需要使用强化学习等技术进行长期优化,使用社会选择方法对不同参与者的效用进行 - 介导的多智能体强化学习
研究了如何通过引入内部和外部协调措施,实现智能体之间在环境中的合作,其中提出了中介者模型作为实现协调的一种方法。
- 协作学习中评估和激励多样化数据贡献
本研究利用博弈论和机制设计的方法,解决联邦学习中的全局性能优化和本地性能优化之间的张力问题,并通过统计准则和联邦学习算法的选择来设计简单的最优联邦学习机制,鼓励数据收集者贡献代表全局人口的数据,最大化全局性能。
- 具有通信的顺序主 - 代理问题:高效计算与学习
本文研究了一个在信息不完备的情况下,委托人和代理人之间的顺序决策问题。
- 无需出价,无悔选择:基于成对反馈的数字商品与数据竞拍机制
本文提出了一种使用配对比较的机制设计,该机制设计针对变量质量的定制商品,在任何具有定制商品的场景中具有广泛适用性,并在多标签毒性注释数据上进行了实验。
- 基于分布鲁棒优化的差分隐私
本文利用分布式鲁棒优化技术,开发了一种机制设计模型,以实现最高准确度和隐私预选级别的非渐近和无条件最优性保证。
- 广告展示价格的机制设计
研究了广告拍卖中的显示价格对机制设计的影响,提出了所有激励兼容的拍卖策略,并使用它来设计两种情景下的拍卖,结果表明显示价格确实影响拍卖的设计并且平台可以利用这些信息来优化广告投放的表现。
- SOCIALMAPF:面向社交导航的战略智能多智能体路径规划
本文提出了一种名为 SocialMAPF 的路径规划算法,该算法适用于考虑代理人个体私人的激励因素的约束环境。我们使用机制设计提高了个体的私人效用和全局系统目标,从而使得机器人能够在考虑到自身私人激励情况下达到更高的整体效用。实验表明,这种 - 为提高参与者满意度而证明社会选择机制结果
在社交选择机制中,因为选择结果不一定是参与者的最优选择,所以需要提供一种方式来使用说明方式加强结果的接受度和满意度。本文提出一种基于理论机制设计文献中的理想机制特征自动生成说明的方法,并通过在排名投票中进行的一系列大规模实验测试了两种方法的 - 超越最坏情况的调度机制
该论文探讨了两种调度机制(K 和 P 机制)的性能,证明了 K 机制是优于 P 机制的,并在特定条件下给出了它们的平均近似比例收敛值。
- 从数据中学习价值对齐机制的 HCMD-zero
HCMD-zero 是一种学习性机制构建方法,通过与自身的复制品竞争来获取参与者的反馈,并在此基础上调整机制参数,从而实现更加被参与者青睐的目标,无需事先对参与者行为、可用知识、机制目的等进行强假设。研究发现,HCMD-zero 在资源分配