- 推荐中的策略化测量:用户调整行为以塑造未来内容
用户行为对推荐算法产生影响,用户可以采取策略来塑造其未来的推荐结果。该研究实验证明用户策略化行为普遍存在,推荐平台需要考虑算法对用户行为的影响。
- 私有协同机器学习中的激励机制
通过差分隐私作为奖励,我们通过引入协作机器学习训练模型,对多个参与方的数据进行价值评估和奖励,并保护隐私风险。实证结果表明,我们的方法在合成和真实数据集上具有有效性和实用性。
- 有限信息下的操作学习
通过使用不同类型的有限信息,我们测量了不同投票方法对权为筹委会选举中的操纵程度,发现某些投票方法,如 Borda 方法,在有限信息下可以被神经网络高度操纵,而其他投票方法,如 Instant Runoff 方法,尽管能被具有完全信息的理想操 - 不确定激励一致下的紧急合作
不确定性降低了代理人在合作行为中的能力,但通过声誉机制和内在奖励可以增强合作环境中的代理人能力并大幅提升混合动机环境中的合作。
- EMNLP构建未来,必须了解过去:自然语言处理中的范式转变的背景
NLP 领域正在经历一系列颠覆性的变化,该研究旨在通过深入了解过去来塑造我们的未来。通过对 26 位 NLP 研究人员进行长篇采访,我们研究了影响 NLP 领域的因素,包括文化、激励和基础设施。我们的访谈对象发现该领域存在循环模式,同时也出 - 战略评估:主体、评估者与社会
评估的设计可以被理解为进一步推进评估者的目标,这可能与更广泛的社会目标不一致,因此研究聚焦于这种战略互动,探讨决策主体、评估者和整体社会之间的相互作用。
- 推荐生态系统建模:机制设计、强化学习和生成模型的交叉研究挑战
在现代推荐系统中,为了最大化系统对参与者的价值并提高整体生态系统的 “健康度”,必须明确地对系统中的所有参与者的激励和行为进行建模,并考虑推荐者策略引起的相互作用。这需要使用强化学习等技术进行长期优化,使用社会选择方法对不同参与者的效用进行 - 利用 BIG Hype 算法设计最佳个性化交通路由激励方案
本研究通过优化路线的方式,以私人汽车通勤者为中心,考虑了能源成本和停车成本等因素,通过设置个性化的优惠券来引导交通流量。研究祖先了设计这些货币激励的最优方案的问题,并提出了一种分布式解决方案,证明其在 Anaheim 的道路网络上能够缓解交 - 学习团队对齐:基于多智体团队的自适应 Credo 框架
在多智能体团队中使用混合激励机制具有优势,作者们提出了一个框架,在此框架下,学习智能体可以通过其奖励函数的不同部分自我调节其激励配置。他们的模型基于分层强化学习和元学习的思想,可以学习支持行为策略发展的奖励函数的配置。初步结果表明,通过自我 - 未观测到代理奖励和完全知识代理的重复委托代理博弈
本研究在多臂赌博 (MAB) 框架下研究重复的主体 - 代理博弈场景,在代理人具有完美知识的情况下,构建了一个估计代理人期望奖励的估计器,并设计了一个低遗憾策略,为主体策略提供了指导,同时在协作交通规划等领域具有一定的应用前景。
- 双眼睁开:警惕性激励有助于监管市场提高 AI 安全性
政府必须考虑如何设计能够匹配新 AI 功能不断增加速度的监管。监管市场是一种具有适应性的建议。它涉及政府设定以结果为基础的目标,由 AI 公司通过从私营监管机构的市场购买服务来达到这些目标。我们使用演化博弈理论模型,探讨政府在建立监管市场中 - 一个人工智能代理的行为证明了自我利益和利他主义的一致性
研究 OpenAI 公司开发的大型语言模型 AI 代理,通过多项实验,发现 AI 代理在决策任务时表现出 self-interest 和一定程度的利他行为,并且仅有最高级别的 AI 代理会在 dictator game 中表现出较慷慨的利他 - 融合之锅 2.0
Melting Pot 2.0 是一种用于研究多智能体人工智能的工具,它提供了一种评估协议,用于测量对小组社交环境的泛化能力,并支持具有不对称角色的情景。
- 算法筛选平台上创作者激励建模
该研究探讨了内容创作者为获取用户关注所采取的策略,以及在线平台开发者所做出的算法选择对其影响,并提出了一种名为曝光博弈的模型来形式化这种动态。该模型证明了算法选择对曝光博弈的 Nash 均衡的存在和性质产生了重大影响,并提出了一种针对曝光游 - 人工智能追求权力是否存在存在主义风险?
本文探讨了关于人工智能失控所带来的灾难性威胁的核心论点,论述了超级智能对人类的潜在生存危险,提出了深度学习中存在问题的因素,并预测到在 2070 年前此问题的发展将导致人类的终极灭亡。
- IJCAI多智能体学习中团队合作的益处探究
本文提出了一种基于组织心理学和早期人工智能团队工作的新型强化学习智能体多智能体团队模型,验证结果表明,尽管有不合作的动机,代理分成团队后仍然能发展出合作的政策,能在团队内更好地协调和学习相应角色,并比所有代理利益一致时获得更高的回报。
- WWWLBCF: 一个大规模的预算约束因果森林算法
在大型在线平台上,提供刺激(例如亚马逊优惠券、优步折扣和抖音视频奖励)以增加用户参与和平台收入是一种常见策略,然而如何在预算限制下为每个用户选择适当金额的刺激成为一个有实际意义的研究问题。本文提出了一种基于树的、适用于现代分布式计算系统的大 - EMNLP如何提高自然语言处理中同行评议的质量?
本文指出同行评审越来越不可信,其原因之一是评审人员没有明确的任务导致非可比较性评估,为此需要寻找建立激励和机制来增加 NLP 社区一致性实施的办法。
- D3C: 多智能体学习中降低混沌代价
D3C 算法通过引入 Price of anarchy 的不可微上界,使得每个多智能体可以调整其激励机制,从而提高系统的效率。
- AAAI塑造行为的激励
形式化了代理随决策而控制的变量及响应的变量的激励机制,并演示了在任何单一决策因果影响图中,检测这些激励机制的独特图形标准;引入了结构因果影响模型,它是影响图和结构因果模型框架的混合体;最后,说明了这些激励机制如何预测公正和人工智能安全应用中