BriefGPT.xyz
Ask
alpha
关键词
incentive design
搜索结果 - 5
基于原则的惩罚方法在双层强化学习和 RLHF 中的应用
通过惩罚的形式引入首个系统的算法框架,解决了新的双层强化学习问题,包括激励设计、逆向强化学习和人类反馈强化学习,通过在 Stackelberg Markov 游戏、人类反馈强化学习和激励设计中的模拟验证了算法的有效性。
PDF
5 months ago
ICML
公平但渐进式相等的协同学习
本篇论文主要探讨基于探索和开发的 incentivization 设计方法,处理在协作学习使用流数据时,公平性和资源分配不平衡问题。该方法确保节点仅根据其贡献程度获得奖励,并且采用渐进平等的机制,保持资源不足节点和资源充足节点的学习效果相等
→
PDF
a year ago
ZETAR: 战略和自适应合规政策的建模与计算设计
通过零信任审计和推荐框架,开发了一种量化模型方法来管理安全合规性,提高员工合规性,并在不同的风险态度下设计定制和战略性建议政策。
PDF
2 years ago
多智体元梯度强化学习中的自适应激励设计
本文研究了在应用人工智能并应用于共享环境中,设计机构机制以体现社会福利的重要性。我们提出了一种基于元梯度方法的自适应激励设计算法,该算法通过在线交叉验证原则显式考虑其对代理学习的影响,并通过它们对未来社会福利的影响进行优化系统目标
PDF
3 years ago
战略分类是伪装成因果建模的技术
通过引入因果框架来研究策略适应问题,揭示了与游戏与改进相关的一些难点,提出了分类器设计与成本函数设计必须解决非平凡因果推断问题,而过往在策略分类方案的研究实际上是具有隐性因果模型的。
PDF
5 years ago
Prev
Next