Jul, 2024

契约强化学习:用无形之手牵引力量

TL;DR通过合同设计解决在线学习问题中不同利益相关方的经济利益一致性,提出一种理论框架来解决机器学习中的代理问题,并设计了有效的动态规划算法和无悔学习算法以实现最优合同和平衡探索与开发的挑战。