Feb, 2024

通过马尔可夫博弈中的贝叶斯规则归纳来学习和维持共享规范系统

TL;DR学习智能体可以通过假设存在共享的规范来推断现有人群的规范,进而实现学习与社会合作。该研究在马尔可夫博弈的环境中形式化了这一框架,并通过近似贝叶斯规则归纳来展示了多智能体环境中的操作,使智能体能够快速学习和维持各种合作制度,包括资源管理规范和对亲社会劳动的补偿,推动集体福利同时允许智能体保持自身利益。