Sep, 2024

基于人类反馈的多智能体强化学习:数据覆盖与算法技术

TL;DR本研究解决了基于人类反馈的多智能体强化学习(MARLHF)的理论和实证基础,特别是从偏好数据集中识别纳什均衡的问题。通过确定单一策略覆盖不足的理论界限,强调了单方面数据集覆盖的重要性,并提出了时间轴上的均方误差正则化和模仿学习等算法技术,以提升实际性能。研究结果为基于偏好的多智能体系统的有效性奠定了基础。