Feb, 2024

合理的顺序决策的奖励设计

TL;DR我们提出了一种基于辩论的奖励模型,用于训练可证伪的策略,该策略的决策可以更容易地与支持证据相印证。我们通过多智能体的辩论训练显示,代理人学会提出抗驳且与人类偏好密切一致的证据。