Jun, 2024

通过随机选择实现可关闭的智能体

TL;DR提出了一种使用 Discounted REward for Same-Length Trajectories (DREST) 奖励函数的不完全偏好方案,以训练人工智能代理,使其既追求目标而且中立对待轨迹长度。实验结果表明,DREST 奖励函数能够使简单代理在网络中变得有用且对轨迹长度保持中立,进一步证明该函数可以用于训练先进的代理,使其成为有用且可关闭的。