Jun, 2024

在考虑可接受性放松的情况下学习价值一致的策略的算法

TL;DR价值意识工程的新兴领域声称软件代理和系统应该具有价值意识,即它们必须按照人类价值观做出决策。本文提出了两种算法,基于局部对齐的 epsilon-ADQL 算法和其在序列决策中的扩展 epsilon-CADQL,通过应用约束强化学习算法有效解决了价值对齐决策的复杂性,我们在干旱场景下的水分配问题中验证了它们的效率。