Apr, 2024

通过环境设计减少人机目标状态差异

TL;DR在人工智能与人类之间建立成功的合作关系中,最大的挑战之一是将机器人的行为与人类用户的期望保持一致。为了避免机器人误解指定的目标而执行具有意想不到的潜在危险副作用的行动,我们提出了一种新的度量标准,称为目标状态偏差(Goal State Divergence,GSD),用于表示机器人最终目标状态与人类用户预期目标状态之间的差异。当无法直接计算GSD时,我们展示了如何使用最大和最小边界来近似计算。然后,我们将GSD值输入到我们的新型人机目标对齐(HRGA)设计问题中,该问题可以识别一组最小的环境修改,以防止此类不匹配情况的发生。为了证明GSD在减少人机目标状态差异方面的有效性,我们在几个标准基准上对我们的方法进行了实证评估。