Mar, 2025

生成机器人宪法与语义安全基准

TL;DR本研究解决了机器人在语义安全方面面临的新风险,尤其是在与人类自然语言互动中的潜在危险。文章提出了ASIMOV基准,并介绍了一种通过生成自动修改机制的方式来制定机器人宪法,从而提高机器人的行为安全和与人类偏好的对齐程度。实验结果表明,使用生成的宪法可以显著提高机器人的符合度,达到84.3%的顶级对齐率。