Apr, 2024

人类与语言模型道德推理评估中的程序化困境生成

TL;DRAI 系统在决策中的应用日益增多,确保这些系统有合理的道德推理至关重要。我们提供了一个框架,使用语言模型将捕捉道德困境关键方面的因果图翻译为提示模板,并通过 OffTheRails 基准测试生成了一系列道德困境,组成了 50 个场景和 400 个独特的测试项目。与两个语言模型(GPT-4 和 Claude-2)的评价相比,我们从人类参与者为子集的项目收集了道德合理性和意图评估结果。在道德困境中,将伤害视为必要手段(与副作用相比)会导致参与者和语言模型对其道德可容许性的评价较低,对其意图评价较高。这种模式也适用于可避免与不可避免的有害结果。然而,无论损害是来自代理人的行动还是来自未行动,都没有明确的影响。我们讨论了提示生成流程的限制以及改善场景来增强实验效果的机会。