Apr, 2024

一项改进的道德图灵测试中对人工智能代理的归因

TL;DR人们对人工智能系统的道德评价是否与人类生成的道德评价相似的问题对于人工智能的进展具有重要意义。我们进行了一项改编自 Allen 等人(2000)提议的改进型道德图灵测试(m-MTT),通过要求参与者区分真实的人类道德评价和由一个流行的先进 AI 语言模型 GPT-4 进行的评价,代表性的 299 名美国成年人首先在对源泉不知情的情况下对道德评价的质量进行了评分。他们惊人地发现,在几乎所有维度上,包括美德、智力和可靠性,他们评价 AI 的道德推理质量高于人类的,这与 Allen 等人所称的相对 MTT 相一致。接下来,在确定每个评价的来源(人类还是计算机)的任务中,人们的表现明显高于偶然水平。虽然 AI 没有通过这个测试,但不是因为它的道德推理不如人类,而是可能因为它的被认为是卓越的特质以及其他可能的解释。能够产生被认为在品质上优于人类的道德回应的语言模型的出现引起了人们对人们可能不加批判地接受可能有害的道德指导的担忧。这种可能性突显了在道德问题上对生成语言模型进行保护的必要性。