Oct, 2024
道德图灵测试:评估人类与大语言模型在道德决策中的一致性
The Moral Turing Test: Evaluating Human-LLM Alignment in Moral
Decision-Making
TL;DR本研究旨在填补人类与大语言模型(LLM)在道德评估上的不一致性这一空白。研究者创建了一个人类与LLM生成的道德情境反应的大型语料库,发现LLM对道德判断的敏感性与人类不同,从而影响到对AI生成内容的接受程度。结果表明,尽管人类偏好LLM在道德场景中的评估,但存在系统性的反AI偏见,影响了评估结果。