Jan, 2024

衡量大型语言模型中的道德不一致性

TL;DR大型语言模型在道德场景中呈现高度不一致性,因此提出了一种新的信息熵测量方法 —— 语义图熵(SGE)。通过使用模型的决策策略解释的 “经验法则”(RoTs),我们的度量与人类判断更好地相关,并计划研究和改进 LLM 不一致性的根本原因。