Sep, 2023

大型 GPT 模型在语言表示中发现道德维度了吗?句子嵌入的拓扑研究

TL;DR我们研究了 Chat-GPT 的基础语言模型中神经活动的拓扑结构,并分析了其相对于公平性的度量标准。我们开发了一种新方法,通过计算一种公平性度量标准来理解人类对公平性的评估因素,并通过与此度量标准相关的热力图对简单复形进行着色,从而产生可读的高维句子流形的可视化结果。我们的研究结果表明,基于 GPT-3.5 的语言模型的句子嵌入可以分解为公平和不公平道德判断对应的两个子流形,这表明 GPT 基于语言模型在其表示空间中发展了道德维度,并在其训练过程中引发了对公平性的理解。