Nov, 2023

航向偏见之海:通过因果结构对语言模型进行政治偏见归因

TL;DR以 ChatGPT 为例,本研究探讨了大型语言模型(LLMs)在感知和解释复杂社会政治环境方面的能力,特别在政治辩论中进行了上下文分析,旨在揭示 LLMs 在解释和裁决 “好论点” 时其决策过程和内在偏见。通过应用 Activity Dependency Networks(ADNs)提取 LLMs 对这种评估的隐含标准,阐述了规范价值如何影响这些感知。讨论了我们的发现对人工智能对齐和偏见减轻的影响。