ACLMay, 2024

评估大型语言模型在角色导向生成中的偏见

TL;DR存在困扰个性化驱动文本生成任务的大型语言模型(LLMs)需要生成反映符合特定人物角色可能具有的观点分布的文本。我们定义不协调的人物角色作为具有多个特征的人物角色,在人类调查数据中,其中一个特征会使其其他特征变得不太可能,例如支持增加军费的政治自由主义者。我们发现 LLMs 比一致的人物角色少 9.7%的可控性,有时会生成与其人口统计学相关的刻板立场,而不是目标立场。我们评估的使用人类反馈强化学习(RLHF)微调的模型更具可控性,尤其是与政治自由主义者和女性相关的立场,但呈现出更少多样化的人物角色观点。我们还发现无法从多选意见评估中预测的 LLM 可控性的方差。我们的研究结果显示了在开放式文本生成中评估模型的重要性,因为它可以揭示新的 LLM 观点偏见。此外,这种设置可以揭示我们将模型引导到更丰富和多样化的观点范围的能力。