Nov, 2024

大型语言模型的分布对齐基准测试

TL;DR本研究旨在解决大型语言模型在模拟特定人群意见分布方面的不足,特别是在尚未充分探讨的问题域、引导方法和分布表达方法三大变量。我们构建了一个超越政治价值观的数据集,并建立了人类基准,通过评估语言模型与特定群体意见分布的对齐程度,揭示了在模拟人类方面的开放性问题,并发现大型语言模型在描述意见分布方面的表现优于模拟。