关于大型语言模型调查回答的质疑
通过使用大五人格调查,我们在各种大型语言模型中发现了一种以前未被发现的社会期望偏差,它会影响模型的评估和得分。这种偏差存在于所有测试的模型中,并且可能在更近期的模型中出现更严重的程度,对于使用心理测验或将模型作为人类参与者的代理存在一定的限制。
May, 2024
大型语言模型(LLMs)是否具有其自己的世界观和个性倾向?对 LLM 模型回答主观问题的模拟进行了 100 多万次,将其回答与欧洲社会调查(ESS)的真实数据进行比较,结果表明问题引导对偏见和变异的影响是基本的,突出了主要的文化、年龄和性别偏见。文中还讨论了测量 LLMs 与调查数据差异的方法,如计算加权平均值和基于 Jaccard 相似性的一项新提出的测量。我们得出结论,在使用 LLMs 模拟个体决策或集体行为之前,分析问题引导的稳健性和变异性非常重要,因为它们的模拟能力充其量是近似的。
May, 2024
本文研究了利用大型语言模型(LLMs)来增强调查的三种不同应用程序:缺失数据插补,回溯预测和零 - shot 预测。该论文提出了一个新的方法论框架,其中包含民意调查问题,个人信念和时间背景的神经嵌入,以个性化 LLMs 的意见预测。该研究表明,LLMs 表现出较低的精度,但最佳模型的准确率在意识形态上明显更高,可以用于填补缺失的趋势并确定公众态度的变化。但是,模型在 zero-shot 预测任务中的表现有限,强调了 LLMs 的挑战。
May, 2023
通过使用基于人口分布的人口组别信息,我们研究了语言模型在生成与人群相符合的调查回复方面的可行性,并揭示了语言模型中的社会偏见对这类模拟的影响。
Feb, 2024
该研究介绍了 AutoSurvey,这是一种快速而有组织的方法,用于自动化创建在人工智能等快速发展领域中的综合文献调查。AutoSurvey 通过初始检索和大纲生成、专门的大语言模型进行的分段起草、整合和完善,以及严格的评估和迭代来解决信息数量和复杂性带来的挑战。研究做出了全面的解决方案,提出了可靠的评估方法,并通过实验证实了 AutoSurvey 的有效性。
Jun, 2024
调查了 250 多个英文语言模型行为的研究,讨论了 Transformer 语言模型在特定任务微调之前的基本功能,以及模型对特定输入和表面特征的敏感性。尽管模型参数规模扩大到数百亿,但仍容易出现非事实性回答、常识错误、记忆文本和社会偏见等弱点。我们综合近期结果,强调了目前关于大型语言模型能够和不能够做到什么的已知情况。
Mar, 2023
通过获取真实用户的仔细反馈来改进相关性标签的质量,并提出一种基于大型语言模型的标签生成方法,从而获得具有和人工标记员相似的准确性和能力的高质量标签,为搜索系统的评估和优化提供了有效途径。
Sep, 2023
社会偏见在大型语言模型中是由各种人口统计学特征的目标的社会感知的积累所塑造的。为了全面理解大型语言模型中的这种社会偏见,必须考虑到各种身份认同之间多元观点下的社会感知。本文旨在研究各种视角的社会感知如何影响大型语言模型中社会偏见的发展。为此,我们提出了一种直观量化这些社会感知的新策略,并提出了可以通过汇集多样化的社会感知评估大型语言模型中社会偏见的度量标准。实验结果通过检查社会感知定量地展示了大型语言模型中的社会态度。我们进行的分析表明,我们提出的度量标准捕捉到了社会偏见的多维方面,从而实现了对大型语言模型中偏见的细致全面的调查。
Jun, 2024
该研究通过分析数据集,探讨了大型语言模型在回答非英语母语使用者的问题时是否会产生性能偏差,结果发现与母语使用者相比,非英语母语使用者在与语言模型的互动中会获得更低质量甚至事实错误的回答。
Jun, 2024