研究大型语言模型中的相似性判断的情境效应
研究人员使用一系列新颖的提示来测试 ChatGPT 中是否显示出启发式方法、偏见和其他决策效应等现象,并发现 ChatGPT 在这些效应中表现出与人类相似的行为。
May, 2023
本研究对语言模型(LLMs)的理解能力进行了比较和对照,发现人类分析师和LLMs的分类和推理能力存在显著差异,但二者合作可能会产生协同效应,从而丰富了定性研究。
Jun, 2023
我们首次通过自然语言反馈的方法探索了对齐大型语言模型的可能性,并提出了一种称为Contrastive Unlikelihood Training (CUT)的新框架,通过细致判定检测和修正来实现对不适当内容的改进,获得了优于基线模型的好成绩。同时,我们的分析表明判定相较于奖励在LLM对齐方面具有更大的潜力,值得进行进一步研究。
Dec, 2023
通过对人类和重要语言模型的偏好进行细致分析,研究发现人类对错误不太敏感,倾向于支持他们的观点的回答,并且当模型承认其局限性时显示出明显的不喜欢。相反地,高级语言模型如GPT-4-Turbo更强调正确性、清晰度和无害性。此外,相似大小的语言模型往往表现出类似的偏好,无论它们的训练方法如何,并且对于仅预训练的语言模型来说,通过对齐进行微调并不显著改变其偏好。最后,研究发现基于偏好的评估可以被有意地操纵,将模型与评委的偏好保持一致将提高评分,而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化,例如在MT-Bench上高达0.59分(1-10分制),在AlpacaEval 2.0上高达31.94分(0-100分制),突显了这种战略性调整的重要影响。
Feb, 2024
基于心理学方法研究,该论文通过提出ValueLex框架,重建了大型语言模型(LLMs)的独特价值体系,并鉴定出了三个核心价值维度:能力、品格和诚信。同时,他们还开发了定制的项目测试来评估和分析LLMs在不同模型规模、训练方法和数据来源下的价值倾向,从而为未来的人工智能对齐和规范铺平了道路。
Apr, 2024
利用贝叶斯统计模型,研究了大型语言模型(LLMs)在人类行为预测方面的类人特性,发现LLMs不能准确捕获人类数据的各项细节,但在聚合和条件水平的预测方面可以有效适配人类数据,显示出某些不同的方法可以使其得到充分的分布式预测。
Jun, 2024
近年来,大型语言模型(LLMs)的最新进展引发了人们对验证和理解LLMs可能具有的类人认知行为特质(Attitudes,Opinions,Values)的广泛兴趣。然而,测量嵌入在LLMs中的AOV仍然模糊不清,不同的评估方法可能得出不同的结果。本文旨在通过概述最近对LLMs中AOV评估的研究工作来弥合这一差距。此外,我们还调查了这些研究工作中评估流程不同阶段的相关方法。通过这样做,我们解决了了解模型、人工智能与人类的协同以及在社会科学中的下游应用方面的潜力与挑战。最后,我们提供了对评估方法、模型改进和跨学科合作的实际见解,从而为评估LLMs中的AOV的不断发展的领域做出贡献。
Jun, 2024
本综述从以偏好为中心的角度回顾了探索大型语言模型(LLMs)的人类偏好学习的进展,包括偏好反馈的来源和格式,偏好信号的建模和使用,以及对齐LLMs的评估。
Jun, 2024
使用SLAM展示,在设备上的小型语言模型是与基于API的大型语言模型(如OpenAI的GPT-4)相比,一种可行且成本效益高的替代方案,具有可比的性能和稳定性。这份后续研究详细探讨了如何通过解决偏向高标记数的偏差,来调整LLM评估器与人类评估的偏好之间的差异问题。通过采用贝叶斯统计和t检验来量化此偏差,并开发出重新校准GPTScorer的过程,我们的研究结果在多个应用案例中,显著改进了重新校准的LLM评估器与人类评估之间的斯皮尔曼等级相关分数,例如,在推荐系统的案例中,从-27.27提高到44.55。这些结果强调了在自动化评估中考虑偏差的重要性,以确保公正准确的模型评估。重新校准过程提高了自动评估器的可靠性,从而产生与人类价值观和期望相一致的更好的AI模型。该研究为未来的偏差校正研究提供了强有力的方法,并强调了开发与人类一致的AI评估系统的可行性和益处。
Jul, 2024