大型语言模型作为评判者在对齐任务中的系统评估:可解释指标和多样化提示模板
综述了大型语言模型对齐技术的全面概述,包括数据收集、训练方法和模型评估,并提供了未来研究方向的启示,是了解和推进适应人类任务和期望的LLM对齐的宝贵资源。
Jul, 2023
为了确保大型语言模型在实际应用中与人类意图保持一致,本研究介绍了对LLM值得信赖性进行评估时需要考虑的关键维度,包括对LLM的可靠性、安全性、公平性、抵抗滥用性、可解释性和推理性、遵守社会规范以及鲁棒性进行调查研究。通过对几个广泛使用的LLM进行测试,研究结果表明,总体上,更加符合人类意图的模型在整体可信度方面表现更好,但是模型对不同可信度类别的影响程度有所不同,这凸显了在LLM对齐方面进行更加细致的分析、测试和不断改进的重要性。本研究旨在为该领域的从业人员提供有价值的见解和指导,理解和解决这些问题对于在各种应用中实现可靠和符合伦理的LLM部署至关重要。
Aug, 2023
通过稀疏反馈的设计选择以及反馈协议对大型语言模型(LLMs)的对齐和评估进行分析,发现评分和排名所推断的偏好在人类和人工智能注释者中有显著差异,并揭示了对齐LLMs评估的方法中的关键缺陷和对反馈协议的强烈依赖。
Aug, 2023
我们提出了一个具有13B参数的生成式评测模型Auto-J,通过训练用户查询和大规模真实场景下LLM生成的响应,以适应多样化的评估协议,包括对比评估和单一响应评估,并提供详细分析和案例研究来揭示我们方法的潜力。
Oct, 2023
通过构建一个综合的人工评估框架,我们提出了一个评估大规模语言模型在不同实际任务中遵循指令的能力的方法,同时设计了详细的评估标准和过程,释放了一个包含不同难度水平和知识领域的测试集,并分析了自动化评估的可行性。我们的研究为评估英语和中文大规模语言模型的人类对齐性提供了一个标准化的方法,旨在促进安全和人类对齐性大规模语言模型发展进步的基准化。
Nov, 2023
采用人类和大型语言模型作为评判者(即人类和LLM评判者)来评估现有LLM的性能已经引起了关注。然而,这种方法同时引入了人类和LLM评判者的潜在偏见,对评估结果的可靠性提出了质疑。本文提出了一种针对LLM和人类评判者的5种偏见的新框架。我们整理了一个包含142个样本的数据集,涉及修订后的布鲁姆分类法,并进行了数千次人类和LLM评估。结果表明,人类和LLM评判者在不同程度上都容易受到扰动,并且即使是最先进的评判者也存在相当大的偏见。我们进一步利用它们的弱点对LLM评判者进行了攻击。我们希望我们的工作能让社区意识到人类和LLM评判者在面对扰动时的脆弱性,以及开发健壮评估系统的紧迫性。
Feb, 2024
通过对人类和重要语言模型的偏好进行细致分析,研究发现人类对错误不太敏感,倾向于支持他们的观点的回答,并且当模型承认其局限性时显示出明显的不喜欢。相反地,高级语言模型如GPT-4-Turbo更强调正确性、清晰度和无害性。此外,相似大小的语言模型往往表现出类似的偏好,无论它们的训练方法如何,并且对于仅预训练的语言模型来说,通过对齐进行微调并不显著改变其偏好。最后,研究发现基于偏好的评估可以被有意地操纵,将模型与评委的偏好保持一致将提高评分,而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化,例如在MT-Bench上高达0.59分(1-10分制),在AlpacaEval 2.0上高达31.94分(0-100分制),突显了这种战略性调整的重要影响。
Feb, 2024
使用Pairwise-preference Search(PAIRS)方法,通过对比评估候选文本,解决了大型语言模型(LLMs)在评估中出现的偏差与不连贯问题。
Mar, 2024
这篇论文通过对多种语言模型作为判断者的性能进行全面研究,发现了使用Cohen的kappa作为测度对齐度的重要性,并比较了不同模型之间的判断数据;该研究发现Llama-3 70B和GPT-4 Turbo语言模型的表现优于人类,然而在排名考生模型方面,JudgeLM-7B和词汇判断器Contains比人类的对齐度低多达34分。通过错误分析和其他研究,包括指导长度和仁慈偏见的影响,该论文为今后在判断者角色上使用语言模型提供了宝贵的经验教训。
Jun, 2024
本研究探讨了大型语言模型(LLMs)在任务评估中的有效性,特别是评估它们是否真正反映人类偏好。我们分析了插入不同指令的提示对评估结果的影响,并提出了一种以模型困惑度为质量衡量的无提示方法。研究发现,尽管提示可以提供指导,但在某些情况下,困惑度与人类评判的吻合度更高,表明提供详细提示的收益有限。
Aug, 2024