校准基于LLM的评估器
综述了大型语言模型对齐技术的全面概述,包括数据收集、训练方法和模型评估,并提供了未来研究方向的启示,是了解和推进适应人类任务和期望的LLM对齐的宝贵资源。
Jul, 2023
通过对大型语言模型的评估,本文发现LLM-based evaluators在多语言评估方面可能存在偏差,并需要使用本地语言的数据集进行校准。
Sep, 2023
大型语言模型(LLMs)作为通过简单提示和上下文学习的自动评估器已被证明有效。本研究汇集了四个不同规模范围的15个LLMs,并通过系统之间的偏好排序来评估它们的输出响应,如System Star优于System Square。我们引入了LLMs作为评估器的认知偏差基准(CoBBLEr)来评估排序输出的质量,该基准用于衡量LLM评估输出中的六种不同的认知偏差,如自我中心偏差,其中模型倾向于高度评估其自身的输出。我们发现LLMs是有偏差的文本质量评估器,在评估中展示出强烈的偏见基准迹象(在所有模型中的比较平均为40%),这对其作为评估器的稳健性提出了质疑。此外,我们检查了人类和机器偏好之间的相关性,并计算出平均Rank-Biased Overlap(RBO)得分为49.6%,表明机器偏好与人类不一致。根据我们的发现,LLMs可能仍然不能用于与人类偏好对齐的自动注释。我们的项目页面位于此https URL。
Sep, 2023
通过构建一个综合的人工评估框架,我们提出了一个评估大规模语言模型在不同实际任务中遵循指令的能力的方法,同时设计了详细的评估标准和过程,释放了一个包含不同难度水平和知识领域的测试集,并分析了自动化评估的可行性。我们的研究为评估英语和中文大规模语言模型的人类对齐性提供了一个标准化的方法,旨在促进安全和人类对齐性大规模语言模型发展进步的基准化。
Nov, 2023
通过将任务分解为更细粒度的评估标准,然后根据人类偏好进行聚合和修剪,HD-Eval框架提供了一种改进LLM评估器对人类喜好的对齐的方法,并在多个层次上全面捕捉自然语言的方面。
Feb, 2024
使用Pairwise-preference Search(PAIRS)方法,通过对比评估候选文本,解决了大型语言模型(LLMs)在评估中出现的偏差与不连贯问题。
Mar, 2024
本研究通过使用SummEval数据集进行一系列分析,证实了大型语言模型作为评估器在以下方面存在偏见和不一致性:(1)体现对低困惑度文本的偏好;(2)显示具有偏见的评分分布;(3)经历多属性判断时的锚定效应。此外,我们分享了配置大型语言模型评估器以减轻这些限制的方法,通过RoSE数据集的实验证明了与最先进的大型语言模型评估器相比的改进。
May, 2024
使用SLAM展示,在设备上的小型语言模型是与基于API的大型语言模型(如OpenAI的GPT-4)相比,一种可行且成本效益高的替代方案,具有可比的性能和稳定性。这份后续研究详细探讨了如何通过解决偏向高标记数的偏差,来调整LLM评估器与人类评估的偏好之间的差异问题。通过采用贝叶斯统计和t检验来量化此偏差,并开发出重新校准GPTScorer的过程,我们的研究结果在多个应用案例中,显著改进了重新校准的LLM评估器与人类评估之间的斯皮尔曼等级相关分数,例如,在推荐系统的案例中,从-27.27提高到44.55。这些结果强调了在自动化评估中考虑偏差的重要性,以确保公正准确的模型评估。重新校准过程提高了自动评估器的可靠性,从而产生与人类价值观和期望相一致的更好的AI模型。该研究为未来的偏差校正研究提供了强有力的方法,并强调了开发与人类一致的AI评估系统的可行性和益处。
Jul, 2024
本研究探讨了大型语言模型(LLM)在对齐任务中作为评判者的可靠性问题,尤其是评估现有评价指标的可解释性和LM内部不一致性的问题。通过开发新的评价框架,本文揭示了不同提示模板对LLM评判者性能的显著影响,并指出测试的LLM评判者与人类评估者之间存在中等对齐水平。本工作为选择用于对齐任务的LLM评判者提供了重要的见解。
Aug, 2024
本研究针对大语言模型(LLMs)在评估中的不准确性和人类评估的高成本进行改进,提出了开源的一体化评估模型CompassJudger-1。该模型具备多种评估功能,并搭建了新的基准JudgerBench,以统一评估不同模型的性能,促进评估方法的进步。
Oct, 2024