生成评估法官
通过对大规模语言模型进行微调以构建可扩展的评判模型,提出了一种有效评估大规模语言模型的方法,并成功应用于新的基准测试中,获得了最佳表现。
Oct, 2023
这篇论文通过对多种语言模型作为判断者的性能进行全面研究,发现了使用 Cohen 的 kappa 作为测度对齐度的重要性,并比较了不同模型之间的判断数据;该研究发现 Llama-3 70B 和 GPT-4 Turbo 语言模型的表现优于人类,然而在排名考生模型方面,JudgeLM-7B 和词汇判断器 Contains 比人类的对齐度低多达 34 分。通过错误分析和其他研究,包括指导长度和仁慈偏见的影响,该论文为今后在判断者角色上使用语言模型提供了宝贵的经验教训。
Jun, 2024
本文研究自然语言生成的评估方法,并通过自动化评估和人工评估的比较,发现词汇重叠是自然语言生成的较好评估指标,而人工评估与自动化评估在排名上存在较大差异,因此呼吁重新考虑自然语言生成的评估目标。
Jan, 2019
通过自动数据整理和评估,利用优秀的语言模型和视觉语言模型衡量对齐 VLMs 与人类智能的能力,我们提出了 Auto-Bench 作为一个灵活、可扩展和全面的评估 benchmark。
Nov, 2023
通过用自然语言生成技术输出的对比评估方法来检验大型自然语言模型的表现,使得在不依靠特定域和属性情况下进行评估成为可能。
Jul, 2023
使用 LLm 评估员小组 (PoLL) 替代单个大模型如 GPT4 进行评估,可以在减少评估成本的情况下,展现较少内部模型偏见,并且在三种不同的评估环境和六个不同数据集上表现更好。
Apr, 2024
本研究提出了一个新的框架,利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练,避免了对已对齐的 LLMs 的依赖,这种方法的结果是,我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型中表现良好,我们的 7B 大小的模型在使用 GPT-4 作为评判员的 A /B 测试中表现优异,平均获胜率约为 75%。
May, 2023
我们提出了一种新颖的平台,用于评估大型语言模型(LLMs)自主撰写和评论跨科学、人文、教育和法律等各个学科的调研论文的能力。这个框架中,人工智能系统通过模拟同行评审机制进行操作,类似于传统学术期刊,人类组织者担任编辑监督职责。在这个框架内,我们为 2023 年 AutoML 会议组织了一次竞赛。参赛者的任务是根据指定提示撰写独立的文章,并对其进行评估。评估标准包括清晰度、参考文献适当性、责任性和内容的实质价值。本文介绍了竞赛的设计,包括实施基线提交和评估方法。
Oct, 2023
本文提出了一种新的自动对齐框架 SELF-JUDGE,通过在模型中集成筛选器和评价器的功能来实现高效的在线策略学习,无需单独引入奖励模型进行训练,实验证明 SELF-JUDGE 在偏好基准测试中表现优异。
Feb, 2024
评估 NLP 模型时,使用 LLM-generated 判断取而代之人为判断的趋势日益增长。我们提供了一个由人工注释的 20 个 NLP 数据集的 JUDGE-BENCH,并对 11 个当前的 LLM 进行全面评估,涵盖公开权重和专有模型,以验证其模拟注释的能力。我们的评估结果表明,每个 LLM 在与人工判断的相关性方面在不同数据集上存在很大的差异。我们得出结论,LLM 尚不具备系统替代 NLP 中的人类评审员的能力。
Jun, 2024