Active Evaluation: 用少量成对比较有效评估自然语言生成 (NLG)
为了提供更准确的系统间排名并使黄金标准的人工评估更可靠,我们提出了一种被限制的主动采样框架(CASF)用于可靠的人工判断。通过学习器、系统化采样器和约束控制器,CASF 选择代表性样本以获得更准确的系统间排名。CASF 在 137 个真实的 NLG 评估设置上进行了实验,涉及 16 个数据集和 5 个 NLG 任务,使用了 44 个人工评估指标。实验结果展示 CASF 在 93.18% 的情况下成功识别出排名最高的系统,并在 90.91% 的人工评估指标上排名第一或第二,整体系统间排名 Kendall 相关性为 0.83。代码和数据可在网上公开获得。
Jun, 2024
提出了一种新的 dueling bandits 模型来解决在线排名器评估中的探索 - 开发权衡问题,该模型使用对于无限数量的排名器的同时比较。实验结果表明,该算法与现有的最先进的 dueling bandit 算法相比,表现出了数量级的性能提升。
Aug, 2016
本文提出了一种使用 BERT fine-tuning 的方法来比较生成的自然语言模型,同时还提出了使用技能等级系统来评估模型质量,并将其作为性能指标,在训练过程中进行优化。实验结果表明,该方法与人类偏好的相关性更高,训练成果更优秀,有效性得到了证明。
Feb, 2020
通过用自然语言生成技术输出的对比评估方法来检验大型自然语言模型的表现,使得在不依靠特定域和属性情况下进行评估成为可能。
Jul, 2023
本研究致力于解决在大型带噪数据集上扩大模型评估规模的问题,并采用主动测试框架,有效查询用户,以最小化审核,测试两种常见计算机视觉任务的性能指标,并表明该方法比其他评估协议更具稳健性,并能节省显着的人工标注工作量。
Jul, 2018
本 paper 探讨了语言处理领域中评估模型常使用的平均值等聚合方法存在的缺陷,并通过理论与实验证明采用基于对比的聚合方法如测量模型间比较的 Bradley-Terry(BT)模型可以更好的反映模型之间的差异。最后,研究提供了一个可供实用的工具来辅助基于 BT 方法进行实验评估。
Oct, 2021
本文研究自然语言生成的评估方法,并通过自动化评估和人工评估的比较,发现词汇重叠是自然语言生成的较好评估指标,而人工评估与自动化评估在排名上存在较大差异,因此呼吁重新考虑自然语言生成的评估目标。
Jan, 2019
本文提出 NLG 评估标准协议中存在的假设并分析了其局限性,同时提出了一个更理论严谨的改进方案,并针对开放式任务提出了新的 SPA 人类评估协议。使用 SPA 进行人类评估时,可以使用系统级概率评估恢复 GPT-3 模型大小排序且差异具有统计学意义。
May, 2022
利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持,本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界,提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法,并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。
Dec, 2023
通过引入黑盒对抗性评估框架 AdvEval,利用强大的语言模型作为数据生成器和金标评估器,自动优化对抗数据并产生强烈的人工评估与受害评估之间的不一致性,实现了对自然语言生成系统进行鲁棒性评估的研究。在 12 个受害评估器和 11 个自然语言生成数据集上的实验证明了 AdvEval 的有效性。
May, 2024