利用自然语言解释缩放人类判断

May, 2023

Using Natural Language Explanations to Rescale Human Judgments

Manya Wadhwa, Jifan Chen, Junyi Jessy Li, Greg Durrett

TL;DR本文提出了一种利用自然语言解释对大型语言模型进行训练的方法，通过收集一致性注释来标记数据，以及利用该方法对大型语言模型进行训练，从而提高标注数据的质量。

Abstract

The rise of large language models (LLMs) has brought a critical need for high-quality human-labeled data, particularly for processes like human feedback and evaluation. A common practice is to label data via

large language models human-labeled data consensus annotation natural language explanations ordinal annotation

发现论文，激发创造

AnnoLLM: 使大型语言模型成为更好的众包注释工具

本文提出了一种基于大型语言模型的数据注释方法，通过提示示例和解释的方式，实现了无监督的数据注释，实验结果表明该方法优于众包注释方法。

Mar, 2023

通过少量解释来近似人类对 NLI 的判断分布：从小处寻找大视角

利用少数专家标签和解释，借助大规模语言模型 (LLM) 近似人类判断分布 (HJD), 从而提供了一种对 HJD 进行标注扩展的解决方案。然而，利用 LLM 生成的判断分布 (MJD) 进行微调时，结果存在部分不一致性，需要同时使用全局级的形状度量和可视化来更有效地评估 MJD 和 HJD 的一致性。

Jun, 2024

人类解释总是有帮助的吗？走向对人类自然语言解释客观评估

该研究提出了一种新的度量人工注释解释质量的指标，即帮助性指标，以比较传统的模拟能力评分。在五个数据集和两种模型架构上对该指标进行了评估，结果表明其能够客观地评估注释解释的质量，同时传统的模拟能力评分则不能。

May, 2023

大型语言模型作为注释器：在最小成本下增强 NLP 模型的泛化能力

研究使用大型语言模型对输入进行注释以提高自然语言处理模型的泛化性，并提出一种基于模型预测得分差异的采样策略来重新训练模型，证明在分类和排名任务中取得了显著的精度提高。

Jun, 2023

使用模型编写的评价方法发现语言模型行为

本文研究了不同规模的语言模型的行为表现，并提出一种使用语言模型自动生成评估的方法，并发现了一些逆比例缩放情况下的新现象，例如：更大的语言模型表现为对资源获取和目标保持更浓厚的兴趣，并且此类的逆比例缩放（Inverse scaling）情况在 RL from human feedback 上也得到了验证。

Dec, 2022

大型语言模型作为推荐解释的评估器

使用 LLMs 作为评估者能够提供准确、可重复和经济高效的解决方案，用于评估推荐解释文本的质量。

Jun, 2024

ACORN: 方面级常识推理解释评估

评估自由文本解释是一个多方面、主观、费时的任务。大型语言模型呈现出一种吸引人的替代方案，因为它们具有一致性、可扩展性和成本效益方面的潜力。在这项工作中，我们提出了 ACORN 数据集，其中包含 3,500 个自由文本解释和按方面的质量评分，并利用该数据集来了解语言模型如何评估解释。我们观察到，有时替换人工评分会维持，但更常见的是降低不同设置和质量方面之间的评分一致性，这表明它们的判断并不总是与人工评定者一致。我们进一步通过比较不同质量方面上 LLM 生成的评分与大多数人工评分之间的相关性来量化这种差异。在最佳系统中，Spearman 等级相关性在不同方面之间的范围为 0.53 到 0.95，平均为 0.72，表示有着中等高度但不完全一致的相关。最后，我们考虑了在人工评定者有限的情况下，使用 LLM 作为额外的评定者的替代方案，并测量了多数人工标签与有限人工队列和 LLM 作为额外评定者之间的相关性，与原始金标签进行比较。当只有两个人工评定者时，GPT-4 改善了结果，在所有其他观察到的情况中，在有三个或更多人工评定者时，LLMs 对结果中立或有害。我们公开发布此数据集以支持未来 LLM 在环评估的改进。

May, 2024

用大型经验研究代替人类法官？跨 20 个 NLP 评估任务

评估 NLP 模型时，使用 LLM-generated 判断取而代之人为判断的趋势日益增长。我们提供了一个由人工注释的 20 个 NLP 数据集的 JUDGE-BENCH，并对 11 个当前的 LLM 进行全面评估，涵盖公开权重和专有模型，以验证其模拟注释的能力。我们的评估结果表明，每个 LLM 在与人工判断的相关性方面在不同数据集上存在很大的差异。我们得出结论，LLM 尚不具备系统替代 NLP 中的人类评审员的能力。

Jun, 2024

我们能利用大型语言模型填补相关性评判空缺吗？

利用大型语言模型填补测试集中的空缺，以扩展现有的测试集合，并找出人工注释与自动注释的一致性差异，从而更好地满足人类需求的工作。

May, 2024

利用大型语言模型（LLMs）支持人工智能在线风险数据协作注释

利用 LLMs 作为交互式研究工具，促进人类编码员与人工智能之间的合作，有效地标记大规模在线风险数据。

Apr, 2024