利用自然语言解释缩放人类判断
本文提出了一种基于大型语言模型的数据注释方法,通过提示示例和解释的方式,实现了无监督的数据注释,实验结果表明该方法优于众包注释方法。
Mar, 2023
利用少数专家标签和解释,借助大规模语言模型 (LLM) 近似人类判断分布 (HJD), 从而提供了一种对 HJD 进行标注扩展的解决方案。然而,利用 LLM 生成的判断分布 (MJD) 进行微调时,结果存在部分不一致性,需要同时使用全局级的形状度量和可视化来更有效地评估 MJD 和 HJD 的一致性。
Jun, 2024
该研究提出了一种新的度量人工注释解释质量的指标,即帮助性指标,以比较传统的模拟能力评分。在五个数据集和两种模型架构上对该指标进行了评估,结果表明其能够客观地评估注释解释的质量,同时传统的模拟能力评分则不能。
May, 2023
研究使用大型语言模型对输入进行注释以提高自然语言处理模型的泛化性,并提出一种基于模型预测得分差异的采样策略来重新训练模型,证明在分类和排名任务中取得了显著的精度提高。
Jun, 2023
本文研究了不同规模的语言模型的行为表现,并提出一种使用语言模型自动生成评估的方法,并发现了一些逆比例缩放情况下的新现象,例如:更大的语言模型表现为对资源获取和目标保持更浓厚的兴趣,并且此类的逆比例缩放(Inverse scaling)情况在 RL from human feedback 上也得到了验证。
Dec, 2022
评估自由文本解释是一个多方面、主观、费时的任务。大型语言模型呈现出一种吸引人的替代方案,因为它们具有一致性、可扩展性和成本效益方面的潜力。在这项工作中,我们提出了 ACORN 数据集,其中包含 3,500 个自由文本解释和按方面的质量评分,并利用该数据集来了解语言模型如何评估解释。我们观察到,有时替换人工评分会维持,但更常见的是降低不同设置和质量方面之间的评分一致性,这表明它们的判断并不总是与人工评定者一致。我们进一步通过比较不同质量方面上 LLM 生成的评分与大多数人工评分之间的相关性来量化这种差异。在最佳系统中,Spearman 等级相关性在不同方面之间的范围为 0.53 到 0.95,平均为 0.72,表示有着中等高度但不完全一致的相关。最后,我们考虑了在人工评定者有限的情况下,使用 LLM 作为额外的评定者的替代方案,并测量了多数人工标签与有限人工队列和 LLM 作为额外评定者之间的相关性,与原始金标签进行比较。当只有两个人工评定者时,GPT-4 改善了结果,在所有其他观察到的情况中,在有三个或更多人工评定者时,LLMs 对结果中立或有害。我们公开发布此数据集以支持未来 LLM 在环评估的改进。
May, 2024
评估 NLP 模型时,使用 LLM-generated 判断取而代之人为判断的趋势日益增长。我们提供了一个由人工注释的 20 个 NLP 数据集的 JUDGE-BENCH,并对 11 个当前的 LLM 进行全面评估,涵盖公开权重和专有模型,以验证其模拟注释的能力。我们的评估结果表明,每个 LLM 在与人工判断的相关性方面在不同数据集上存在很大的差异。我们得出结论,LLM 尚不具备系统替代 NLP 中的人类评审员的能力。
Jun, 2024