ACORN: 方面级常识推理解释评估

May, 2024

ACORN: Aspect-wise Commonsense Reasoning Explanation Evaluation

Ana Brassard, Benjamin Heinzerling, Keito Kudo, Keisuke Sakaguchi, Kentaro Inui

TL;DR评估自由文本解释是一个多方面、主观、费时的任务。大型语言模型呈现出一种吸引人的替代方案，因为它们具有一致性、可扩展性和成本效益方面的潜力。在这项工作中，我们提出了 ACORN 数据集，其中包含 3,500 个自由文本解释和按方面的质量评分，并利用该数据集来了解语言模型如何评估解释。我们观察到，有时替换人工评分会维持，但更常见的是降低不同设置和质量方面之间的评分一致性，这表明它们的判断并不总是与人工评定者一致。我们进一步通过比较不同质量方面上 LLM 生成的评分与大多数人工评分之间的相关性来量化这种差异。在最佳系统中，Spearman 等级相关性在不同方面之间的范围为 0.53 到 0.95，平均为 0.72，表示有着中等高度但不完全一致的相关。最后，我们考虑了在人工评定者有限的情况下，使用 LLM 作为额外的评定者的替代方案，并测量了多数人工标签与有限人工队列和 LLM 作为额外评定者之间的相关性，与原始金标签进行比较。当只有两个人工评定者时，GPT-4 改善了结果，在所有其他观察到的情况中，在有三个或更多人工评定者时，LLMs 对结果中立或有害。我们公开发布此数据集以支持未来 LLM 在环评估的改进。

Abstract

Evaluating free-text explanations is a multifaceted, subjective, and labor-intensive task. large language models (LLMs) present an appealing alternative due to their potential for consistency, scalability, and co

free-text explanations large language models acorn dataset inter-annotator agreement llm-generated ratings

发现论文，激发创造

利用自然语言解释缩放人类判断

本文提出了一种利用自然语言解释对大型语言模型进行训练的方法，通过收集一致性注释来标记数据，以及利用该方法对大型语言模型进行训练，从而提高标注数据的质量。

May, 2023

大型语言模型作为推荐解释的评估器

使用 LLMs 作为评估者能够提供准确、可重复和经济高效的解决方案，用于评估推荐解释文本的质量。

Jun, 2024

AnnoLLM: 使大型语言模型成为更好的众包注释工具

本文提出了一种基于大型语言模型的数据注释方法，通过提示示例和解释的方式，实现了无监督的数据注释，实验结果表明该方法优于众包注释方法。

Mar, 2023

使用 LLMs 探索定性研究

本研究对语言模型（LLMs）的理解能力进行了比较和对照，发现人类分析师和 LLMs 的分类和推理能力存在显著差异，但二者合作可能会产生协同效应，从而丰富了定性研究。

Jun, 2023

大规模语言模型在自动评估中的深入研究

使用大型语言模型（LLMs）评估文本质量近来变得流行。本文分析了 LLM 评估（Chiang 和 Lee，2023）和 G-Eval（Liu et al.，2023），讨论了评估过程中的细节如何改变 LLMs 给出的评分与人类评分的相关性。我们发现 G-Eval 中使用的自动思维链（CoT）并不总是使 G-Eval 与人类评分更加一致。我们还表明，强制 LLM 仅输出数字评分，如 G-Eval 中所示，是不理想的。最后，我们揭示出要求 LLM 解释其自身评分会持续改善 ChatGPT 与人类评分之间的相关性，并在两个元评估数据集上推动了最新技术的相关性。

Oct, 2023

大型语言模型作为金融数据注释工具的效果与效率研究

研究通过比较三种大型语言模型与专家标注者和众包工人标注的金融文档，发现大型语言模型可作为提取金融文档中关系的高效数据标注工具，并引入了一个可靠性指标用于识别需要专家关注的输出，提供了在特定领域设置中自动化注释的收集和使用的建议。

Mar, 2024

CoAScore：链式方面激励的自然语言生成评估

通过引入 CoAScore 评估系统，基于大型语言模型，该系统利用多个方面的知识以提高自然语言生成的评估质量，并显著优于现有的无监督评估指标。

Dec, 2023

利用 LLMs 进行对话质量测量

该论文探讨了使用大型语言模型（LLMs）进行自动对话质量评估的方法，并在公共和专有数据集上尝试了各种配置。结果表明，更大的模型产生了更准确的对话标签；算法选择背景上下文示例优于随机选择；在输出最终标签之前，使用 “思维链”（CoT）推理和标签提取过程进行合理化，可以提高性能；精细调整的 LLMs 优于开箱即用的模型。研究结果表明，合适地调整和具有足够推理能力的 LLMs 可以用于自动对话评估。

Jun, 2024

REASONS: 使用公开和私有的大型语言模型进行科学句子的检索和自动引用

大型语言模型（LLM）是否能根据直接查询和间接查询在文档或报告中生成参考文献是智能分析、网络安全、新闻机构和教育人员至关重要的问题。本研究通过调查大型语言模型在生成参考文献任务中的表现，引入名为 REASONS 的大型数据集，以科学研究领域的 12 个最热门领域的摘要为基础，得出相关结论，并提供有关自动引文生成任务可靠性的有价值的见解。

May, 2024

人工智能协作生成自由文本解释的重新构架

本文探讨利用人类书写的样例以几乎无监督的方式创作自由文本解释的任务，发现高质量的提示有助于提高语言模型的生成效果，同时人类研究表明 GPT-3 生成的解释在某些情况下能够胜过人工生成的解释；作者还结合 GPT-3 与学习自评价的筛选器对生成的解释进行过滤，结果表明这一方法能够实现较高水平的解释过滤。

Dec, 2021