ChatGPT 对自然语言解释质量的评级如人类一样：但在哪些尺度上？

COLINGMar, 2024

ChatGPT 对自然语言解释质量的评级如人类一样：但在哪些尺度上？

ChatGPT Rates Natural Language Explanation Quality Like Humans: But on Which Scales?

Fan Huang, Haewoon Kwak, Kunwoo Park, Jisun An

TL;DRAI 的透明度和责任感的需求增加了，因为对 AI 决策背后的推理进行自然语言解释（NLE）对于澄清重要，但通过人的判断进行评估复杂且资源密集，由于主观性和对细粒度评分的需求。本研究探索了 ChatGPT 与人类评估之间的一致性，涵盖了二元、三元和 7-Likert 量表多个等级尺度。我们从三个 NLE 数据集中抽取了 300 个数据样本，并收集了 900 个人类注释，用于信息量和清晰度评分作为文本质量度量。我们还在不同主观性得分范围内进行了配对比较实验，其中基线来源于 8,346 个人类注释。我们的结果表明，在粗粒度尺度上，ChatGPT 与人类的一致性更好。配对比较和动态提示（即在提示中提供语义上相似的示例）提高了一致性。该研究推进了我们对大型语言模型的理解，以在不同配置中评估文本解释质量，为负责任的 AI 发展做出贡献。

Abstract

As AI becomes more integral in our lives, the need for transparency and responsibility grows. While natural language explanations (NLEs) a

transparency responsibility natural language explanations human assessments text explanation quality

发现论文，激发创造

ChatGPT 还是人？检测与说明。解释机器学习模型检测短 ChatGPT 生成文本的决策

本文研究了机器学习模型在准确区分 ChatGPT 生成文本与人类生成文本时是否能够有效训练，使用可解释的人工智能框架来对模型进行了解释，研究发现采用 ChatGPT 重新短语生成能够使模型识别 ChatGPT 生成文本与人类生成文本之间的差异更具挑战性。

Jan, 2023

使用 ChatGPT 进行类人摘要评估

通过四种人类评估方法对五个数据集上的文本摘要进行评估，研究探讨了 ChatGPT 在人类化摘要评估方面的表现，ChatGPT 优于某些数据集上常用的自动评估指标。此外，研究还分析了不同提示对结果的影响，并与人工评估结果进行了比较，从而探讨了生成的解释和无效响应。

Apr, 2023

ChatGPT-Crawler: 查看 ChatGPT 的言论是否可靠

本研究分析了 ChatGPT 在不同对话问答语料库中生成的回答，并使用 BERT 相似度得分进行比较，以获取自然语言推理（NLI）标签。该研究还确定了 ChatGPT 提供错误答案的情况，提供了有关该模型可能存在错误的领域的见解。通过评估分数，比较 GPT-3 和 GPT-4 的整体性能。

Apr, 2023

ChatGPT 是一种好的 NLG 评估器吗？初步研究

研究通过在三个常用的 NLG 元评估数据集上实验，评估 ChatGPT 作为 NLG 指标的可靠性，结果表明其与黄金人类判断的相关性达到了同类指标的最高水平或具有竞争性。

Mar, 2023

人工智能协作生成自由文本解释的重新构架

本文探讨利用人类书写的样例以几乎无监督的方式创作自由文本解释的任务，发现高质量的提示有助于提高语言模型的生成效果，同时人类研究表明 GPT-3 生成的解释在某些情况下能够胜过人工生成的解释；作者还结合 GPT-3 与学习自评价的筛选器对生成的解释进行过滤，结果表明这一方法能够实现较高水平的解释过滤。

Dec, 2021

评估 ChatGPT 的信息提取能力：性能、可解释性、校准度和忠实度评估

本研究使用 7 个信息提取任务评估了 ChatGPT 在理解用户意图和提供合理回答方面的总体能力，发现其在标准信息提取设置中的表现差，但在 OpenIE 设置中表现出色，并提供高质量和可信任的解释，但存在预测自信度过高导致校准性低的问题。

Apr, 2023

ChatGPT 是否能与神经机器翻译匹敌？一项比较研究

通过比较 ChatGPT 和主流神经机器翻译（NMT）引擎将中文外交文本翻译成英文，本文评估了大型语言模型在翻译方面的能力。研究采用四个自动化度量和基于错误类型和六个分析指标的人工评估来检验 ChatGPT 和 NMT 引擎的翻译质量。研究结果表明，在不同的提示下，自动化度量对 ChatGPT 产生了类似的结果，而当提供翻译任务的示例或上下文信息时，人工评估者更倾向于给 ChatGPT 较高的评分。自动化度量与人工评估维度之间的两两相关性结果弱且不显著，这表明了两种翻译质量评估方法之间的差异。这些发现为 ChatGPT 作为一种可靠的机器翻译工具以及提示工程对其性能的影响提供了有价值的见解。

Jan, 2024

CHATGPT 与语言模型的比较分析

本文比较了 ChatGPT 在自然语言处理领域中，在机器翻译、文本摘要、问答和语言生成等方面的表现，并使用自由质量（SQ）分数与每个类别中的主要算法进行了比较。通过有效的验证策略，安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。

Mar, 2023

GPT 与人类在科学评论中的对比：ChatGPT 在科学领域的应用的双重来源评论

新型多面手大语言模型可通过分析大量数据加快科学评审，使用更无偏的定量度量指标，促进跨学科的联系，确定新兴趋势和研究领域，并通过评估大量数据来识别的方法，但目前它们缺乏对复杂方法的深入理解，评估创新性的主张存在困难，并且无法评估伦理问题和利益冲突。

Dec, 2023

聊天机器人对话回应的评分

在本文中，我们通过提交 60 个提问并基于三项机器翻译评分标准（BLEU，METEOR 和 ROUGE）对 ChatGPT 的回答进行了分析，结果显示出与人类典型反应相比，ChatGPT 在回复和翻译方面的能力虽然显著，但仍有所欠缺。

Feb, 2023