探索使用大型语言模型进行基于参考文本无关的文本质量评估：初步实证研究

Apr, 2023

探索使用大型语言模型进行基于参考文本无关的文本质量评估：初步实证研究

Exploring the Use of Large Language Models for Reference-Free Text Quality Evaluation: A Preliminary Empirical Study

Yi Chen, Rui Wang, Haiyun Jiang, Shuming Shi, Ruifeng Xu

TL;DR通过比较三种基于ChatGPT或类似大型语言模型的无参考评估方法，实验证明ChatGPT能够有效地从不同角度评估文本质量，尤其是利用ChatGPT生成数字评分的Explicit Score方法最有效可靠。但是，直接使用ChatGPT比较两个文本的质量可能导致次优结果。

Abstract

Evaluating the quality of generated text is a challenging task in natural language processing. This difficulty arises from the inherent complexity and diversity of text. Recently, OpenAI's chatgpt, a powerful

发现论文，激发创造

ChatGPT是一种好的NLG评估器吗？初步研究

研究通过在三个常用的 NLG 元评估数据集上实验，评估 ChatGPT 作为 NLG 指标的可靠性，结果表明其与黄金人类判断的相关性达到了同类指标的最高水平或具有竞争性。

Mar, 2023

通过盲评审和文本分类算法比较ChatGPT生成的抽象概括和真实概括

本研究通过使用自动度量和盲审人员评估 ChatGPT 在编写摘要上的表现，同时构建自动文本分类器以检测 ChatGPT 生成的摘要，并发现虽然文本分类算法可以区分真实和生成的摘要，但人类无法区分真实摘要和 ChatGPT 生成的摘要。

Mar, 2023

CHATGPT与语言模型的比较分析

本文比较了ChatGPT在自然语言处理领域中，在机器翻译、文本摘要、问答和语言生成等方面的表现，并使用自由质量（SQ）分数与每个类别中的主要算法进行了比较。通过有效的验证策略，安全性和可大规模采用LLM的示例总结了该论文的观点和结果。

Mar, 2023

ChatGPT在超越英语方面的综合评估：多语言学习中的大型语言模型

本研究评估了多语言文本处理技术的热门系统ChatGPT在37种不同的语言中进行的7项不同任务的表现，揭示了其在不同NLP任务和语言方面的表现与其他模型相比较差，需要进一步的研究来发展更好的模型和了解多语言学习。

Apr, 2023

评估ChatGPT的信息提取能力：性能、可解释性、校准度和忠实度评估

本研究使用7个信息提取任务评估了ChatGPT在理解用户意图和提供合理回答方面的总体能力，发现其在标准信息提取设置中的表现差，但在OpenIE设置中表现出色，并提供高质量和可信任的解释，但存在预测自信度过高导致校准性低的问题。

Apr, 2023

ChatGPT是否解决了信息提取？绩效、评估标准、鲁棒性和错误分析

本文评估了ChatGPT模型在性能、评估标准、稳健性和错误类型四个方面的能力，并提出了一种用于更准确反映ChatGPT性能的软匹配策略，同时发现了ChatGPT的最主要的错误类型是“未注释的跨度”，从而引发了对标注数据质量的关注，并提示可以使用ChatGPT进行数据标注。

May, 2023

ChatGPT在基准数据集上的系统研究和综合评估

本文通过评估ChatGPT在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的LLM研究提供思路。作者发现ChatGPT能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

ChatGPT与人类撰写文本：可控文本摘要与句子风格转移的洞见

本文研究 ChatGPT 在不同目标受众和写作风格下的表现，发现相比人类撰写的文章，ChatGPT 生成的样本在词汇类型分布等方面存在差异，并可能出现事实错误或幻觉。

Jun, 2023

开源大型语言模型在文本注释任务中胜过众包工作者并接近ChatGPT

研究比较了开源的大型语言模型（LLMs），ChatGPT和人工服务（如MTurk）在文本标注任务中的表现。发现开源LLMs在高效性，透明性，可再现性和数据保护方面具有竞争力，虽然ChatGPT在大多数任务中表现最好，但开源LLMs在特定任务中也有较高的竞争潜力。

Jul, 2023

使用大型语言模型评估研究质量：对ChatGPT在不同设置和输入下有效性的分析

本研究解决了评估学术期刊文章质量这一耗时且关键的任务，探讨了大型语言模型在此过程中的作用。研究发现，使用文章标题和摘要作为输入，ChatGPT可提供与人工评分高度相关的质量评分，表明这一方法在研究质量评估中具备潜在的应用价值。

Aug, 2024