使用 ChatGPT 进行文本风格转移的多维度评估
通过四种人类评估方法对五个数据集上的文本摘要进行评估,研究探讨了 ChatGPT 在人类化摘要评估方面的表现,ChatGPT 优于某些数据集上常用的自动评估指标。此外,研究还分析了不同提示对结果的影响,并与人工评估结果进行了比较,从而探讨了生成的解释和无效响应。
Apr, 2023
研究通过在三个常用的 NLG 元评估数据集上实验,评估 ChatGPT 作为 NLG 指标的可靠性,结果表明其与黄金人类判断的相关性达到了同类指标的最高水平或具有竞争性。
Mar, 2023
本文研究 ChatGPT 在不同目标受众和写作风格下的表现,发现相比人类撰写的文章,ChatGPT 生成的样本在词汇类型分布等方面存在差异,并可能出现事实错误或幻觉。
Jun, 2023
对 ChatGPT 和 GPT-4 的语言能力、科学知识和伦理考虑进行全面评估的研究,包括现有评估方法的探讨和未来研究中对大型语言模型的评估建议。
Aug, 2023
本文通过评估 ChatGPT 在各种自然语言处理任务中的表现,旨在验证其优缺点,并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务,取得很好的表现,但仍有许多难题需要解决。
May, 2023
本文介绍了关于文本摘要的各种方法,包括提取式和抽象式,并探讨了大型语言模型在此方面的应用潜力。作者以四个数据集为例,展示了 ChatGPT 生成的摘要与人类参考的差异,并发现 ChatGPT 在摘要性能上可以与传统的微调方法媲美。该研究为各种文本摘要任务开辟了新方向,提供了有价值的见解。
Feb, 2023
本文提出了一个评估 ChatGPT 等交互式 LLM 的框架,使用公开数据集进行多任务、多语言和多模态方面的评估,发现 ChatGPT 能够生成多模态内容,但是其推理能力较差,存在幻觉问题,但通过 “提示工程” 可以与人类协作,提高性能。
Feb, 2023
通过比较 ChatGPT 和主流神经机器翻译(NMT)引擎将中文外交文本翻译成英文,本文评估了大型语言模型在翻译方面的能力。研究采用四个自动化度量和基于错误类型和六个分析指标的人工评估来检验 ChatGPT 和 NMT 引擎的翻译质量。研究结果表明,在不同的提示下,自动化度量对 ChatGPT 产生了类似的结果,而当提供翻译任务的示例或上下文信息时,人工评估者更倾向于给 ChatGPT 较高的评分。自动化度量与人工评估维度之间的两两相关性结果弱且不显著,这表明了两种翻译质量评估方法之间的差异。这些发现为 ChatGPT 作为一种可靠的机器翻译工具以及提示工程对其性能的影响提供了有价值的见解。
Jan, 2024
本研究旨在填补大型语言模型在推荐场景中的潜力研究空白,并通过实验评估 ChatGPT 在零样本推荐系统中的能力及其与标准推荐算法以及其他大型语言模型的对比表现。
Sep, 2023
通过比较三种基于 ChatGPT 或类似大型语言模型的无参考评估方法,实验证明 ChatGPT 能够有效地从不同角度评估文本质量,尤其是利用 ChatGPT 生成数字评分的 Explicit Score 方法最有效可靠。但是,直接使用 ChatGPT 比较两个文本的质量可能导致次优结果。
Apr, 2023