ChatGPT 是一种好的 NLG 评估器吗?初步研究
通过四种人类评估方法对五个数据集上的文本摘要进行评估,研究探讨了 ChatGPT 在人类化摘要评估方面的表现,ChatGPT 优于某些数据集上常用的自动评估指标。此外,研究还分析了不同提示对结果的影响,并与人工评估结果进行了比较,从而探讨了生成的解释和无效响应。
Apr, 2023
本文通过评估 ChatGPT 在各种自然语言处理任务中的表现,旨在验证其优缺点,并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务,取得很好的表现,但仍有许多难题需要解决。
May, 2023
本文通过标准测试、极性转移测试、开放域测试和情感推理测试等方法,对 ChatGPT 在理解文本中的意见、情感和情绪方面进行了初步评估,并与 Fine-tuned BERT 和现有的端到端情感分析模型进行了比较,并进行了人工评估和定性分析。
Apr, 2023
对 ChatGPT 和 GPT-4 的语言能力、科学知识和伦理考虑进行全面评估的研究,包括现有评估方法的探讨和未来研究中对大型语言模型的评估建议。
Aug, 2023
本文介绍了关于文本摘要的各种方法,包括提取式和抽象式,并探讨了大型语言模型在此方面的应用潜力。作者以四个数据集为例,展示了 ChatGPT 生成的摘要与人类参考的差异,并发现 ChatGPT 在摘要性能上可以与传统的微调方法媲美。该研究为各种文本摘要任务开辟了新方向,提供了有价值的见解。
Feb, 2023
本文通过对 ChatGPT 在需求分析任务上的表现进行实证评估,探讨生成式大语言模型在自然语言处理领域对需求工程的影响,结果显示 ChatGPT 在多语言多类型需求文档检索上表现出令人惊叹的能力。
Apr, 2023
通过比较 ChatGPT 和主流神经机器翻译(NMT)引擎将中文外交文本翻译成英文,本文评估了大型语言模型在翻译方面的能力。研究采用四个自动化度量和基于错误类型和六个分析指标的人工评估来检验 ChatGPT 和 NMT 引擎的翻译质量。研究结果表明,在不同的提示下,自动化度量对 ChatGPT 产生了类似的结果,而当提供翻译任务的示例或上下文信息时,人工评估者更倾向于给 ChatGPT 较高的评分。自动化度量与人工评估维度之间的两两相关性结果弱且不显著,这表明了两种翻译质量评估方法之间的差异。这些发现为 ChatGPT 作为一种可靠的机器翻译工具以及提示工程对其性能的影响提供了有价值的见解。
Jan, 2024
ChatGPT 作为一个问答系统,通过对其在提供的段落中提取回答的能力进行评估,发现它在生成模型方面表现出了实力,但在问题回答方面相对于特定任务模型表现较差,而提供上下文可以提高其性能,提问方式对其准确性有所影响,并且在提供的上下文中提供了无法从中获取答案的问题的回答,还存在答案幻觉的现象。
Dec, 2023
本研究的目的是为了评估 ChatGPT 在关键词生成方面的性能,在 6 个基准数据集上测试了其在不同方面的表现,发现其在关键词生成方面表现突出,但仍存在一些生成不全的关键词的挑战和限制。
Mar, 2023
使用大型语言模型和一种具有连续思考特点的填充范式,提出了一种 NLG 质量评估框架,结合两种生成任务 —— 文本摘要和对话生成,使用 GPT-4 模型作为骨干模型,与以往方法相比性能更好。
Mar, 2023