大型语言模型在自然语言生成任务中的系统评估

May, 2024

大型语言模型在自然语言生成任务中的系统评估

A Systematic Evaluation of Large Language Models for Natural Language Generation Tasks

Xuanfan Ni, Piji Li

TL;DR研究论文从自然语言生成任务的角度全面评估了ChatGPT、ChatGLM、基于T5的模型、基于LLaMA的模型和基于Pythia的模型等众所周知且表现良好的大型语言模型的性能，并提出了一种常见的评估设置，其中包括输入模板和后处理策略，通过与详细分析相结合的自动结果来报告研究结果。

Abstract

Recent efforts have evaluated large language models (LLMs) in areas such as commonsense reasoning, mathematical reasoning, and code generation. However, to the best of our knowledge, no work has specifically investigated the →

发现论文，激发创造

CHATGPT与语言模型的比较分析

本文比较了ChatGPT在自然语言处理领域中，在机器翻译、文本摘要、问答和语言生成等方面的表现，并使用自由质量（SQ）分数与每个类别中的主要算法进行了比较。通过有效的验证策略，安全性和可大规模采用LLM的示例总结了该论文的观点和结果。

Mar, 2023

应用LLMs：ChatGPT和其他模型的调查

本文提供一个关于使用大型语言模型（LLMs）处理自然语言处理（NLP）下游任务的全面指南，讨论了模型、数据和下游任务等方面的关键问题。同时提供了大量使用案例和非使用案例，以便于实现这些模型在各种NLP任务中的成功应用。

Apr, 2023

ChatGPT在基准数据集上的系统研究和综合评估

本文通过评估ChatGPT在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的LLM研究提供思路。作者发现ChatGPT能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

对大型语言模型评估的调查

大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估LLMs的方法和维度，并总结了LLMs在不同任务中的成功案例、失败案例和未来挑战。

Jul, 2023

对大型语言模型在受控生成任务中的评估

大型语言模型在生成任务中的可控性和精细硬性约束方面存在挑战。

Oct, 2023

探究大型语言模型的对话理解能力

最近大型语言模型（LLMs）的出现吸引了相当多的注意力。本研究提出利用对话摘要任务评估对话理解性能，并从生成的摘要中推导出事实性问题作为对话理解的更灵活的测量方式。评估结果表明，大多数LLMs生成的摘要中有27%的事实不一致，即使最强模型ChatGPT也有16%的错误摘要，而对于更具挑战性的事实问题回答，所有评估的LLMs的平均准确率仅为62.8%。详细分析表明，LLMs对话理解能力中最令人挑战的问题仍然是对话的主题/客体的理解，为了刺激和提高LLMs对话理解能力，我们提出了一种通过自动构建多任务数据进行微调的范式，实验结果显示我们的方法在DIAC-FactQA上获得了8.9%的准确率提升。

Nov, 2023

利用大型语言模型进行自然语言生成评估：综述

自然语言生成（NLG）评估中引入大型语言模型（LLM）为评估生成内容质量提供了新的途径，本文提供了对利用LLM进行NLG评估的全面概述，包括组织现有基于LLM的评估指标的一致性分类法、批判性评估不同的LLM方法以及比较其在评估NLG输出中的优势和局限性，讨论未解决的挑战，并推动更公平、更先进的NLG评估技术。

Jan, 2024

基于LLM的自然语言生成评估: 现状与挑战

自然语言生成（NLG）的评估是人工智能中一个重要但具有挑战性的问题。本文调查了基于大型语言模型的NLG评估方法，探讨了它们的优势和劣势，讨论了人机合作的NLG评估，并提出了该领域的几个开放问题和未来的研究方向。

Feb, 2024

大型语言模型：一份调查报告

对大型语言模型（LLMs）进行了综述，包括三个流行的LLM系列（GPT，LLaMA，PaLM）的特点、贡献和局限性，同时讨论了构建和增强LLMs的技术、为LLM训练、微调和评估准备的常用数据集以及常用的LLM评估指标，最后讨论了未来的挑战和研究方向。

Feb, 2024

大型语言模型遇上自然语言处理: 一项调研

大语言模型在自然语言处理任务中的应用及未来发展潜力的研究，包括LLMs的当前进展，应用领域的分类，新研究前沿以及相关挑战。

May, 2024