基于条件生成的大型语言模型性能基准测试

Jun, 2023

基于条件生成的大型语言模型性能基准测试

Benchmarking Large Language Model Capabilities for Conditional Generation

Joshua Maynez, Priyanka Agrawal, Sebastian Gehrmann

TL;DR本文提出如何将 PLMs 应用到现有应用程序特定的生成基准上，对输入和输出语言等不同维度的 PLMs 在自然语言生成任务方面的优点和局限性进行了深入的实证研究，并分享了在开发新 PLMs 时考虑到的基准生成能力的最佳实践。

Abstract

Pre-trained large language models (PLMs) underlie most new developments in natural language processing. They have shifted the field from application-specific model pipelines to a single model that is adapted to a wide range of tasks. Autoregressive PLMs like GPT-3 or PaLM, alongside techniques like →

pre-trained language models natural language generation few-shot learning empirical study benchmarking

发现论文，激发创造

文本生成的预训练语言模型：综述

本文综述了预训练语言模型在文本生成方面的主要进展，包括模型结构、输入数据的适配以及重要的微调策略。对于文本生成研究者而言，该综述提供了相关研究的综合和指引。

May, 2021

ElitePLM：预训练语言模型通用语言能力评估的实证研究

本文介绍了一个对预训练语言模型（PLMs）的普适语言能力进行大规模实证研究的 ElitePLM，并设计了四个评估维度来衡量十种广泛使用的 PLMs，包括记忆、理解、推理和组合。实验结果表明，PLMs 在不同的能力测试中表现出色；下游任务中的微调通常对数据大小和分布敏感；PLMs 在类似任务之间具有出色的可转移性，并且 PLMs 的预测结果在我们的实验中作为开放资源发布，以进行更深入和详细的 PLMs 语言能力分析。这篇论文可以引导未来的工作选择，应用和设计特定任务的 PLMs。

May, 2022

大型语言模型：一份调查报告

对大型语言模型（LLMs）进行了综述，包括三个流行的 LLM 系列（GPT，LLaMA，PaLM）的特点、贡献和局限性，同时讨论了构建和增强 LLMs 的技术、为 LLM 训练、微调和评估准备的常用数据集以及常用的 LLM 评估指标，最后讨论了未来的挑战和研究方向。

Feb, 2024

文本生成预训练语言模型综述

本文对基于预训练语言模型的文本生成方法进行了综述，包括如何编码输入、设计生成模型、以及如何优化预训练语言模型以生成特定性质的文本；同时讨论了应用与存在挑战，总结了有用资源和应用举例，并提出了未来研究方向。

Jan, 2022

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023

大型语言模型在语言教学和评估技术中的应用

本文研究了大型语言模型在以 AI 为驱动的语言教学和评估系统中的潜在应用，探讨了几个研究领域，并讨论了与语言学习者相关的基于生成式 AI 的风险和伦理考虑。

Jul, 2023

大型语言模型仍无法规划 (面向规划和变化推理的 LLM 基准测试)

该研究提出了一种可扩展的评估框架来测试 LLMs 在行动和变化推理方面的能力，从而证明现有的推理基准测试是简单化的，无法支持关于 LLMs 推理能力的夸张的说法，并展示了 GPT-3、Instruct-GPT3 和 BLOOM 对这些任务的表现不佳。

Jun, 2022

预训练语言模型在简单知识图谱问答中的实证研究

本文针对知识图谱问答中不同预训练语言模型的性能对比，基于两个基本框架和三个基准数据集进行了实验和分析，结果表明知识蒸馏和知识增强技术对于知识图谱问答有很大的帮助；同时，该文还测试了 ChatGPT 在零样本知识图谱问答方面的表现，最终发布了相关代码与基准数据集供后续研究使用。

Mar, 2023

基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估

通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。

Aug, 2023

语言模型是少样本学习器

在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现，同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现，并探讨了 GPT-3 模型优势和局限性。

May, 2020