基于条件生成的大型语言模型性能基准测试
本文综述了预训练语言模型在文本生成方面的主要进展,包括模型结构、输入数据的适配以及重要的微调策略。对于文本生成研究者而言,该综述提供了相关研究的综合和指引。
May, 2021
本文介绍了一个对预训练语言模型(PLMs)的普适语言能力进行大规模实证研究的 ElitePLM,并设计了四个评估维度来衡量十种广泛使用的 PLMs,包括记忆、理解、推理和组合。实验结果表明,PLMs 在不同的能力测试中表现出色;下游任务中的微调通常对数据大小和分布敏感;PLMs 在类似任务之间具有出色的可转移性,并且 PLMs 的预测结果在我们的实验中作为开放资源发布,以进行更深入和详细的 PLMs 语言能力分析。这篇论文可以引导未来的工作选择,应用和设计特定任务的 PLMs。
May, 2022
对大型语言模型(LLMs)进行了综述,包括三个流行的 LLM 系列(GPT,LLaMA,PaLM)的特点、贡献和局限性,同时讨论了构建和增强 LLMs 的技术、为 LLM 训练、微调和评估准备的常用数据集以及常用的 LLM 评估指标,最后讨论了未来的挑战和研究方向。
Feb, 2024
本文对基于预训练语言模型的文本生成方法进行了综述,包括如何编码输入、设计生成模型、以及如何优化预训练语言模型以生成特定性质的文本;同时讨论了应用与存在挑战,总结了有用资源和应用举例,并提出了未来研究方向。
Jan, 2022
本文研究了大型语言模型在以 AI 为驱动的语言教学和评估系统中的潜在应用,探讨了几个研究领域,并讨论了与语言学习者相关的基于生成式 AI 的风险和伦理考虑。
Jul, 2023
该研究提出了一种可扩展的评估框架来测试 LLMs 在行动和变化推理方面的能力,从而证明现有的推理基准测试是简单化的,无法支持关于 LLMs 推理能力的夸张的说法,并展示了 GPT-3、Instruct-GPT3 和 BLOOM 对这些任务的表现不佳。
Jun, 2022
本文针对知识图谱问答中不同预训练语言模型的性能对比,基于两个基本框架和三个基准数据集进行了实验和分析,结果表明知识蒸馏和知识增强技术对于知识图谱问答有很大的帮助;同时,该文还测试了 ChatGPT 在零样本知识图谱问答方面的表现,最终发布了相关代码与基准数据集供后续研究使用。
Mar, 2023
通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估,本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功,并揭示了 LLM 在特定领域应用中存在的问题和短板。
Aug, 2023
在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现,同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现,并探讨了 GPT-3 模型优势和局限性。
May, 2020