自然语言理解中大型语言模型的快速学习：综述

Aug, 2022

自然语言理解中大型语言模型的快速学习：综述

Shortcut Learning of Large Language Models in Natural Language Understanding: A Survey

Mengnan Du, Fengxiang He, Na Zou, Dacheng Tao, Xia Hu

TL;DR本文介绍了大型语言模型的概念、挑战和解决方法，着重关注了数据集偏差和简化学习对其抗干扰性的影响，提出了识别和缓解这些影响的方法，并探讨了未来可能的研究方向。

Abstract

large language models (LLMs) have achieved state-of-the-art performance on a series of natural language understanding tasks. However, these LLMs might rely on →

large language models dataset bias shortcut learning robustness challenge natural language understanding

发现论文，激发创造

学习快速捷径：关于语言模型中自然语言理解的误导承诺

大型语言模型在自然语言处理领域取得了重要的性能提升，然而近期的研究发现，这些模型在执行任务时往往使用了捷径，导致性能看起来得到了提升，却缺乏泛化能力。这一现象给大型语言模型的自然语言理解评估带来了挑战。本文对该领域的相关研究进行了简明调查，并提出了对于捷径学习在语言模型评估中的影响的观点，特别是对于 NLU 任务。本文呼吁加大对捷径学习的研究力度，促进更加强大的语言模型的开发，并提高在实际场景中的 NLU 评估标准。

Jan, 2024

大型语言模型可能是懒惰学习者：在上下文学习中分析快捷方式

本篇研究旨在探索语言模型的泛化能力，结果表明语言模型更可能利用提示中的快捷方式，尤其是模型变得很大时。

May, 2023

针对自然语言理解模型的捷径学习行为进行解释和缓解

本文研究表明，NLU 模型倾向于依赖于快捷特征进行预测，而不是真正理解语言。我们发现 NLU 训练集中的单词可以被建模为长尾分布，进一步提出了一种量化每个训练样例快捷程度的方法，并基于此提出了一个缓解快捷特征对模型训练的影响的框架 LTGR，实验结果表明这种方法可以提高模型对 OOD 数据的泛化能力，同时保持在分布数据上的准确性。

Mar, 2021

大型语言模型（LLM）的几个类别：简要调查

这篇研究论文总结了大型语言模型（LLMs）不同子类的最新发展，包括基于任务的金融 LLMs、多语言 LLMs、生物医学和临床 LLMs，以及视觉语言 LLMs 和代码语言模型。它还强调了聊天机器人和虚拟助手开发领域中的未解决问题，如增强自然语言处理、提升聊天机器人智能性以及解决道德和法律困境，旨在为对基于 LLMs 的聊天机器人和虚拟智能助手技术感兴趣的读者、开发者、学者和用户提供有用的信息和未来方向。

Jul, 2023

估算和提高语言模型的强健性的方法

通过研究大型语言模型的泛化能力问题以及多种提高其分布韧性的方法，本文提出了未来改进大型语言模型鲁棒性的研究方向。

Jun, 2022

再三思考：衡量消除问答模型预测快捷方式的效率

本文提出一种简单的方法，用于评估预训练模型在特定 spurious feature 上的依赖程度并评估各种预训练模型和去偏见方法在问答 (QA) 中对大量已知和新发现偏差的鲁棒性，发现去偏见方法的 OOD 收益不能通过减少对偏见特征的依赖来解释，我们进一步通过测量 OOD 模型的性能表明其依赖于偏见特征，这表明 QA 数据集中存在共享的偏见，同时也需要进一步的工作来提高 LLM 鲁棒性的报告水平。

May, 2023

高效大型语言模型：综述

大型语言模型在自然语言理解、语言生成和复杂推理等重要任务中展示出了卓越的能力，并有潜力对我们的社会产生重大影响。然而，这些能力所需的资源相当可观，强调了开发有效的技术来解决其效率挑战的迫切需求。本调研以系统和全面的方式概述了高效大型语言模型的研究成果，从模型中心、数据中心和框架中心的角度，将文献进行了分类整理。我们还创建了一个 GitHub 存储库，在这个存储库中收集了本调研中涉及的论文，并将积极维护并整合新的研究成果。希望本调研能为研究人员和从业者提供有价值的资源，帮助他们系统地了解高效大型语言模型的研究进展，并激励他们为这个重要而激动人心的领域做出贡献。

Dec, 2023

大型语言模型综述

本篇综述论文全面分析了大型语言模型的架构及其分类、训练策略、训练数据集和性能评估，并讨论了未来的研究方向，最后总结了大型语言模型研究的重要发现和关键的架构和训练策略。

Jul, 2023

教育中的大型语言模型：概述与展望

大语言模型 (LLMs) 在教育领域带来了新的可能性。本综述论文从多个角度总结了 LLMs 在教育环境中的各种技术，包括学生和教师辅助、自适应学习和商业工具。我们系统地审查了每个角度的技术进展，整理了相关的数据集和基准，并识别了在教育中部署 LLMs 所面临的风险和挑战。此外，我们概述了未来的研究机会，强调潜在的有前途的方向。我们的综述旨在为教育工作者、研究人员和决策者提供一个全面的技术画面，以利用 LLMs 的力量革新教育实践，并促进更有效的个性化学习环境。

Mar, 2024

大型语言模型：一份调查报告

对大型语言模型（LLMs）进行了综述，包括三个流行的 LLM 系列（GPT，LLaMA，PaLM）的特点、贡献和局限性，同时讨论了构建和增强 LLMs 的技术、为 LLM 训练、微调和评估准备的常用数据集以及常用的 LLM 评估指标，最后讨论了未来的挑战和研究方向。

Feb, 2024