大型语言模型是否能理解上下文?
通过引入LongBench,对8个大型语言模型进行全面评估,我们发现商业模型(GPT-3.5-Turbo-16k)优于其他开源模型,但在更长的语境下仍存在困难;在较长序列上进行的缩放位置嵌入和微调,在长语境理解方面带来了实质性的改进;检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进,但性能仍落后于具有强大长上下文理解能力的模型。
Aug, 2023
通过引入一种新方法,结合大型语言模型(LLMs)来进行上下文化的语音识别模型,我们证明通过添加适配器的少量可训练参数,可以在保持相同的文本输入功能的同时,实现预训练LLM的上下文化语音识别能力并显著提高性能。
Sep, 2023
使用选择性上下文方法(Selective Context)可以显著提高大型语言模型(LLMs)的推理效率,减少内存占用和推理时间,并在维持可比较性能的基础上实现对上下文成本的50%降低,36%的推理内存使用率降低以及32%的推理时间降低。
Oct, 2023
通过提示工程,大型语言模型(LLMs)展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而,在自然语言理解和问题回答方面,提高LLMs的泛化能力和准确性的关键挑战仍未得到充分探索。
Dec, 2023
通过探究任务,我们在本文中首次尝试研究大型语言模型(LLMs)的逐层能力,并利用ChatGPT的生成能力构建了探测数据集,以提供与各种事实相对应的多样且一致的证据,结果表明LLMs在编码上下文知识方面更倾向于将更多知识码在上层,首先将知识与实体标记在较低层编码,然后在上层逐渐增加其他标记中的知识,并在提供无关证据时逐渐忘记中间层保留的较早的上下文知识。
Feb, 2024
对大型语言模型的量化技术进行研究,发现4位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能,并且困惑度可以作为量化语言模型的代理度量。然而,量化也会影响推断速度,因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。
Feb, 2024
在极限标签分类领域中,本研究介绍了一种专门的基准测试(LIConBench),重点关注长上下文学习。我们评估了13个长上下文大语言模型在我们的基准测试上,发现在20K的令牌长度下,大部分大语言模型表现相对良好且受益于利用长上下文窗口,然而,在上下文窗口超过20K后,除了GPT-4之外,大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战,我们相信LIConBench可以作为未来长上下文大语言模型的更切实可行的评估。
Apr, 2024
我们介绍了一个长文本理解的基准测试XL2Bench,其中包含三个场景:小说阅读、论文阅读和法律阅读,以及四个难度递增的任务:记忆检索、细节理解、整体理解和开放式生成,涵盖了27个子任务,用英文和中文表示,平均长度为100K+词(英文)和200K+字符(中文)。我们评估了六个领先的大型语言模型在XL2Bench上的表现,发现它们的性能明显落后于人类水平。此外,我们观察到在原始数据集和增强数据集上的性能下降,凸显了我们缓解数据污染的方法的有效性。
Apr, 2024
本研究解决了大型语言模型在使用外部知识时因显著的上下文检索问题导致的回应质量下降和延迟问题。提出的指令感知上下文压缩方法通过过滤不必要的信息来提升模型的响应效率和准确性。实验表明,该方法能显著减少内存消耗、提高推理速度,同时保持与完整上下文相当的性能,具备较高的实用价值。
Aug, 2024