基于 LLM 的排行榜生成中的有效上下文选择:一项实证研究
该研究通过评估 Mistral 7B、Llama-2、GPT-4-Turbo 和 GPT-4.o 这四个 LLM 模型对实证 AI 研究文章中的领先者信息的提取效果,探讨了三种上下文输入类型(DocTAET、DocREC 和 DocFULL)对模型的影响,综合评估了这些模型在从研究论文中生成(任务、数据集、指标、得分)四元组方面的性能,揭示了每个模型和上下文类型的优势和局限性,为未来的 AI 研究自动化工作提供了有价值的指导。
Jun, 2024
通过提示工程,大型语言模型(LLMs)展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而,在自然语言理解和问题回答方面,提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。
Dec, 2023
本文提出了一种名为 “选择性上下文” 的方法,利用自身信息来过滤 less informative 的内容,并在不同数据源上展示了提高固定上下文长度效率的有效性。
Apr, 2023
使用选择性上下文方法(Selective Context)可以显著提高大型语言模型(LLMs)的推理效率,减少内存占用和推理时间,并在维持可比较性能的基础上实现对上下文成本的 50%降低,36%的推理内存使用率降低以及 32%的推理时间降低。
Oct, 2023
本文研究了大型语言模型(如 GPT-4)存在的挑战,特别是在回答复杂问题时容易出现错觉、逻辑错误和错误结论的问题。语言模型能以一种连贯且语义严谨的方式呈现错误答案的能力进一步增加了发现事实不准确性的困难。这个问题在需要专业知识的领域尤为明显。我们的工作深入探讨了这些挑战,旨在增强对此类错误的理解和缓解,从而提高科学和其他专业领域中 LLMs 的准确性和可靠性。我们的研究结果揭示了上下文相关性与答案质量之间的非线性关系。此外,我们证明了在正确校准的情况下,可能实现自动评分 —— 这一发现表明,至少在某种程度上,LLMs 可以用于自我检验其性能质量。最后,我们描述了一个实验平台,可以被视为对本文描述的技术的概念验证。
Dec, 2023
通过与用户与搜索引擎的交互历史相关的上下文,我们提出了一种新颖且通用的方法,用于个性化输出,这对于理解用户当前的搜索背景以及他们历史上知道和关心的内容是必要的。我们验证了我们的方法在上下文查询建议的任务上优于几个其他 LLM 基准方法,生成了在上下文中更相关、个性化和有用的查询建议。
Nov, 2023
理解上下文是理解人类语言的关键,本论文介绍了一个上下文理解基准,通过适应现有数据集来评估生成模型的能力,并发现预先训练的稠密模型在理解复杂上下文特征方面比优化调整模型困难。
Feb, 2024
本文旨在探讨如何使用主动学习算法作为选择最佳演示文稿的方法来服务于上下文学习,对比了基于不确定性、多样性和相似性等各种标准的演示文稿选择算法,并表明相似性算法胜过其他所有方法,包括随机抽样和不确定性抽样。
May, 2023
最近,随着大量的大型语言模型(LLMs)的出现,人工智能的实施进入了一个新时代。尽管这些模型本身具有能力和结构,但对于 LLMs 来说,能够对更长、更复杂的上下文具有增强理解能力而又保持相对较小的规模的需求不断增长。本文在对 LLMs 内部信息传递的本质进行深入研究的基础上,提出了一种名为 Attention Transition 的新技术。该技术使模型能够在最小的额外训练或对生成流畅性的影响下,实现更长、更好的上下文理解。我们的实验在 XSum 上进行,与原始生成结果相比取得了显著改进。
Jul, 2023
通过引入一种不确定性感知的上下文学习框架,我们改进了大规模语言模型的响应质量,并过滤掉具有较高不确定性的答案,从而提高了模型的准确性。
Oct, 2023