生成上下文感知的自监督语音模型微调
通过提示工程,大型语言模型(LLMs)展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而,在自然语言理解和问题回答方面,提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。
Dec, 2023
通过引入一种新方法,结合大型语言模型(LLMs)来进行上下文化的语音识别模型,我们证明通过添加适配器的少量可训练参数,可以在保持相同的文本输入功能的同时,实现预训练 LLM 的上下文化语音识别能力并显著提高性能。
Sep, 2023
最近,随着大量的大型语言模型(LLMs)的出现,人工智能的实施进入了一个新时代。尽管这些模型本身具有能力和结构,但对于 LLMs 来说,能够对更长、更复杂的上下文具有增强理解能力而又保持相对较小的规模的需求不断增长。本文在对 LLMs 内部信息传递的本质进行深入研究的基础上,提出了一种名为 Attention Transition 的新技术。该技术使模型能够在最小的额外训练或对生成流畅性的影响下,实现更长、更好的上下文理解。我们的实验在 XSum 上进行,与原始生成结果相比取得了显著改进。
Jul, 2023
理解上下文是理解人类语言的关键,本论文介绍了一个上下文理解基准,通过适应现有数据集来评估生成模型的能力,并发现预先训练的稠密模型在理解复杂上下文特征方面比优化调整模型困难。
Feb, 2024
基于大语言模型的隐藏状态,我们提出了一种新的环境下问答的归因方法,绕过重复训练模型和检索模型开销,提供精细的归因并保持结果质量,在识别出 LLM 生成的文字时表现出与 GPT-4 相当甚至更好的性能,且适用于各种 LLM 架构。
May, 2024
本文提出了一种名为 “选择性上下文” 的方法,利用自身信息来过滤 less informative 的内容,并在不同数据源上展示了提高固定上下文长度效率的有效性。
Apr, 2023
使用弱监督和微调大型语言模型(LLM)的方法,在几乎没有领域知识的情况下,能够在性能上显著优于传统的有限的标准数据的监督方法,利用基于提示的方法,LLM 生成弱标记数据来训练下游的 BERT 模型,然后将弱监督模型进一步在少量的标准数据上进行微调,通过评估发现该方法优于 out-of-the-box PubMedBERT 4.7% 至 47.9% 的 F1 得分。
Jun, 2024
通过理论和实证研究,我们首次确定了上下文学习中的标签偏移现象,并提出了一种生成校准方法,通过调整标签边际分布来校准上下文预测分布,实验证明该方法在文本分类任务中显著且一致地优于其他校准方法,同时对于不同的提示配置也表现稳定。
Oct, 2023
通过引入一种不确定性感知的上下文学习框架,我们改进了大规模语言模型的响应质量,并过滤掉具有较高不确定性的答案,从而提高了模型的准确性。
Oct, 2023