SINC:自我监督上下文学习用于视觉 - 语言任务
在大语言模型时代,人机交互朝着自然语言发展,提供了前所未有的灵活性。然而,大语言模型在上下文学习领域内高效运行往往依赖于结构良好的提示。为了解决这一挑战,我们的研究提出了一个名为自动上下文学习的通用框架。在接收到用户的请求后,我们要求模型自主生成示例,包括标签、说明或推理路径。然后,模型利用这个自产的上下文来解决给定的问题。我们的方法具有普适性,可在适用于普通上下文学习的任何环境中实施。我们展示了我们的方法在一系列任务中取得了强大的性能,并与现有方法相比表现出色。
Nov, 2023
本文研究如何使图像 - 语言领域的大规模预训练模型具备上下文学习的能力,通过将自然语言处理领域的元学习应用于视觉 - 语言领域,并使用视觉编码器实现跨域转移学习,实验证明可以显著提高视觉问答任务的上下文学习能力,甚至可以补偿模型的大小并取得比基线模型更好的表现。
Jun, 2023
通过在普通文本语料库中使用简单语言建模目标来预训练模型,PICL 能够增强语言模型的上下文学习能力,从而提高其在文本分类和 NLP 任务等方面的性能,其优于大量基线模型,并具有更高的任务泛化能力。
May, 2023
本文介绍了大型语言模型在上下文学习中的递归学习能力,即元上下文学习。作者以两个理想化的领域为例,展示了元上下文学习是如何适应性地重塑大型语言模型对预期任务的先验知识,并修改其上下文学习策略。最后,作者通过真实世界回归问题的基准测试发现,元上下文学习与传统学习算法相比具有有竞争力的性能。通过元上下文学习而不是传统的 finetuning 来纯粹地适应大型语言模型应用的环境,可以提高大家对上下文学习的理解,为大型语言模型的应用打下基础。
May, 2023
本研究探讨了大语言模型中的上下文学习现象,并证明了基于长期相关性的预训练可以促进上下文学习。通过人工合成数据集,实验结果表明了模型规模对上下文学习的影响,以及例子顺序和零样本学习等现象。
Nov, 2021
我们提出了一种新的具有多模态输出功能的视觉理解的上下文学习框架,通过将文本和视觉提示量化和嵌入到统一的表示空间中,并采用仅具有解码器的稀疏 Transformer 架构在其上执行生成建模。实验结果表明,我们的模型在统一的多模态管线中实现了与专门模型和先前上下文学习基准模型相竞争的性能。总体而言,我们的研究在统一多模态上下文学习方面迈出了进一步的一步。
Dec, 2023
在科学机器学习的不断发展中,上下文操作符学习在推理阶段从提示数据中学习操作符而无需进行权重更新方面显示出显著潜力。然而,当前模型对传感器数据的过度依赖可能会无意中忽视对操作符的宝贵人类洞察力。为了解决这个问题,我们将上下文操作符学习转化为多模态范式的方法。我们提出使用 “标题” 来集成人类关于操作符的知识,通过自然语言描述和方程式来表达。我们说明了这种方法不仅扩展了物理驱动学习的灵活性和广泛性,而且显著提高了学习性能并减少了数据需求。此外,我们介绍了一种更高效的多模态上下文操作符学习神经网络架构,称为 “ICON-LM”,基于类似语言模型的架构。我们展示了 “ICON-LM” 在科学机器学习任务中的可行性,为语言模型的应用开辟了新的道路。
Aug, 2023
本文通过多种线性和非线性函数类的实证观察,延伸了之前的研究,表明了 transformers 的理想学习者表现,并探究了其在 Bayesian 模型和多任务环境下的应用,还以傅里叶级数为例研究了其归纳偏差。
Jun, 2023
本文研究了大型语言模型展示的 “上下文学习” 现象,并解释了预训练的 transformer 模型如何在合理的假设下执行上下文学习。我们推出了一种机制,使得 transformer 模型能够正确划分上下文,推断出稀疏线性回归假说,并应用此假说进行预测,在该学习框架中的样本复杂度保证。
May, 2023
本文提出自生成上下文学习(SG-ICL)方法,用于生成 pre-trained language model(PLM)自身的演示文稿,以便在上下文学习中减少对外部演示的依赖。在四个不同的文本分类任务上进行实验,并表明 SG-ICL 显著优于零样本学习,一般值约为 0.6 金培训样本。此外,所生成的演示文稿与从训练数据集中随机选出的演示文稿相比,表现更具一致性和低方差。
Jun, 2022