关于现场学习的调查
在自然语言处理领域中,GPT-3 的开发以来,上下文学习(ICL)在利用大型语言模型(LLM)方面发挥了重要作用。尽管 ICL 在 NLP 领域取得了成功,但鲜有工作探索了 ICL 在语音处理中的可能性。本研究提出了第一个探索 ICL 与语音语言模型在无文本监督下的结合的方法。通过提出的热启动训练方法,语音语言模型能够在未知任务上进行 ICL,而当前的语音语言模型不具备这种能力。我们通过在语音分类任务上验证了语音语言模型进行 ICL 的可行性。
Oct, 2023
大型语言模型(LLMs)在上下文学习(ICL)方面展示了显着的能力,在没有明确预训练的情况下,仅通过少量的训练示例学习新任务。然而,尽管 LLMs 获得了成功,对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中,为了对 ICL 的学习行为有所了解,我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs,并研究它们在一系列分类任务中在标签扰动(即嘈杂标签和标签不平衡)下的表现。通过广泛的实验证明,我们首先发现黄金标签对下游上下文性能有显著影响,尤其是对于大型语言模型;然而,对于所有模型大小,不平衡标签对 ICL 的影响较小。其次,通过与 SL 进行比较,我们实证表明 ICL 对标签扰动的敏感性较低,并且随着模型大小的增加,ICL 逐渐获得与 SL 相当的性能。
Jul, 2023
利用预训练的密集检索模型,我们在有限样本设置中的常见意图分类数据集上,以及特定情况下的细粒度情感分类中,优于微调性能。通过多个实验,我们分析了模型对于上下文示例和不同模型规模的利用情况,并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。
Sep, 2023
探讨了大型语言模型在上下文学习中的能力,并研究了上下文演示的不同方面对机器翻译任务的影响。观察到不同模型家族对扰动示例呈现不同的行为,表明上下文学习的鲁棒性可能受到多种因素的影响。需要进一步研究来全面了解这些因素。
Jan, 2024
通过研究在背景语境中的大规模神经语言模型对正则语言的学习,我们展示了 Transformers 相对于递归或卷积模型在 in-context 语言学习任务上的显著优势,并提出硬连接高阶归纳头到递归和卷积模型可改善这个任务和自然语言建模的性能。
Jan, 2024
通过数据生成的视角重新解释最近的努力,并展示了流行技术解决方案的潜在更广泛的用途,接近了一个系统的角度。对于概念定义,我们严格采用技能学习和技能识别的术语。我们还对不同解决方案的优点和缺点进行了全面研究,并突显了在数据生成视角下它们之间的统一性,为未来研究结合不同研究线路的优势建立了技术基础。
Feb, 2024
通过分析 In-Context Alignment(ICA)的机制和适用性,本研究发现示例部分对提升模型对齐能力至关重要,同时还评估了 ICA 在不同对齐任务中的零 - shot 能力,结果显示相较于参数微调方法,ICA 在基于知识和工具应用任务上表现出更好的性能,然而在多轮对话和按指示执行任务方面仍存在某些局限性。
Jun, 2024
通过并行处理不同批次的样本,依据语义相似性在上下文学习中同时使用所有示范样本,并通过加权平均语义目标选择最合适的标记,从而提高 ICL 的有效性。
Mar, 2024
在这项研究中,我们介绍了一种名为 Implicit In-context Learning (I2CL) 的创新范式,通过将演示样例吸收到激活空间中,解决了传统 In-context Learning (ICL) 所面临的挑战。经过实证评估,I2CL 在三种模型架构的九个真实世界任务上实现了接近零成本的少样本性能,并且对演示样例的变化表现出鲁棒性。此外,I2CL 促进了一种名为 “task-ids” 的新颖表示,增强了任务相似性检测能力并实现了有效的迁移学习。
May, 2024