本文提出了 CALM 实验框架并使用梯度基于对抗攻击的方法对语言模型的内部表示进行破坏性实验,以评估其在执行特定任务时使用每个表示的能力。在对 BERT 等 LM 执行对应关系提示任务的案例研究中,发现 LM 在执行每个任务时所利用的表示高度交织在一起,但可以在它们最常被利用的任务方面进行有意义的解释。
Mar, 2023
使用 Confident Adaptive Language Modeling(CALM)动态分配不同量的计算资源,早期退出解码以减少计算,从而在维持高性能的同时最多可提速三倍,理论分析和实验表明其在减少计算方面的有效性。
Jul, 2022
该研究引入了可扩展语言模型(SLM)来解决现有方法在实际应用中遇到的限制和挑战,通过联合自适应重参数化(JARe)和动态任务相关知识检索(DTKR),实现了语言模型的自适应调节,从而在广泛的应用领域中实现了有效的持续学习。
Apr, 2024
评估语言模型偏见的全面评估基准数据集(CALM)是用于量化与比较语言模型社会人口统计偏见的重要资源,通过整合现有数据集并构建包含 78,400 个样例的 244 个模板的数据集,CALM 数据集更具多样性和可靠性,能更好地评估语言模型的广度和偏见。
Aug, 2023
通过自我监督预训练不断学习的大型语言模型,可以在多个数据集上持续学习并保持先前任务的良好性能,同时展示新的组合方式。
May, 2022
本研究提出了一种新的方法,使用一系列未标记的领域语料库来连续培训语言模型,从而改善它们的最终任务绩效。该方法的关键创新点是一种软掩蔽机制,它直接控制语言模型的更新,同时提供了一个新的代理来保留原始 LM 中的通用知识。实证评估证明了所提方法的有效性。
Feb, 2023
通过将目标为导向的对话形式化为部分可观测的马尔可夫决策过程,并将语言模型解释为动态和策略的表示,我们提出了一种简单有效的方法,即任务重新标记,以目标感知的方式微调语言模型,从而显著提高了任务性能,达到了人类水平的任务表现。我们还引入了一些训练策略,以更好地聚焦于手头的任务。我们使用 AirDialogue 在实际的航班预订任务上评估了我们的方法 Context-Aware Language Models(CALM),在任务成功率方面,CALM 的表现优于现有技术方法 7%。
Apr, 2022
对大型语言模型在持续学习、预训练、微调以及评估协议方面进行综述.
这篇论文研究了大型语言模型(LLMs)中不断学习(CL)领域的发展,重点是开发高效和可持续经验的训练策略。通过不断适应域预训练,我们的研究评估了 LLMs 在不同数据环境中的适应性和能力,并引入了一个新的基准来衡量这种适应能力,揭示了关于知识转移和模型大小的若干关键见解。
Feb, 2024
该论文调研了关于大型语言模型(LLMs)的持续学习方面的最新工作,提出了一种新颖的多阶段分类方案,涉及持续预训练、指令调整和对齐;对 LLMs 的持续学习与更简单的小模型的适应方法以及其他增强策略进行对比;同时,在讨论基准和评估的基础上,提出了几个挑战和未来工作方向。