- 低秩适应的连续学习
本文主要研究了基于预训练转换器的领域增量学习问题,在课题涉及的下游数据上,该方法表现出了令人印象深刻的性能,但当数据特征发生变化时,性能会下降;通过研究 Low Rank Adaptation(LoRA)在领域增量学习中的适用性,我们的基于 - 代码语言模型综述
系统综述了代码处理与语言模型的最新进展,包括 50 + 种模型,30 + 项评估任务和 500 多个相关研究。分析了通用语言模型(如 GPT 系列)和专门针对代码进行预训练的模型之间的关系和区别,并强调了代码建模从统计模型和 RNN 到预训 - 深度神经网络可以学习可推广的同异视觉关系
经过深度神经网络的训练和微调,预训练的变换器可以学习到具有几乎完美准确度的在分布之外的同异关系,尤其针对缺乏纹理或颜色的抽象形状训练的模型表现最佳。
- 通过人类和语言模型引导,从零开始构建知识图谱
通过启动众包工人和大规模语言模型(LLM)的反馈,我们提出了一种从零开始构建知识图谱的方法,用于建立一个日本事件知识图谱,并训练出日本常识生成模型。实验证明了该图谱的可接受性以及训练模型产生的推理能力。
- FedYolo:使用预训练变换器增强联邦学习
本研究探讨了使用预训练转换器来实现设备上的联合学习目标,并深入研究了模型大小和模块化的作用,其中 Modularity 通过提示或适配器等模块实现适应性,Scale 能够减少通信次数。结果证明,使用单个通用模型可以解决多个不相关的任务,并且 - 预训练任务多样性与回归非贝叶斯上下文学习的出现
通过研究预训练数据集中任务多样性的不同,探究在不同任务多样性阈值下,在新的情境下可以有多大能力。结果表明,如果预训练的数据具有足够的多样性,那么可以在新任务中解决问题,但是这种能力依赖于违背 Bayes 最优估计并将 Gauss 先验分布中 - ACLLAIT:具有可调层数和互动的变压器中高效的多段编码
本研究提出了一种名为 “Layer-Adjustable Interactions” 的编码器架构,可将输入的文本分成片段进行单独编码和联合编码,以实现在提高多项自然语言处理任务的表现的同时,减少注意力计算量。
- 通用多语言文档编码器
本研究使用维基百科作为训练数据,通过交叉语言对比的目标来训练具有上下文感知的浅层文档转换器,它可以用于监督和非监督文档级任务。该模型在两个常见的跨语言文档级任务中比基于段落的表示和多语言 Longformer 表现更好,并成功推广到了未见过 - 源代码的参数高效微调变压器
本文介绍了针对代码的预训练模型参数高效微调的适配器和 LoRA 两种方法,经过四项代码处理任务测试,发现这些高效微调方法在代码理解任务中可以实现可比或更高的性能,但在代码生成任务中性能不如标准的全微调。这些结果强调了在其他领域测试高效微调方 - 预训练的转换器并不总是能提高健壮性
对 10 种模型进行对比研究,发现在加入噪声数据的情况下,预训练 Transformer 模型比传统模型提供了更少的鲁棒性,在使用对抗过滤方法进行扩展后,虽然增加了泛化性,但在面对噪声数据时依然无法提供足够的鲁棒性。
- Transformer 模型在社会人口调整中的局限性
本文旨在探究在新型预训练变压器模型下是否也存在特定群体的社会人口因素能够大幅提高自然语言处理任务性能的情形,研究使用领域特定知识等有效的特化方法对性别和年龄这两个社会人口维度进行了适应,通过语言建模和动态多任务学习的组合,将语言表示出社会人 - 预训练转换器的神经知识库
本文提出一种神经知识库及知识注入策略,将额外的事实知识注入到预训练模型中,验证了其对模型性能的提升,同时保证了模型通用语言建模能力的不变性,并探讨了知识库的可解释性和灵活性。
- 基于 Transformer 的大规模预训练文字到视频生成技术 CogVideo
该研究提出 CogVideo,一个 9B 参数的 transformer 预训练模型,通过继承预训练的文本到图像模型 CogView2 进行训练,同时采用多帧率层次化训练策略以更好地对齐文本和视频片段。作为可能是第一个开源的大规模预训练文本 - ACLAbductionRules: 训练 Transformer 解释意料之外的输入
该研究旨在探讨 Transformer 网络在自然语言的事实和规则上的逻辑推理,但未充分研究其在归纳推理中的应用。AbductionRules 是一组自然语言数据集,旨在训练和测试自然语言知识库上的归纳推理的可推广性。通过 Fine-tun - S2S-FT: Fine-Tuning 预训练的 Transformer 编码器用于序列到序列学习
本文介绍了一个序列到序列微调工具 s2s-ft,采用预训练的双向 Transformer 进行条件生成任务,实现了三种序列到序列微调算法,替代计算昂贵的传统方法,实验结果表明,在多项抽象概括和问题生成基准测试中,s2s-ft 实现了强大的性 - EMNLP图注意力网络实现的对比文档表征学习
本文提出使用图注意力网络在可用的预训练 Transformer 模型之上来学习文档嵌入,并基于该模型设计简单的对比学习策略,在大量无标签语料库上预训练模型。经验证明,我们的方法在文档分类和文档检索任务中是有效的。
- EMNLP预训练变换器的对比分布外检测
本文提出了一种使用只有训练集数据的预训练 Transformer 进行无监督的离群检测方法,该方法使用对比度损失调整 Transformer。最终使用马哈拉诺比斯距离来检测异常数据,实验表明,本文方法的性能超过了基准线,并且更紧凑的表示方法 - EMNLPTSDAE: 使用基於 Transformer 的逐步去噪自編碼器進行無監督句子嵌入式學習
本研究基于预训练的 Transformer 和序列去噪自编码器(TSDAE)提出了一种新的最先进的无监督方法,该方法表现优于先前的方法高达 6.4 个点。它可以达到领域内监督方法的性能的 93.1%。 此外,我们证明了 TSDAE 是一种强 - MiniLMv2:多头自注意力关系蒸馏压缩预训练 Transformer
本文介绍了一种基于自注意力关系蒸馏的预训练 transformers 的压缩方法,并通过实验证明该方法优于现有的最先进技术。
- 线性化图形到文本生成中的图形意识提升
本文研究使用预训练 transformers 处理线性化的图输入,并探讨其编码局部图结构的能力和使用图去噪目标增强编码的解决方案对于在低资源环境下提高下游生成的效果。