- 基于模型并行交换的分布式深度学习模型服务
本文介绍了一种名为 Computron 的系统,它利用内存交换来在共享 GPU 集群上提供多个分布式模型的服务,实现模型并行交换设计,提高资源利用率。
- 语言通才与专才:多语言迁移能力的实证再探
本文研究英语中心模型的多语言迁移能力,发现这些模型不仅具有多语言迁移能力,而且在某些情况下可能优于多语言预训练模型,在不同类型的任务中表现出不同的多语言迁移能力,并提供了有价值的洞见,以增强英语中心模型的多语言推理能力。
- 合并模型时解决干扰
本文提出 TrIm 方法,即 Elect Sign & Merge (TIES-Merging) 方法,用于多任务模型的合并,该方法解决了现有合并方法忽略不同模型参数之间干扰,从而导致性能下降的问题。在多种不同情境下的实验中,本方法都表现优 - 通过权重残差的低阶逼近实现精调模型的高效存储
通过权重残差的低秩特性,本文提出了一种高效的存储 fine-tuned 模型的方法,称为 Efficient Residual Encoding(ERE),通过低秩权重残差的逼近来实现 fine-tuned 模型权重的高效存储,并通过使用额 - 对于下游任务,摘要是否有用?人类外在评估对文本摘要的研究
该论文研究了自动文本摘要技术,提出了外部方法来评估文本摘要的实用性,并设计了三种不同的任务,发现细化模型生成的文摘在整体评价型任务中尤为有用。在人工评估和自动评估指标之间也存在一定的限制性。
- USB:跨任务和领域的统一摘要基准
本研究提出一个多维理解摘要的基准测试,并在其上比较了多种模型的性能,发现中等规模的微调模型在多个任务上始终优于更大的几次提示语言模型。同时发现,对于某些任务,训练数据的数量比其来源领域更重要,而对于其他任务,尽管数据量有限,但特定领域的数据 - 医学文本的多语言简化
本研究介绍了 MultiCochrane 数据集,并评估了跨多语言的医学简化文本模型,尽管该模型能够生成可行的简化文本,但我们也发现了仍未解决的挑战。
- 机器学习模型归因挑战
参赛者需要从细致调整的机器学习模型的文本输出中识别出潜在的基础模型,最佳解决方案是人工开发基于公共文档的特征,或者自动的统计方案需要减少调用 API 次数。
- 知识是针对微调语言模型的权重空间中的区域
本研究关注于神经网络的权重空间和损失景观,发现细调模型在权重空间中占有良定义区域,通过在模型之间遍历这些区域找到的新模型能够具有与通过细调得到的模型相当甚至更好的性能表现,此研究的结论为高效细调提供了理论依据。
- 文本到图像扩散的多概念自定义
本文介绍了一种基于 Custom Diffusion 的文本到图像生成模型,只需少量优化参数即可表示新概念并实现快速调整,还可以通过约束优化共同训练多个概念或组合多个微调模型,并在新颖的环境中将多个概念无缝组合生成,此方法在记忆和计算效能方 - 参数空间中的线性插值已足够用于微调语言模型
本文探讨 fine-tuned 模型参数的线性插值,为可控文本生成提供了可能。
- 朝向标准化韩语语法错误修正:数据集和标注
本研究收集了 Kor-Lang8、Kor-Native 和 Kor-Learner 三个数据集,并使用新提出的 Korean Automatic Grammatical error Annotation System (KAGAS) 工具进 - 嵌入空间中的 Transformer 分析
该研究在理论上分析了训练好的 Transformer 模型参数的映射关系与对应的词向量,在嵌入空间中进行模型参数解释,从而实现在模型特定细节抽象化的前提下进行模型参数解释,进一步提出了参数对齐和分类器构建两种应用。
- 针对预训练和微调语言模型的大规模语篇结构理解
本文针对预训练和微调语言模型中的语篇信息进行了深入分析,提出了一种新颖的推断语篇结构的方法,探讨了 BERT 和 BART 模型中内在语篇理解的精确性,同时评估了生成的结构与多种基准模型的相似性以及它们在模型内部和模型之间的分布。
- SlovakBERT:斯洛伐克遮罩语言模型
介绍了一种名为 SlovakBERT 的新型斯洛伐克遮蔽语言模型,是第一篇讨论基于 transformers 的斯洛伐克语言模型的论文。评估发现该模型在多项自然语言处理任务中取得了最优结果,并建立了斯洛伐克语言模型的基准。发布了遮蔽语言模型 - RuleBert: 针对预训练语言模型的软规则教学
本研究通过教授 PLMs 如何使用软 Horn 规则来提高其推理任务的性能,并通过一个分类任务和损失函数来辅助训练,从而实现了高精度的推理。
- ACL利用项目反应理论比较测试数据集
本文通过 Item Response Theory 方法对 18 个预训练 Transformer 模型在 29 个 NLP 数据集上进行实验,结果显示 Quoref,HellaSwag 和 MC-TACO 数据集更适合用于区分最先进的 N - EMNLP跨语言迁移的模型选择
本论文展示了在辅助支点语言中提供少量注释数据可以更好地选择用于零 - shot 跨语言迁移的 fine-tuned models,并提出一种基于机器学习的方法用于模型选择,该方法使用 fine-tuned 模型的内部表示来预测其跨语言能力。