使用预训练语言模型建模表格数据
本文综述了视觉 - 语言预训练模型在多模态学习上的进展,介绍了编码图像、文本信息的方法,分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务,并提出了未来的研究方向。
Feb, 2022
本文提出了一种 APT 框架,在神经机器翻译中利用预训练模型的语言知识,该框架包括两个模块:1)动态融合机制,将从通用知识中适应的任务特定特征融合到 NMT 网络中;2)知识蒸馏范式,在 NMT 训练过程中连续学习语言知识。实验结果表明,我们的模型优于强基线和微调对应模型。
Dec, 2019
本文主要介绍了预训练模型在自然语言处理领域的应用。首先简要介绍了语言表示学习及其研究进展,然后系统地从四个角度分类现有的预训练模型,接下来介绍如何将预训练模型的知识应用于下游任务,并提出了一些未来研究的潜在方向。该综述旨在成为一个操作性指南,帮助理解、使用和开发各种自然语言处理任务的预训练模型。
Mar, 2020
本文介绍了一项关于增强大型语言模型(LLMs)在机器翻译(MT)任务中翻译能力的研究,提出了一个包括三个阶段的新范 Paradigm,通过使用大量的单语数据进行二次预训练、使用互译文本格式文档进行连续预训练,以及利用和源语言一致的指导来进行监督微调。实验结果表明,我们的方法在翻译能力方面取得了显著的改进,超过了以前的工作,并在参数数量较小的情况下实现了优越的性能。
Mar, 2024
本文研究了两种先前提出的预训练语言模型(PLMs),分析了不同任务自适应预训练策略对图转文本生成中 PLMs 的影响,发现 PLMs BART 和 T5 实现了新的最先进结果,并且任务适应性预训练策略进一步提高了它们的性能。
Jul, 2020
本论文对基于 Transformer 的预训练语言模型进行了全面调查,并介绍了自监督学习、预训练方法、嵌入、下游适应方法等核心概念以及 T-PTLMs 的新分类法,提供了各种有用的库以及未来研究方向,该论文可作为学习核心概念和了解 T-PTLMs 近期进展的参考资料。
Aug, 2021
本文研究了预训练语言模型在领域任务泛化能力方面的能力,发现预训练模型在计算机视觉、蛋白质折叠预测等任务中表现出色,优于从头开始训练模型,并指出预训练嵌入在输入层非常重要。
Jun, 2023
本文结合视觉和语言的跨语言预训练方法,使用三重并行视觉和语言语料库进行预训练,并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。
Jan, 2021
本文提出概念感知的语言模型 (CALM),通过增强自监督学习任务以从文本中学习常识。CALM 可以在不依赖外部知识图谱的情况下将更多的常识知识整合到预先训练的文本转文本变压器的参数中,从而在自然语言理解和生成任务中实现更好的性能。
Oct, 2020