生成以理解为基础的表征
本文介绍了一种新的统一预训练语言模型 (UniLM),该模型可用于自然语言理解和生成任务,使用了三种类型的语言建模任务进行预训练,采用共享 Transformer 网络和特定的自我注意掩码来控制预测条件的上下文,其在自然语言生成方面的表现优于 BERT,最终达到了五种自然语言生成数据集的最新最优成果。
May, 2019
本研究提出了一个通用的语言表示学习方法 MiSAD,通过利用大型未标记语料库中提取的有意义的 n-gram,实现对不同层次语言单位或具有相当不同长度的文本的嵌入形式,从而使手头的多个语言层次的信息能够更好地统一处理,并且在 GLUE 基准和问答数据集上显著提高了下游任务的性能以及在不同语言层次上实现了最高准确率。
May, 2021
本研究提出一个通过共享潜变量将自然语言理解和自然语言生成相结合的生成模型,可在平面和树形形式表示的两个对话数据集上达到最先进的性能,并展示了该模型可以利用未标记数据进行半监督学习以提高其性能。
Jun, 2020
提出一个统一框架的预训练模型,通过 Mixture-of-Denoisers 目标函数实现不同预训练目标的整合,将不同的预训练范例结合在一起,对于多个不同领域的数据集都具有普适性,并在规模为 20B 参数下的 50 个 NLP 任务上取得了最先进的表现。
May, 2022
本研究提出了一种半监督框架,利用 GPT-2 模型自动构建了大规模数据,并根据估计的标签质量调整模型参数更新,实现 NLG 和 NLU 模型的联合训练,证明在数据稀缺场景下,该弱监督培训范式是一种有效的方法,在 E2E 和天气基准测试上优于基准系统。
Feb, 2021
我们提出了 UniGraph 框架,通过使用文本属性图(TAGs)来训练图基础模型,实现对未见过的图和任务在不同领域中的泛化能力。我们的方法采用了级联的语言模型(LMs)和图神经网络(GNNs)构建的骨干网络以及基于掩码图建模(MGM)的自我监督训练目标,并引入大型语言模型(LLMs)进行图指令调优,进而使模型能够进行零样本预测。在各种图学习任务和领域的全面实验证明了我们模型在未见过的图的自我监督表示学习、少样本上下文转移和零样本转移方面的有效性,甚至超越或匹配了在目标数据集上进行受监督训练的 GNNs 的性能。
Feb, 2024
UniGen 是一种集成了生成式检索和问答功能的统一生成模型,通过使用大型语言模型,UniGen 采用一个共享编码器和两个不同的解码器,引入连接器来弥补查询输入和生成目标、文档标识符和答案之间的差距,并提出了一种迭代增强策略来通过生成的答案和检索的文档迭代地改进两个任务,在 MS MARCO 和 NQ 数据集上的广泛实验证明了 UniGen 在检索和问答任务中具有优越的性能。
Dec, 2023
本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式, 另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。
Jan, 2019
本论文旨在解决 NLU 模型在缺乏数据或知识资源时的挑战,提出了跨语言和跨域适应方法及面向低资源语言的关键词增强方法、序列颗粒化建模方法、多领域预训练方法和粗粒度到细粒度的表示学习框架。
Aug, 2022
本文介绍了 XGLUE 数据集,它是一个可用于训练大规模跨语言预训练模型和评估其在多样的跨语言任务中表现的新的基准数据集。与 GLUE 不同的是,XGLUE 提供了 11 种多样化的任务来覆盖自然语言理解和生成等问题,同时为每个任务提供了多种语言的标注数据。本文还扩展了最近的跨语言预训练模型 Unicoder,以涵盖自然语言理解和生成任务,并在 XGLUE 上作为强基线进行评估。此外,本文还评估了多语言 BERT、XLM 和 XLM-R 的基础版本(12 层)进行比较。
Apr, 2020