CLMSM：面向过程文本预训练的多任务学习框架

EMNLPOct, 2023

CLMSM：面向过程文本预训练的多任务学习框架

CLMSM: A Multi-Task Learning Framework for Pre-training on Procedural Text

Abhilash Nandy, Manav Nitin Kapadnis, Pawan Goyal, Niloy Ganguly

TL;DR提出了 CLMSM：一种针对特定领域的连续预训练框架，通过学习大量过程配方来优化两个目标，一是使用硬三元组的对比学习来学习程序实体间的细粒度差异，二是使用新颖的遮蔽 - 步骤建模目标来学习步骤的上下文。通过在三个数据集上进行实体跟踪和动作对齐的下游任务上测试了 CLMSM 的性能，其中一个数据集是不符合预训练数据集的开放域数据集。结果表明，CLMSM 不仅在配方（领域内）上优于基准模型，而且能够推广到开放域过程性自然语言处理任务。

Abstract

In this paper, we propose clmsm, a domain-specific, continual pre-training framework, that learns from a large set of →

clmsm domain-specific continual pre-training procedural recipes multi-task learning framework

发现论文，激发创造

大型语言模型下的程序化文本挖掘

利用大规模语言模型和上下文学习，本研究探讨了从非结构化 PDF 文本中提取程序的问题，结果显示该方法有潜力显著解决深度学习自然语言处理技术中所遇到的数据训练不足的挑战。

Oct, 2023

用于科学文献理解的预训练多任务对比学习模型

本文提出了一种多任务对比学习框架（SciMult），采用任务感知分化技术和指令调整技术，在多种科学文献的理解任务中优于现有科学语言模型。

May, 2023

通过多任务对比学习的有效应用提高内容理解能力

通过利用多任务学习来改进 LinkedIn 核心内容推荐模型的语义理解能力，本研究提出了一种方法。我们使用来自不同语义标注任务的数据，通过多任务对比学习，对预训练的基于 Transformer 的 LLM 进行微调。我们观察到正向转移，相比于独立训练每个任务，在所有任务上都表现出更好的性能。我们的模型在零 - shot 学习上优于基准并提供了改进的多语言支持，突显了其广泛应用的潜力。我们模型产生的专门内容嵌入优于 OpenAI 在 Linkedin 数据集和任务上提供的通用嵌入。该工作为 LinkedIn 的垂直团队提供了一个健壮的基础，可以根据他们的特定应用定制和微调 LLM。我们的工作为该领域提供了见解和最佳实践。

May, 2024

Auto-MLM: 自监督多语言知识检索的改进对比学习

本文提出一种结合对比学习和自动编码器掩码语言模型的联合训练方法，用于自我监督多语言知识检索，通过生成新的标记表示来预测掩码标记，实验结果表明，在 8 种语言上，我们的提出的方法在 AliExpress 和 LAZADA 服务语料库和公开可用的语料库上都 consistently 超过了所有先前的 SOTA 方法。

Mar, 2022

基于顺序的程序化文本理解的预训练策略

我们提出了一种基于序列的预训练方法，以加强自然语言处理中的程序理解。我们的工作是首次比较了几种 “以顺序为监督” 的 Transformer 预训练方法，并显示这些方法在两个下游实体跟踪数据集（食谱领域的 NPN-Cooking 数据集和开放领域的 ProPara 数据集）上相对于基准模型和最新方法有了改进的结果。我们的方法解决了需要预测过程步骤中实体状态的非平凡的实体跟踪任务，这需要理解步骤的顺序。这些方法在 NPN-Cooking 和 ProPara 数据集上相对于最佳基准模型分别在度量指标上提高了 1.6％和 7-9％。

Apr, 2024

语言模型与跨语言序列标注之间的桥梁

本篇论文提出 Cross-lingual Language Informative Span Masking (CLISM) 和 ContrAstive-Consistency Regularization (CACR) 两种方法来缩小预先训练和微调阶段之间的差距，并以多语言对齐为目标对跨语言机器阅读理解（xMRC）进行改进。实验结果表明，这些方法在多个 xSL 基准测试中取得了显著优越的结果，并且在只有几百个训练示例可用的少量数据设置中超过了以前的最新方法。

Apr, 2022

多模态食谱中程序概念的潜在对齐

本研究提出了一种新的方案，使用注意力机制、跨模态表示和指令和候选答案之间的潜在对齐空间来解决包含图像和指令的任务的语境推理问题，结果表明其优于基线的 19％。

Jan, 2021

ML-LMCL：提升口语理解中自动语音识别鲁棒性的相互学习和大边界对比学习

通过互相学习和大间距对比学习，提出一种新的框架 ML-LMCL 来提高自动语音识别在对话系统中口语理解的鲁棒性。通过在手动转录和自动识别转录之间共享知识，引入距离极化正则化器以尽量避免推开簇内成对样本，使用周期性退火调度缓解 KL 关于消失问题，并在三个数据集上表明 ML-LMCL 模型胜过现有模型并获得最新的性能。

Nov, 2023

指导预训练：语言模型是受监督的多任务学习器

该研究探索了通过提供指令进行预训练的受监督多任务预训练方法，通过使用开源模型构建的高效指令合成器生成指令 - 响应对，验证了指令预训练的有效性，并证明在从头开始的预训练和持续预训练中都能增强预训练模型的性能。

Jun, 2024

显式跨语言预训练用于无监督机器翻译

本文提出了一种新的跨语言预训练方法，通过融合显式的跨语言训练信号，从交叉语境中获取受益的跨语言信息并使用 CMLM 预训练模型大幅提高了无监督机器翻译的性能.

Aug, 2019