LangCell: 语言细胞预训练用于细胞身份理解
本文提出了一种新的预训练方法 StructuralLM,可以联合使用扫描文档中的单元格和布局信息,在对下游自然语言处理任务进行微调时获得了新的最先进结果,包括通过分类单元格位置等两种新方法进行预处理。能够有效提高表格理解、文档可视化问答和文档图像分类方面的表现。
May, 2021
本文提出了一种简单的方法,使用预训练语言模型 (Pretrained language models) 进行全零样本学习 (zero-shot learning) 自然语言理解任务 (NLU tasks)。该方法使用单向和双向 PLMs 生成和训练数据,其中训练数据是使用提示 (prompts) 引导的类别条件文本。使用这种方法,在 GLUE 数据集的七个分类任务中取得了强劲的表现 (例如在 MNLI-m/mm 上的 72.3/73.8,以及在 SST-2 上的 92.8),相对于零样本提示方法,甚至实现了与使用每类 32 个训练样本的强有力的少样本方法相当的结果。同时,采用了标签平滑和时间模型的融合技术以达到更好的泛化和稳定性。
Feb, 2022
该论文提出了一种名为 CELDA 的新方法,即聚类增强线性鉴别分析,通过从无标签数据集提取出精细的伪标签数据集并在其上训练轻量且稳健的模型来提高文本分类的准确性,从而达到新的状态,弥合了使用大型语言模型的差距,并具有普遍适用性和可扩展性。
Jun, 2023
本文研究了口语语言识别的不同预训练方法,并基于我们在东方语言识别挑战赛 2021 中的提交,参与了有约束和无约束的语言识别的两个任务。我们主要使用 Conformer-based 编码器 - 解码器模型和 XLSR-53 wav2vec2.0 模型作为端到端的系统,这些模型都包含有前置的预训练网络。
May, 2022
本研究实现了 Apple 公司在博客中简短介绍的语言识别架构,发现 bi-LSTM 模型在识别语言方面的表现更优,但在相关语言之间容易混淆。该技术可用于自动拼写检查和对短文本信息进行语种识别。
Feb, 2021
本文通过采用 Conformer 架构,在多语言预训练模型中扩展了以往的自监督方法,我们发现预训练的语音模型最佳地在底层编码语言的区分信息。进一步地,我们证明了从这些层获取的嵌入对于分类未见过的语言和不同的声学环境具有显著的鲁棒性,无需额外的训练。在 VoxLingua107 数据集上微调预训练的 Conformer 模型后,我们实现了类似于语言识别当前最先进系统的结果。此外,我们的模型参数比当前系统少了五倍,并通过 NVIDIA NeMo 工具包开源了该模型。
Nov, 2022
通过研究多语言神经网络模型,使用深度学习,如基于 Transformer 的结构,我们在临床文本机器翻译方面进行了调查。此外,为了解决语言资源不平衡问题,我们还使用基于大规模多语言预训练语言模型(MMPLMs)的迁移学习方法进行了实验。在临床案例(CC)、临床术语(CT)和本体概念(OC)等三个子任务上的实验结果表明,我们的模型在 ClinSpEn-2022 共享任务中的英语 - 西班牙语临床领域数据中表现出了最佳水平。此外,基于专家评估的人工评估结果显示,小型预训练语言模型(PLM)在临床领域微调中以大幅度优于其他两个超大型语言模型,这是该领域前所未有的发现。最后,迁移学习方法在我们的实验设置中运行良好,使用 WMT21fb 模型适应了预训练阶段在 WMT21fb 中未见的西班牙语语言空间,这值得进一步探索临床知识转化方面,例如研究更多语言。这些研究结果可以为特定领域的机器翻译开发提供一些启示,尤其是在临床和医疗领域。在我们的工作基础上可以开展进一步的研究项目,以改进医疗文本分析和知识转化。
Dec, 2023
为解决领域特定标注样本数量过多的问题,提出了一种由对话语言建模预训练任务和轻量级编码器构成的 SLU 框架,通过预训练学习对话语言表示和解耦共享网络与映射领域特定知识的轻量级编码器实现领域适应。在内部和公共数据集上,该框架在添加少量参数的情况下与现有 SLU 方法的表现相匹配。
Oct, 2020
本研究探讨了预训练语言模型在捕捉篇章关系上的能力,并通过探究任务验证了不同架构和层数的 PLMs 的表现,得出了对于不同 NMT 任务在何种情况下使用不同层的 PLMs 是最好的决策。
May, 2023
本篇论文提出 Cross-lingual Language Informative Span Masking (CLISM) 和 ContrAstive-Consistency Regularization (CACR) 两种方法来缩小预先训练和微调阶段之间的差距,并以多语言对齐为目标对跨语言机器阅读理解(xMRC)进行改进。实验结果表明,这些方法在多个 xSL 基准测试中取得了显著优越的结果,并且在只有几百个训练示例可用的少量数据设置中超过了以前的最新方法。
Apr, 2022