WeLM: 为中文设计的阅读广泛的预训练语言模型

Sep, 2022

WeLM: 为中文设计的阅读广泛的预训练语言模型

WeLM: A Well-Read Pre-trained Language Model for Chinese

Hui Su, Xiao Zhou, Houjin Yu, Yuwen Chen, Zilin Zhu...

TL;DR该研究论文讨论了使用自我监督学习进行预训练的大型语言模型，并提出了一种称为 WeLM 的中文预训练模型，它可以在零或者极少示范的情况下无缝执行不同类型的任务，并展示了它在多个领域和语言方面的广泛知识。 WeLM 在单语言（中文）任务中表现优越，也表现出强大的多语种和代码交换理解能力。通过多提示训练，WeLM 可以在未见过的任务上获得强大的推广能力，并超越了无监督的 WeLM 在零样本学习方面的性能。最后，我们展示了 WeLM 具有解释和校准其决策的基本技能，这可以是未来研究的有趣方向。

Abstract

large language models pre-trained with self-supervised learning have demonstrated impressive zero-shot generalization capabilities on a wi

large language models self-supervised learning pre-trained chinese zero-shot learning

发现论文，激发创造

双语对齐预训练用于零样本跨语言转移

本文提出了一种利用统计对齐信息作为先验知识以指导跨语言词语预测的预训练任务 Word-Exchange Aligning Model（WEAM），并在多语种机器阅读理解任务 MLQA 和自然语言接口任务 XNLI 上进行评估，结果表明 WEAM 可以显著提高零 - shot 性能。

Jun, 2021

LERT: 一种基于语言学动机的预训练语言模型

本论文提出了一种名为 LERT 的预训练语言模型，通过使用一种称为语言信息预训练策略，使用三种类型的语言特征以及原始的 MLM 预训练任务来训练，对于十种汉语 NLU 任务，LERT 能够带来显着的改进。

Nov, 2022

中文细粒度 LLM：预训练中心化大型语言模型

通过引入 CT-LLM，这项研究介绍了一个 2B 规模的大型语言模型（LLM），以优先考虑中文语言的发展。这项研究挑战了在英文语料库上培训 LLMs 并将其适应其他语言的常规模式，为 LLM 培训方法学的拓宽开创了新的可能性。

Apr, 2024

使用预训练语言模型进行零样本多语言词义消歧

本文使用 Contextual Word-Level Translation 扩展了 Pretrained Language Models 来探究 PLM 对跨语言词义的捕捉能力，进而提高零样本单词语义消歧的效果，结果表明我们的方法在多种语言上的效果均好于监督学习基线。

Apr, 2023

预训练多语言语言模型入门

该论文调查了关于多语言语言模型的研究，包括零样本迁移学习，预训练，跨语言和双语任务，展望了未来研究的方向。

Jul, 2021

多语言语言表示模型跨语言转移学习实现零样本阅读理解

本文系统性地探讨了在多语料库上预训练语言表示模型的情况下，零 - shot 跨语言转移学习在阅读理解任务中的应用，并通过实验结果表明，使用预训练的语言表示模型可以实现零 - shot 学习，无需将源语言数据转换为目标语言，因为这样做甚至会降低模型的性能。研究还进一步探讨了模型在零 - shot 情况下的学习效果。

Sep, 2019

WavLM：用于完整语音处理的大规模自监督预训练

本篇论文提出了一种新的预训练模型 WavLM，通过联合学习掩蔽语音预测和去噪，利用 Transformer 结构的门控相对位置偏置来更好地捕捉输入语音的顺序，使 WavLM 不仅具有掩蔽语音预测的语音内容建模能力，同时也提高了对非 ASR 语音任务的潜力，其在 SUPERB 基准测试上取得了最先进的性能，并为各种语音处理任务带来了显着的改进。

Oct, 2021

小型语言模型在中文实体关系抽取中的有效指导

我们提出了 SLCoLM 模型协作框架，通过任务特定的预训练语言模型作为导师，将任务知识传递给大型语言模型，并在关系提取任务中进行指导，从而缓解了数据长尾问题。实验结果表明，本论文中的方法有助于提取长尾关系类型的关系提取任务。

Feb, 2024

Yuan 1.0：零样本学习和少样本学习中的大规模预训练语言模型

本研究提出了一种方法，将分布式训练性能纳入模型架构设计中，用于构建 245B 参数的大型单例语言模型 Yuan 1.0，在千万台 GPU 上取得了优异的性能，并在自然语言处理任务中取得了最新成果，同时还建立了当前质量最高的 5TB 中文语料库。此外，本研究还提出了数据处理方法和校准与标签扩展方法，以提高零样本和少样本准确性。Yuan 1.0 表现出强大的自然语言生成能力，其生成的文章很难与人类撰写的文章区分开来。

Oct, 2021

大型语言模型可自我提升

本文提出了一种方法，使用未标注的数据进行自我训练和推理提高，通过 fine-tuning 在多个任务上达到了 SOTA 水平。

Oct, 2022