reStructured Pre-training

Jun, 2022

Weizhe Yuan, Pengfei Liu

TL;DR本文提出基于数据存储和访问的 reStructured Pre-training (RST) 新学习范式，并基于此原则实现了 Qin 系统。实验结果表明，该方法在各种 NLP 任务中均优于 T0 等竞争对手，并在中国最具权威的高考英语考试中取得了比学生平均成绩高 40 分和比 GPT3 高 15 分的高分。

Abstract

In this work, we try to decipher the internal connection of nlp technology development in the past decades, searching for essence, which rewards us with a (potential) new learning paradigm for NLP tasks, dubbed as reStructured Pre-training (RST). In such a paradigm, the role of data wi

nlp technology restructured pre-training data storing model pre-training qin

发现论文，激发创造

DeepStruct: 为结构预测预训练语言模型

介绍了一种提高语言模型结构理解能力的方法，它通过预训练语言模型生成的结构来替代以往的基于任务数据的微调方式，并且在包含 28 个数据集的 10 个预测任务上实现了零样本迁移和超越了 21 个数据集的最新成果。

May, 2022

发掘神经言语解析器的能力 —— 使用大规模预训练的上下文和结构感知方法

这篇论文提出了一个简单但高精度的 RST 语篇分析器，采用最近的上下文语言模型，表现出两个重要数据集，RST-DT 和 Instr-DT 的最新技术性能。研究人员还表明，在最近可用的大规模 “银标准” 话语树库 MEGA-DT 上预训练我们的分析器可以提供更大的性能改进，这为话语分析领域提供了一种新的有前途的研究方向。

Nov, 2020

一种简单且强大的端到端神经 RST 风格篇章分析基线

本篇论文探讨了一种强有力的基准线，通过将现有的简单解析策略（自上而下和自下而上）与各种基于 Transformer 的预先训练的语言模型进行集成，实现了 RST 风格的话语解析模型的推广和进一步发展。实验结果表明，解析性能强烈依赖预先训练的语言模型，尤其是 DeBERTa 对自下而上解析器表现的大幅提升。此外，我们还发现具有跨度屏蔽方案的语言模型特别能提高解析性能。

Oct, 2022

多语言神经 RST 话语分析

研究了通过利用多语言向量表示和采用源内容的分段级别翻译建立神经交叉语言篇章分析器的两种方法，并表明这两种方法即使在有限的训练数据下也有效，并且在所有子任务上实现了跨语言、文档级的篇章分析性能。

Dec, 2020

结构化代码表示实现代码语言模型的高效数据自适应

通过预训练和微调编程结构，改进了面向代码任务的当前语言模型的方法，并且在使用有限训练样本时，结合程序结构与纯文本表示方式展现出显著的改进效果。

Jan, 2024

SMART: 面向预训练自然语言模型的强健高效微调技术

本文提出一种基于 Bregman 的 Trust-Region 优化的平滑正则化框架，用于更加有效地对预训练语言模型进行微调，避免过拟合和知识遗忘，通过实验表明在多项 NLP benchmarks 上达到了最新的性能水平。

Nov, 2019

有阅读素养的学生学习更好：关于预训练紧凑模型的重要性

本文研究自然语言表示、模型压缩技术、预训练、微调和知识蒸馏等方面的互动关系，提出了一种简单而有效的预训练蒸馏算法，分析了模型大小和无标记任务数据属性对其的影响。

Aug, 2019

预训练几乎就是你所需要的：应用于常识推理

本研究提出一种基于预训练 transformer 模型的全文格式的可信度排名得分方法，无需微调即可产生强大的基线，可以为通识推理任务提供更加稳定和有效的训练解决方案。

Apr, 2020

低资源神经标题生成

我们提出了新的预训练方法，以提高对于小型数据集的神经标题生成模型的质量，这些方法使所有模型参数均能够被预训练并利用所有可用的文本，相比较而言模型困惑度与 ROUGE 评估指标表现提升了 32.4％和 2.84 分。

Jul, 2017

通过基于检索的预训练弥合语言模型与机器阅读理解之间的鸿沟

使用自我监督的方法在预训练过程中引入两个任务强化证据提取，从而增强证据提取能力，以提高 Pre-trained Language Models 在机器阅读理解方面的表现。

May, 2021