教授预训练模型生成简单文本以进行文本简化

ACLMay, 2023

教授预训练模型生成简单文本以进行文本简化

Teaching the Pre-trained Model to Generate Simple Texts for Text Simplification

Renliang Sun, Wei Xu, Xiaojun Wan

TL;DR本文探讨了一种新的持续性的预训练策略，通过把 BART 模型继续预训练来生成简单的文本，从而提高简化任务的表现，同时与其他大型语言模型进行了比较。

Abstract

Randomly masking text spans in ordinary texts in the pre-training stage hardly allows models to acquire the ability to generate simple texts. It can hurt the performance of pre-trained models on text simplification

pre-training text simplification simplebart large language models lexical simplification

发现论文，激发创造

SimpleBERT：一种预训练模型，学习生成简单单词

本研究提出了一种基于预训练模型的文本简化方法，通过新的掩码语言建模机制和小规模文本数据集的持续预训练，最终获得了一种名为 SimpleBERT 的模型，该模型在词汇简化和句子简化任务中均超过了 BERT，并在多个数据集上取得了最先进的结果。此外，SimpleBERT 可以无需修改地替换现有的简化模型。

Apr, 2022

数据到文本任务的文本到文本预训练

本研究探讨了数据生成文本任务中的预训练和微调策略，实验表明，以 T5 为代表的文本预训练方法使得简单的端到端 Transformer 模型在数据生成文本方面的性能优于传统的神经网络体系结构以及其他预训练技术，如 BERT 和 GPT-2。T5 预训练技术在域外测试集上表现出更好的泛化能力，此研究希望成为未来研究的有益基础，随着转移学习在数据生成文本任务中的广泛应用。

May, 2020

BART：自然语言生成、翻译和理解的去噪序列到序列预训练

BART 是一种预训练序列到序列模型的去噪自编码器，通过使用 Transformer 架构，并使用一些创新方法，如随机调换原始数据序列的顺序和填充原始数据中的实体，使得 BART 在文本生成、理解任务以及抽象对话等方面性能表现出色，超越了 RoBERTa，并提供了 1.1 个 BLEU 的机器翻译增量。

Oct, 2019

面向德语文本简化的语言模型：通过风格特定的预训练克服平行数据稀缺问题

本文提出了一种通过在德国简单语言语料库上微调语言模型并将其作为序列到序列简化任务的解码器来克服数据稀缺性问题的两步方法，结果表明，在不同于英语的语言上进行无对齐预训练可以降低所需的平行数据量，同时提高下游任务的性能。

May, 2023

简单变得更难：LLMs 在简化语料库上表现出一致的行为吗？

简化文本以提高阅读能力，保留原始内容和意义。通过比较预训练分类器在原始和简化输入上的预测，研究发现所有语言和模型之间存在令人担忧的不一致性，简化输入很容易被利用来进行零迭代、与模型无关的对抗攻击，成功率可达 50%。

Apr, 2024

通过标记实现文本简化

本论文介绍了一种基于序列标记的简单，高效的文本简化系统 (TST), 使用预训练的 Transformer-based 编码器，在现有系统的训练和推断中进行简单的数据增强和调整，使其不太依赖于大量的平行训练数据，提供了更多对输出的控制并实现了更快的推断速度，目前取得了基准测试数据集任务的几乎最新性能。

Mar, 2021

从文本中学习关键词的丰富表示

本文研究如何训练针对文本文档中关键短语的任务特定语言模型，通过使用不同的掩码策略在区分性和生成性环境下对预训练变压器语言模型进行实验，并提出新的预训练目标 - 关键短语边界填充替换（KBIR），用于关键短语提取，与现有最佳方法相比，能够提高 8.16 个 F1 分数；此外，还提出了适用于 BART 的新的预训练设置 - KeyBART，能够在 CatSeq 格式中重现与输入文本相关的关键短语，用于关键短语生成，并能比现有最佳方法提高 4.33 个 F1M 分数。最后，对预训练语言模型进行细微调整，用于命名实体识别，问答，关系抽取，编写摘要等，达到了与现有最佳方法可比的性能，表明学习关键短语的丰富表达对于许多其他基础的自然语言处理任务是有益的。

Dec, 2021

多语言去噪预训练用于神经机器翻译

本文的研究表明，多语言去噪预训练在各种机器翻译任务中都有显著的性能提升，通过使用 BART 目标在许多语言的大规模单语语料库上进行序列到序列去噪自动编码器的预训练，我们提出了 mBART。mBART 是预训练完整序列到序列模型的首个方法之一，它能够直接进行监督（包括句子级和文档级）和无监督机器翻译的微调，而无需特定于任务的修改，并且在除最高资源设置外的所有设置中都能实现性能提升，包括低资源机器翻译和许多文档级和无监督模型的 12 BLEU 点和 5 BLEU 点以上。

Jan, 2020

探究预训练语言模型在图形生成文本方面的应用

本文研究了两种先前提出的预训练语言模型（PLMs），分析了不同任务自适应预训练策略对图转文本生成中 PLMs 的影响，发现 PLMs BART 和 T5 实现了新的最先进结果，并且任务适应性预训练策略进一步提高了它们的性能。

Jul, 2020

极低资源神经机器翻译的连续混合语言预训练

本文提出了一种连续预训练 (CPT) 框架来应对低资源语言中看不见的语言，通过使用目标语言的单语语料库构建混合语言文本并继续对 mBART 进行预训练以优化低资源翻译任务，结果表明我们的方法能够持续提高翻译性能。

May, 2021