教授预训练模型生成简单文本以进行文本简化
本研究提出了一种基于预训练模型的文本简化方法,通过新的掩码语言建模机制和小规模文本数据集的持续预训练,最终获得了一种名为 SimpleBERT 的模型,该模型在词汇简化和句子简化任务中均超过了 BERT,并在多个数据集上取得了最先进的结果。此外,SimpleBERT 可以无需修改地替换现有的简化模型。
Apr, 2022
本研究探讨了数据生成文本任务中的预训练和微调策略,实验表明,以 T5 为代表的文本预训练方法使得简单的端到端 Transformer 模型在数据生成文本方面的性能优于传统的神经网络体系结构以及其他预训练技术,如 BERT 和 GPT-2。T5 预训练技术在域外测试集上表现出更好的泛化能力,此研究希望成为未来研究的有益基础,随着转移学习在数据生成文本任务中的广泛应用。
May, 2020
BART 是一种预训练序列到序列模型的去噪自编码器,通过使用 Transformer 架构,并使用一些创新方法,如随机调换原始数据序列的顺序和填充原始数据中的实体,使得 BART 在文本生成、理解任务以及抽象对话等方面性能表现出色,超越了 RoBERTa,并提供了 1.1 个 BLEU 的机器翻译增量。
Oct, 2019
本文提出了一种通过在德国简单语言语料库上微调语言模型并将其作为序列到序列简化任务的解码器来克服数据稀缺性问题的两步方法,结果表明,在不同于英语的语言上进行无对齐预训练可以降低所需的平行数据量,同时提高下游任务的性能。
May, 2023
简化文本以提高阅读能力,保留原始内容和意义。通过比较预训练分类器在原始和简化输入上的预测,研究发现所有语言和模型之间存在令人担忧的不一致性,简化输入很容易被利用来进行零迭代、与模型无关的对抗攻击,成功率可达 50%。
Apr, 2024
本论文介绍了一种基于序列标记的简单,高效的文本简化系统 (TST), 使用预训练的 Transformer-based 编码器,在现有系统的训练和推断中进行简单的数据增强和调整,使其不太依赖于大量的平行训练数据,提供了更多对输出的控制并实现了更快的推断速度,目前取得了基准测试数据集任务的几乎最新性能。
Mar, 2021
本文研究如何训练针对文本文档中关键短语的任务特定语言模型,通过使用不同的掩码策略在区分性和生成性环境下对预训练变压器语言模型进行实验,并提出新的预训练目标 - 关键短语边界填充替换(KBIR),用于关键短语提取,与现有最佳方法相比,能够提高 8.16 个 F1 分数;此外,还提出了适用于 BART 的新的预训练设置 - KeyBART,能够在 CatSeq 格式中重现与输入文本相关的关键短语,用于关键短语生成,并能比现有最佳方法提高 4.33 个 F1M 分数。最后,对预训练语言模型进行细微调整,用于命名实体识别,问答,关系抽取,编写摘要等,达到了与现有最佳方法可比的性能,表明学习关键短语的丰富表达对于许多其他基础的自然语言处理任务是有益的。
Dec, 2021
本文的研究表明,多语言去噪预训练在各种机器翻译任务中都有显著的性能提升,通过使用 BART 目标在许多语言的大规模单语语料库上进行序列到序列去噪自动编码器的预训练,我们提出了 mBART。mBART 是预训练完整序列到序列模型的首个方法之一,它能够直接进行监督(包括句子级和文档级)和无监督机器翻译的微调,而无需特定于任务的修改,并且在除最高资源设置外的所有设置中都能实现性能提升,包括低资源机器翻译和许多文档级和无监督模型的 12 BLEU 点和 5 BLEU 点以上。
Jan, 2020
本文研究了两种先前提出的预训练语言模型(PLMs),分析了不同任务自适应预训练策略对图转文本生成中 PLMs 的影响,发现 PLMs BART 和 T5 实现了新的最先进结果,并且任务适应性预训练策略进一步提高了它们的性能。
Jul, 2020
本文提出了一种连续预训练 (CPT) 框架来应对低资源语言中看不见的语言,通过使用目标语言的单语语料库构建混合语言文本并继续对 mBART 进行预训练以优化低资源翻译任务,结果表明我们的方法能够持续提高翻译性能。
May, 2021