面向德语文本简化的语言模型：通过风格特定的预训练克服平行数据稀缺问题

ACLMay, 2023

面向德语文本简化的语言模型：通过风格特定的预训练克服平行数据稀缺问题

Language Models for German Text Simplification: Overcoming Parallel Data Scarcity through Style-specific Pre-training

Miriam Anschütz, Joshua Oehms, Thomas Wimmer, Bartłomiej Jezierski, Georg Groh

TL;DR本文提出了一种通过在德国简单语言语料库上微调语言模型并将其作为序列到序列简化任务的解码器来克服数据稀缺性问题的两步方法，结果表明，在不同于英语的语言上进行无对齐预训练可以降低所需的平行数据量，同时提高下游任务的性能。

Abstract

Automatic text simplification systems help to reduce textual information barriers on the internet. However, for languages other than English, only few parallel data to train these systems exists. We propose a two-step approach to overcome this →

text simplification language models data scarcity german easy language pre-training

发现论文，激发创造

德文文本简化：使用半合成数据对大型语言模型进行微调

本研究首次使用合成数据来训练德语文档级文本简化的生成模型，通过真实世界在线文本论证了我们方法的有效性。解决语言简化中数据稀缺的挑战，我们爬取了经过专业简化的德语文本并使用 GPT-4 合成了一个语料库。我们在这些数据上微调了多达 130 亿参数的大型语言模型，并使用多种方法对其性能进行评估。该论文运用了各种评估方法，并展示了当前使用的基于规则的度量指标的局限性。自动和手动评估均表明，我们的模型可以显著简化真实世界的在线文本，显示了合成数据在改进文本简化方面的潜力。

Feb, 2024

德语文本简化的数据和方法 —— 提升辅助可访问性的沟通

德文文本简化的当前状况，重点研究平行和单语德语语料库。评估神经语言模型在简化德语文本方面的适用性，特别是在法律文本和无障碍要求方面。研究结果强调了需要更多的训练数据和更恰当的方法，考虑到德语的特定语言特征，以及针对认知或语言障碍目标群体的需求和偏好的重要性。为了解决这些研究空白，作者们于 2023 年 4 月启动了跨学科的 OPEN-LS 项目。该项目旨在开发适合低识字水平个体使用的文本格式框架，整合法律文本，并提高对语言或认知障碍者的可理解性。此外，该项目还将探索使用生成图像的人工智能以增强面向特定受众的插图数据的成本效益方法。欲了解更多和最新信息，请访问我们的项目主页：https://URL-Link

Dec, 2023

DEPLAIN: 一个德语平行语料库，具有针对句子和文档简化的纯语言内译

本文介绍了 DEplain，它是一种新的德语数据集，用于在新闻和网络领域中对句子和文档进行平行语言的写作，我们使用该数据集进行训练，使用 transformer-based 的 seq2seq 模型实现文本简化，并通过 web 收集器扩大其数据量以得到更具吸引力的结果。

May, 2023

德国叙事文档的自动文本简化探索

应用基于转换器的自然语言生成技术来进行文本简化研究，发现现有的德语方法无法很好地解决该问题，并提出了一些未来研究的方向。

Dec, 2023

多语种文本风格转换的语言和任务自适应多语种预训练

本研究利用预训练的 seq2seq 模型 mBART 进行多语种文本风格转换，使用机器翻译数据和英文句子得到了三种目标语言的最新成果。此外，考虑到平行数据的普遍稀缺性，我们提出了一个模块化方法，包括两种针对语言和任务适应的训练策略，实现竞争性性能，适用于其他风格转换任务以及其他语言。

Mar, 2022

通过持续预训练并行数据提高大型语言模型的翻译准确性

通过两阶段训练方法，即不断在并行数据上预训练大型语言模型并在少量高质量并行数据上进行有监督微调，我们证明了这种方法的有效性。我们的研究表明，在并行数据的持续预训练中，在源句和目标句之间交替使用是至关重要的。此外，我们还证明了基于 LLM 的翻译模型在口语语言翻译中更加稳健，在使用更少的训练数据时可以达到更高的准确性，相较于有监督的编码器 - 解码器模型。最高的准确性在于持续预训练数据包括交替的源句和目标句以及在源句中添加标签时实现。

Jul, 2024

教授预训练模型生成简单文本以进行文本简化

本文探讨了一种新的持续性的预训练策略，通过把 BART 模型继续预训练来生成简单的文本，从而提高简化任务的表现，同时与其他大型语言模型进行了比较。

May, 2023

跨语言迁移学习中平行数据的作用

本文研究并比较了使用无监督机器翻译生成的合成平行数据与有监督机器翻译和现有规范平行数据的效果；使用这些数据解决一些下游任务的表现。作者发现，即使是模型生成的平行数据也可以在继续预训练和具体任务训练方面对下游任务有所帮助，但目前最佳结果仍然来自于真实的平行数据。该研究提示人们重新考虑跨语种学习方法的传统分类，并可以更大程度地利用单语数据进行多语言建模。

Dec, 2022

通过基于词典的适应扩展预训练模型以覆盖数千种更多语言

本文探究了利用双语词典作为文本资源，从而使得多语言预训练模型的性能不再依赖于单一语种下的文本数据，通过不同策略合成文本或标注数据，并与单语文本或平行文本相结合，以提高在三个任务上 19 种欠发达语言的性能，为千余种使用 NLP 技术的欠代表语种提供了思路。

Mar, 2022

nmT5 - 预训练大规模多语言语言模型是否仍需使用平行语料？

本文研究了在 mT5 预训练模型中加入平行数据对其性能的影响，结果表明：在预训练期间将多项任务结合进行语言建模，特别是机器翻译等目标任务，可以明显提高其在多语种和跨语种任务中的性能，但随着模型容量的增加，收益开始减少，这表明平行数据对较大的模型来说可能并不那么重要；同时，在有限的标记数据环境中，即使在较大的模型尺寸下，使用平行数据进行预训练仍然具有优势。

Jun, 2021