面向德语文本简化的语言模型:通过风格特定的预训练克服平行数据稀缺问题
本研究首次使用合成数据来训练德语文档级文本简化的生成模型,通过真实世界在线文本论证了我们方法的有效性。解决语言简化中数据稀缺的挑战,我们爬取了经过专业简化的德语文本并使用 GPT-4 合成了一个语料库。我们在这些数据上微调了多达 130 亿参数的大型语言模型,并使用多种方法对其性能进行评估。该论文运用了各种评估方法,并展示了当前使用的基于规则的度量指标的局限性。自动和手动评估均表明,我们的模型可以显著简化真实世界的在线文本,显示了合成数据在改进文本简化方面的潜力。
Feb, 2024
德文文本简化的当前状况,重点研究平行和单语德语语料库。评估神经语言模型在简化德语文本方面的适用性,特别是在法律文本和无障碍要求方面。研究结果强调了需要更多的训练数据和更恰当的方法,考虑到德语的特定语言特征,以及针对认知或语言障碍目标群体的需求和偏好的重要性。为了解决这些研究空白,作者们于 2023 年 4 月启动了跨学科的 OPEN-LS 项目。该项目旨在开发适合低识字水平个体使用的文本格式框架,整合法律文本,并提高对语言或认知障碍者的可理解性。此外,该项目还将探索使用生成图像的人工智能以增强面向特定受众的插图数据的成本效益方法。欲了解更多和最新信息,请访问我们的项目主页:https://URL-Link
Dec, 2023
本文介绍了 DEplain,它是一种新的德语数据集,用于在新闻和网络领域中对句子和文档进行平行语言的写作,我们使用该数据集进行训练,使用 transformer-based 的 seq2seq 模型实现文本简化,并通过 web 收集器扩大其数据量以得到更具吸引力的结果。
May, 2023
本研究利用预训练的 seq2seq 模型 mBART 进行多语种文本风格转换,使用机器翻译数据和英文句子得到了三种目标语言的最新成果。此外,考虑到平行数据的普遍稀缺性,我们提出了一个模块化方法,包括两种针对语言和任务适应的训练策略,实现竞争性性能,适用于其他风格转换任务以及其他语言。
Mar, 2022
通过两阶段训练方法,即不断在并行数据上预训练大型语言模型并在少量高质量并行数据上进行有监督微调,我们证明了这种方法的有效性。我们的研究表明,在并行数据的持续预训练中,在源句和目标句之间交替使用是至关重要的。此外,我们还证明了基于 LLM 的翻译模型在口语语言翻译中更加稳健,在使用更少的训练数据时可以达到更高的准确性,相较于有监督的编码器 - 解码器模型。最高的准确性在于持续预训练数据包括交替的源句和目标句以及在源句中添加标签时实现。
Jul, 2024
本文探讨了一种新的持续性的预训练策略,通过把 BART 模型继续预训练来生成简单的文本,从而提高简化任务的表现,同时与其他大型语言模型进行了比较。
May, 2023
本文研究并比较了使用无监督机器翻译生成的合成平行数据与有监督机器翻译和现有规范平行数据的效果;使用这些数据解决一些下游任务的表现。作者发现,即使是模型生成的平行数据也可以在继续预训练和具体任务训练方面对下游任务有所帮助,但目前最佳结果仍然来自于真实的平行数据。该研究提示人们重新考虑跨语种学习方法的传统分类,并可以更大程度地利用单语数据进行多语言建模。
Dec, 2022
本文探究了利用双语词典作为文本资源,从而使得多语言预训练模型的性能不再依赖于单一语种下的文本数据,通过不同策略合成文本或标注数据,并与单语文本或平行文本相结合,以提高在三个任务上 19 种欠发达语言的性能,为千余种使用 NLP 技术的欠代表语种提供了思路。
Mar, 2022
本文研究了在 mT5 预训练模型中加入平行数据对其性能的影响,结果表明:在预训练期间将多项任务结合进行语言建模,特别是机器翻译等目标任务,可以明显提高其在多语种和跨语种任务中的性能,但随着模型容量的增加,收益开始减少,这表明平行数据对较大的模型来说可能并不那么重要;同时,在有限的标记数据环境中,即使在较大的模型尺寸下,使用平行数据进行预训练仍然具有优势。
Jun, 2021