ACLFeb, 2024

德文文本简化:使用半合成数据对大型语言模型进行微调

TL;DR本研究首次使用合成数据来训练德语文档级文本简化的生成模型,通过真实世界在线文本论证了我们方法的有效性。解决语言简化中数据稀缺的挑战,我们爬取了经过专业简化的德语文本并使用 GPT-4 合成了一个语料库。我们在这些数据上微调了多达 130 亿参数的大型语言模型,并使用多种方法对其性能进行评估。该论文运用了各种评估方法,并展示了当前使用的基于规则的度量指标的局限性。自动和手动评估均表明,我们的模型可以显著简化真实世界的在线文本,显示了合成数据在改进文本简化方面的潜力。