德文文本简化：使用半合成数据对大型语言模型进行微调

ACLFeb, 2024

德文文本简化：使用半合成数据对大型语言模型进行微调

German Text Simplification: Finetuning Large Language Models with Semi-Synthetic Data

Lars Klöser, Mika Beele, Jan-Niklas Schagen, Bodo Kraft

TL;DR本研究首次使用合成数据来训练德语文档级文本简化的生成模型，通过真实世界在线文本论证了我们方法的有效性。解决语言简化中数据稀缺的挑战，我们爬取了经过专业简化的德语文本并使用 GPT-4 合成了一个语料库。我们在这些数据上微调了多达 130 亿参数的大型语言模型，并使用多种方法对其性能进行评估。该论文运用了各种评估方法，并展示了当前使用的基于规则的度量指标的局限性。自动和手动评估均表明，我们的模型可以显著简化真实世界的在线文本，显示了合成数据在改进文本简化方面的潜力。

Abstract

This study pioneers the use of synthetically generated data for training generative models in document-level →

synthetically generated data generative models document-level text simplification german texts text simplification

发现论文，激发创造

面向德语文本简化的语言模型：通过风格特定的预训练克服平行数据稀缺问题

本文提出了一种通过在德国简单语言语料库上微调语言模型并将其作为序列到序列简化任务的解码器来克服数据稀缺性问题的两步方法，结果表明，在不同于英语的语言上进行无对齐预训练可以降低所需的平行数据量，同时提高下游任务的性能。

May, 2023

德国叙事文档的自动文本简化探索

应用基于转换器的自然语言生成技术来进行文本简化研究，发现现有的德语方法无法很好地解决该问题，并提出了一些未来研究的方向。

Dec, 2023

德语文本简化的数据和方法 —— 提升辅助可访问性的沟通

德文文本简化的当前状况，重点研究平行和单语德语语料库。评估神经语言模型在简化德语文本方面的适用性，特别是在法律文本和无障碍要求方面。研究结果强调了需要更多的训练数据和更恰当的方法，考虑到德语的特定语言特征，以及针对认知或语言障碍目标群体的需求和偏好的重要性。为了解决这些研究空白，作者们于 2023 年 4 月启动了跨学科的 OPEN-LS 项目。该项目旨在开发适合低识字水平个体使用的文本格式框架，整合法律文本，并提高对语言或认知障碍者的可理解性。此外，该项目还将探索使用生成图像的人工智能以增强面向特定受众的插图数据的成本效益方法。欲了解更多和最新信息，请访问我们的项目主页：https://URL-Link

Dec, 2023

利用合成目标进行机器翻译

使用大型预训练模型生成合成目标数据可以提高限定资源环境下机器翻译模型的性能，这种方法可以优于在实际数据上训练模型，效果更好的原因可以归因于模型参数的数量限制和优化效果的提高。

May, 2023

利用大型语言模型改进文本嵌入

通过使用合成数据和少于 1k 个训练步骤，我们引入了一种获取高质量文本嵌入的新颖简单方法。与现有方法不同，我们的方法不需要构建复杂的训练流程或依赖于常常受到任务多样性和语言覆盖性限制的人工收集的数据集。通过利用专有 LLMs 在近 100 种语言中生成大量多样化的合成数据，我们使用标准对比损失在合成数据上微调开源的只解码 LLMs。实验证明，我们的方法在高度竞争的文本嵌入基准上具有强大的性能，而不使用任何标记数据。此外，当用合成数据和标记数据的混合进行微调时，我们的模型在 BEIR 和 MTEB 基准上创造了最新的技术成果。

Dec, 2023

利用大型语言模型进行文本分类的合成数据生成：潜力与局限性

通过研究 LLM 生成的合成数据的表现与分类的主观性之间的关系，我们发现主观性对于模型训练的合成数据的性能具有负面影响，从而限制了利用 LLM 进行合成数据生成的潜力和局限性。

Oct, 2023

ARTIST: 人工智能用于简化文字

通过对荷兰语文本简化进行实证研究，我们提供了一个可配置的文本简化流水线的设计和实现，以控制最先进的生成式文本简化模型、领域和读者适应以及可视化模块，并揭示了自动文本简化的优势与处理文化和常识知识所面临的挑战，这是对荷兰语文本简化探索的第一步，并为未来的研究和实践提供了启示。

Aug, 2023

基于 LLM 的数据增强方法提升跨语言表现

本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力，通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集，确定了该方法的有效性，并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明，使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀，ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好，但在某些情况下，它们的效益会下降。

May, 2023

GPT3Mix：利用大规模语言模型进行文本增强

本文提出一种新的数据增广技术，利用大规模的语言模型从混合的样本中生成逼真的文本样本，并利用语言模型预测的软标签，从大规模语言模型中蒸馏知识并同时创建文本扰动，我们在多元化的分类任务上进行数据增广实验，并展示了该方法远远优于现有的文本增广方法，消融研究和定性分析提供了更多的见解。

Apr, 2021

基于错误人工评估的 GPT-4 在句子简化中的深入评估

通过设计错误基础的人类注释框架来评估 GPT-4 在句子简化方面的能力，进一步深入了解大型语言模型的性能，同时确保评估的可靠性。该研究发现 GPT-4 相对于现有最先进的模型来说，普遍生成较少错误的简化输出，但在词汇转述方面仍然存在限制。此外，我们对广泛使用的自动评估指标进行了元评估，发现这些指标在评估 GPT-4 的高质量简化整体能力上缺乏足够的敏感性。

Mar, 2024