德国叙事文档的自动文本简化探索

Dec, 2023

德国叙事文档的自动文本简化探索

Exploring Automatic Text Simplification of German Narrative Documents

Thorben Schomacker, Tillmann Dönicke, Marina Tropmann-Frick

TL;DR应用基于转换器的自然语言生成技术来进行文本简化研究，发现现有的德语方法无法很好地解决该问题，并提出了一些未来研究的方向。

Abstract

In this paper, we apply transformer-based natural language generation (NLG) techniques to the problem of text simplification. Currently, there are only a few →

transformer-based natural language generation text simplification german datasets longformer attention mbart model

发现论文，激发创造

德文文本简化：使用半合成数据对大型语言模型进行微调

本研究首次使用合成数据来训练德语文档级文本简化的生成模型，通过真实世界在线文本论证了我们方法的有效性。解决语言简化中数据稀缺的挑战，我们爬取了经过专业简化的德语文本并使用 GPT-4 合成了一个语料库。我们在这些数据上微调了多达 130 亿参数的大型语言模型，并使用多种方法对其性能进行评估。该论文运用了各种评估方法，并展示了当前使用的基于规则的度量指标的局限性。自动和手动评估均表明，我们的模型可以显著简化真实世界的在线文本，显示了合成数据在改进文本简化方面的潜力。

Feb, 2024

面向德语文本简化的语言模型：通过风格特定的预训练克服平行数据稀缺问题

本文提出了一种通过在德国简单语言语料库上微调语言模型并将其作为序列到序列简化任务的解码器来克服数据稀缺性问题的两步方法，结果表明，在不同于英语的语言上进行无对齐预训练可以降低所需的平行数据量，同时提高下游任务的性能。

May, 2023

ARTIST: 人工智能用于简化文字

通过对荷兰语文本简化进行实证研究，我们提供了一个可配置的文本简化流水线的设计和实现，以控制最先进的生成式文本简化模型、领域和读者适应以及可视化模块，并揭示了自动文本简化的优势与处理文化和常识知识所面临的挑战，这是对荷兰语文本简化探索的第一步，并为未来的研究和实践提供了启示。

Aug, 2023

德国（抽象）文本摘要情况

本研究评估了德语抽象文本摘要的特定现状，并调查现实情形下为什么有效的抽象文本摘要解决方案在工业界仍然缺失。我们的重点是分析训练资源和公开可用的摘要系统，并发现现有的数据集和系统存在极大的缺陷和评估偏差。此外，我们发现现有的系统经常不能与简单的基准线进行比较，并且忽略了更有效和高效的摘要方法。

Jan, 2023

德语文本简化的数据和方法 —— 提升辅助可访问性的沟通

德文文本简化的当前状况，重点研究平行和单语德语语料库。评估神经语言模型在简化德语文本方面的适用性，特别是在法律文本和无障碍要求方面。研究结果强调了需要更多的训练数据和更恰当的方法，考虑到德语的特定语言特征，以及针对认知或语言障碍目标群体的需求和偏好的重要性。为了解决这些研究空白，作者们于 2023 年 4 月启动了跨学科的 OPEN-LS 项目。该项目旨在开发适合低识字水平个体使用的文本格式框架，整合法律文本，并提高对语言或认知障碍者的可理解性。此外，该项目还将探索使用生成图像的人工智能以增强面向特定受众的插图数据的成本效益方法。欲了解更多和最新信息，请访问我们的项目主页：https://URL-Link

Dec, 2023

使用 Transformer 进行句子简化 -- 以五岁孩子的语言为解释

本文使用预训练转换器模型探讨了简化句子的方法，并在 Mechanical Turk 数据集上结合 GPT-2 和 BERT 模型取得了 46.80 的最佳 SARI 得分，明显优于之前的最新研究成果。

Dec, 2022

Naver Labs Europe 在 WNGT 2019 中的文档级生成和翻译任务系统

本研究提出了一种利用神经模型、机器翻译、自然语言生成和元数据的迁移学习方法，用于生成长描述性摘要，旨在解决机器翻译、自然语言生成和元数据机器翻译等方面的挑战。实验结果表明，该方法可以优于现有技术，并在 WNGT 2019 中的 “文档生成和翻译” 任务中荣获全场第一。

Oct, 2019

医疗文本的段落级简化

本研究探讨了如何应用语言模型来改进医学文本的简化，提出了一种基于似然分数的新度量标准，并对编码器解码器模型的新方法进行了评估，同时建立了一些语料库。

Apr, 2021

无监督神经文本简化

本文提出了第一次尝试仅依赖于未标记文本语料库进行无监督神经文本简化的核心框架，由共享编码器和一对注意解码器组成，并通过基于鉴别和去噪的损失进行简化知识的获取，并使用从 en-Wikipedia 转储的未标记文本进行训练。我们在公共测试数据上进行的分析（包括定量和定性的人类评估）表明，所提出的模型可以在词汇和句法两个级别上进行文本简化，竞争现有的监督方法。此外，增加几个标记的对也进一步提高了性能。

Oct, 2018

德语自动易读性评估和文本简化语料库

该研究提供了一个从网络资源中编制而来的德语语料库，可用于自动易读性评估和自动文本简化，并包含文字结构、排版和图片信息，可以作为机器学习方法中易读性评估和文本简化的一部分。本研究重点关注将此信息作为现有语料库标准的扩展。

Sep, 2019