德国叙事文档的自动文本简化探索
本研究首次使用合成数据来训练德语文档级文本简化的生成模型,通过真实世界在线文本论证了我们方法的有效性。解决语言简化中数据稀缺的挑战,我们爬取了经过专业简化的德语文本并使用 GPT-4 合成了一个语料库。我们在这些数据上微调了多达 130 亿参数的大型语言模型,并使用多种方法对其性能进行评估。该论文运用了各种评估方法,并展示了当前使用的基于规则的度量指标的局限性。自动和手动评估均表明,我们的模型可以显著简化真实世界的在线文本,显示了合成数据在改进文本简化方面的潜力。
Feb, 2024
本文提出了一种通过在德国简单语言语料库上微调语言模型并将其作为序列到序列简化任务的解码器来克服数据稀缺性问题的两步方法,结果表明,在不同于英语的语言上进行无对齐预训练可以降低所需的平行数据量,同时提高下游任务的性能。
May, 2023
通过对荷兰语文本简化进行实证研究,我们提供了一个可配置的文本简化流水线的设计和实现,以控制最先进的生成式文本简化模型、领域和读者适应以及可视化模块,并揭示了自动文本简化的优势与处理文化和常识知识所面临的挑战,这是对荷兰语文本简化探索的第一步,并为未来的研究和实践提供了启示。
Aug, 2023
本研究评估了德语抽象文本摘要的特定现状,并调查现实情形下为什么有效的抽象文本摘要解决方案在工业界仍然缺失。我们的重点是分析训练资源和公开可用的摘要系统,并发现现有的数据集和系统存在极大的缺陷和评估偏差。此外,我们发现现有的系统经常不能与简单的基准线进行比较,并且忽略了更有效和高效的摘要方法。
Jan, 2023
德文文本简化的当前状况,重点研究平行和单语德语语料库。评估神经语言模型在简化德语文本方面的适用性,特别是在法律文本和无障碍要求方面。研究结果强调了需要更多的训练数据和更恰当的方法,考虑到德语的特定语言特征,以及针对认知或语言障碍目标群体的需求和偏好的重要性。为了解决这些研究空白,作者们于 2023 年 4 月启动了跨学科的 OPEN-LS 项目。该项目旨在开发适合低识字水平个体使用的文本格式框架,整合法律文本,并提高对语言或认知障碍者的可理解性。此外,该项目还将探索使用生成图像的人工智能以增强面向特定受众的插图数据的成本效益方法。欲了解更多和最新信息,请访问我们的项目主页:https://URL-Link
Dec, 2023
本文使用预训练转换器模型探讨了简化句子的方法,并在 Mechanical Turk 数据集上结合 GPT-2 和 BERT 模型取得了 46.80 的最佳 SARI 得分,明显优于之前的最新研究成果。
Dec, 2022
本研究提出了一种利用神经模型、机器翻译、自然语言生成和元数据的迁移学习方法,用于生成长描述性摘要,旨在解决机器翻译、自然语言生成和元数据机器翻译等方面的挑战。实验结果表明,该方法可以优于现有技术,并在 WNGT 2019 中的 “文档生成和翻译” 任务中荣获全场第一。
Oct, 2019
本文提出了第一次尝试仅依赖于未标记文本语料库进行无监督神经文本简化的核心框架,由共享编码器和一对注意解码器组成,并通过基于鉴别和去噪的损失进行简化知识的获取,并使用从 en-Wikipedia 转储的未标记文本进行训练。我们在公共测试数据上进行的分析(包括定量和定性的人类评估)表明,所提出的模型可以在词汇和句法两个级别上进行文本简化,竞争现有的监督方法。此外,增加几个标记的对也进一步提高了性能。
Oct, 2018
该研究提供了一个从网络资源中编制而来的德语语料库,可用于自动易读性评估和自动文本简化,并包含文字结构、排版和图片信息,可以作为机器学习方法中易读性评估和文本简化的一部分。本研究重点关注将此信息作为现有语料库标准的扩展。
Sep, 2019