德语自动易读性评估和文本简化语料库

Sep, 2019

德语自动易读性评估和文本简化语料库

A Corpus for Automatic Readability Assessment and Text Simplification of German

Alessia Battisti, Sarah Ebling

TL;DR该研究提供了一个从网络资源中编制而来的德语语料库，可用于自动易读性评估和自动文本简化，并包含文字结构、排版和图片信息，可以作为机器学习方法中易读性评估和文本简化的一部分。本研究重点关注将此信息作为现有语料库标准的扩展。

Abstract

In this paper, we present a corpus for use in automatic readability assessment and automatic text simplification of german. The

corpus readability assessment text simplification german machine learning

发现论文，激发创造

德语文本简化的数据和方法 —— 提升辅助可访问性的沟通

德文文本简化的当前状况，重点研究平行和单语德语语料库。评估神经语言模型在简化德语文本方面的适用性，特别是在法律文本和无障碍要求方面。研究结果强调了需要更多的训练数据和更恰当的方法，考虑到德语的特定语言特征，以及针对认知或语言障碍目标群体的需求和偏好的重要性。为了解决这些研究空白，作者们于 2023 年 4 月启动了跨学科的 OPEN-LS 项目。该项目旨在开发适合低识字水平个体使用的文本格式框架，整合法律文本，并提高对语言或认知障碍者的可理解性。此外，该项目还将探索使用生成图像的人工智能以增强面向特定受众的插图数据的成本效益方法。欲了解更多和最新信息，请访问我们的项目主页：https://URL-Link

Dec, 2023

德语文本复杂度的主观评估数据集

该研究提供了 TextComplexityDE 数据集，其中包括 1000 个句子，采自不同领域的 23 篇德文维基百科文章，用于开发文本复杂性预测模型和德语自动文本简化。该数据集包括由德语学习者在 A 和 B 级别提供的不同文本复杂度方面的主观评估，此外，还包括了由母语德语者提供的 250 个句子的手动简化以及目标群体参与者对简化后句子的主观评估。主观评级使用实验室研究和众包方法进行收集。

Apr, 2019

从互联网自动创建低资源语言文本语料库：以瑞士德语为例

SwissCrawl 是目前最大的瑞士德语文本语料库之一，是使用自定义网络抓取工具生成的。它展示了如何利用公开的网络页面构建全面的文本语料库，在自然语言处理方面非常重要。在实验评估中，我们发现使用新语料库可以显著提高语言建模任务的性能。为了捕获新内容，我们的方法会持续不断地运行以增加语料库的文本。

Nov, 2019

一个德国报纸文本的语言解释语料库

本文介绍了一个为德语文本开发的标注方案和标注工具，旨在基于论述结构进行表征，同时还允许其他表征的提取。本文还讨论了一些方法论问题和现象分析，并重点介绍了在项目中开发的工具及其应用。

Jul, 1998

Klexikon：一个用于联合总结和简化的德语数据集

本研究提出了一种联合文本简化和摘要生成的方案，为此创建了一个新的数据集，并提供代码和数据以支持该方案的实现。

Jan, 2022

一个新的对齐的简单德语语料库

该研究介绍了一种名为‘Leichte Sprache’的德国简易语言，致力于使复杂的书面语言更易理解。研究团队通过自动化句子对齐，创建了一份包含多个文档源的新的德语单语语料库，并在参考手动标记的子集下评估了对齐的质量。评估结果表明，该方法的 F1 得分优于以前的工作，并已发布 BY-SA 许可的数据集及用 MIT 许可发布的相关代码。

Sep, 2022

基于迁移学习的德语文本可读性评估模型

本研究基于迁移学习提出了一种新的德文文本复杂度评估模型，结果表明该模型优于传统的基于文本语言特征提取的解决方案，最佳模型使用 BERT 预训练语言模型取得了 0.483 的均方根误差。

Jul, 2022

德国叙事文档的自动文本简化探索

应用基于转换器的自然语言生成技术来进行文本简化研究，发现现有的德语方法无法很好地解决该问题，并提出了一些未来研究的方向。

Dec, 2023

德文文本简化：使用半合成数据对大型语言模型进行微调

本研究首次使用合成数据来训练德语文档级文本简化的生成模型，通过真实世界在线文本论证了我们方法的有效性。解决语言简化中数据稀缺的挑战，我们爬取了经过专业简化的德语文本并使用 GPT-4 合成了一个语料库。我们在这些数据上微调了多达 130 亿参数的大型语言模型，并使用多种方法对其性能进行评估。该论文运用了各种评估方法，并展示了当前使用的基于规则的度量指标的局限性。自动和手动评估均表明，我们的模型可以显著简化真实世界的在线文本，显示了合成数据在改进文本简化方面的潜力。

Feb, 2024

德国（抽象）文本摘要情况

本研究评估了德语抽象文本摘要的特定现状，并调查现实情形下为什么有效的抽象文本摘要解决方案在工业界仍然缺失。我们的重点是分析训练资源和公开可用的摘要系统，并发现现有的数据集和系统存在极大的缺陷和评估偏差。此外，我们发现现有的系统经常不能与简单的基准线进行比较，并且忽略了更有效和高效的摘要方法。

Jan, 2023