一个新的对齐的简单德语语料库

Sep, 2022

A New Aligned Simple German Corpus

Vanessa Toborek, Moritz Busch, Malte Boßert, Christian Bauckhage, Pascal Welke

TL;DR该研究介绍了一种名为‘Leichte Sprache’的德国简易语言，致力于使复杂的书面语言更易理解。研究团队通过自动化句子对齐，创建了一份包含多个文档源的新的德语单语语料库，并在参考手动标记的子集下评估了对齐的质量。评估结果表明，该方法的 F1 得分优于以前的工作，并已发布 BY-SA 许可的数据集及用 MIT 许可发布的相关代码。

Abstract

"leichte sprache", the German counterpart to Simple English, is a regulated language aiming to facilitate complex written language that would otherwise stay inaccessible to different groups of people. We present a new sentence-aligned →

leichte sprache simple german sentence alignment monolingual corpus accessibility

发现论文，激发创造

德语自动易读性评估和文本简化语料库

该研究提供了一个从网络资源中编制而来的德语语料库，可用于自动易读性评估和自动文本简化，并包含文字结构、排版和图片信息，可以作为机器学习方法中易读性评估和文本简化的一部分。本研究重点关注将此信息作为现有语料库标准的扩展。

Sep, 2019

DEPLAIN: 一个德语平行语料库，具有针对句子和文档简化的纯语言内译

本文介绍了 DEplain，它是一种新的德语数据集，用于在新闻和网络领域中对句子和文档进行平行语言的写作，我们使用该数据集进行训练，使用 transformer-based 的 seq2seq 模型实现文本简化，并通过 web 收集器扩大其数据量以得到更具吸引力的结果。

May, 2023

LibriVoxDeEn: 一个用于德语到英语语音翻译和德语语音识别的语料库

该研究提供一个德语语音、德语文本和英语翻译的平行语料库，以德语有声读物为基础，包括 110 小时的音频材料，对齐了超过 50k 句平行句子，并且提供了更大的数据集，包括 547 小时的德语语音对齐了德语文本，同时为德语语音识别和德语到英语的端到端翻译提供了大量的资源。

Oct, 2019

德语文本简化的数据和方法 —— 提升辅助可访问性的沟通

德文文本简化的当前状况，重点研究平行和单语德语语料库。评估神经语言模型在简化德语文本方面的适用性，特别是在法律文本和无障碍要求方面。研究结果强调了需要更多的训练数据和更恰当的方法，考虑到德语的特定语言特征，以及针对认知或语言障碍目标群体的需求和偏好的重要性。为了解决这些研究空白，作者们于 2023 年 4 月启动了跨学科的 OPEN-LS 项目。该项目旨在开发适合低识字水平个体使用的文本格式框架，整合法律文本，并提高对语言或认知障碍者的可理解性。此外，该项目还将探索使用生成图像的人工智能以增强面向特定受众的插图数据的成本效益方法。欲了解更多和最新信息，请访问我们的项目主页：https://URL-Link

Dec, 2023

Klexikon：一个用于联合总结和简化的德语数据集

本研究提出了一种联合文本简化和摘要生成的方案，为此创建了一个新的数据集，并提供代码和数据以支持该方案的实现。

Jan, 2022

德国易读性状况及可利用资源调查

本文介绍了德国与易读语言和简明语言（Leichte Sprache 和 Einfache Sprache）有关的最新自然语言处理工具和资源，并探讨了其目前的状况。

Jun, 2023

面向德语文本简化的语言模型：通过风格特定的预训练克服平行数据稀缺问题

本文提出了一种通过在德国简单语言语料库上微调语言模型并将其作为序列到序列简化任务的解码器来克服数据稀缺性问题的两步方法，结果表明，在不同于英语的语言上进行无对齐预训练可以降低所需的平行数据量，同时提高下游任务的性能。

May, 2023

一个德国报纸文本的语言解释语料库

本文介绍了一个为德语文本开发的标注方案和标注工具，旨在基于论述结构进行表征，同时还允许其他表征的提取。本文还讨论了一些方法论问题和现象分析，并重点介绍了在项目中开发的工具及其应用。

Jul, 1998

LibriS2S: 一份德英语音到语音翻译语料库

该研究找出了语音到语音翻译领域所面临的主要限制是缺乏合适的培训数据。为了解决这个问题，研究人员创建了一个公开可用的语音到语音训练语料库 ——LibriS2S。基于这个语料库，提出了基于 FastSpeech 2 模型的新文本到语音模型，以及如何使模型直接根据源语言的发音来生成语音信号。

Apr, 2022

德语文本复杂度的主观评估数据集

该研究提供了 TextComplexityDE 数据集，其中包括 1000 个句子，采自不同领域的 23 篇德文维基百科文章，用于开发文本复杂性预测模型和德语自动文本简化。该数据集包括由德语学习者在 A 和 B 级别提供的不同文本复杂度方面的主观评估，此外，还包括了由母语德语者提供的 250 个句子的手动简化以及目标群体参与者对简化后句子的主观评估。主观评级使用实验室研究和众包方法进行收集。

Apr, 2019