一个新的对齐的简单德语语料库
该研究提供了一个从网络资源中编制而来的德语语料库,可用于自动易读性评估和自动文本简化,并包含文字结构、排版和图片信息,可以作为机器学习方法中易读性评估和文本简化的一部分。本研究重点关注将此信息作为现有语料库标准的扩展。
Sep, 2019
本文介绍了 DEplain,它是一种新的德语数据集,用于在新闻和网络领域中对句子和文档进行平行语言的写作,我们使用该数据集进行训练,使用 transformer-based 的 seq2seq 模型实现文本简化,并通过 web 收集器扩大其数据量以得到更具吸引力的结果。
May, 2023
该研究提供一个德语语音、德语文本和英语翻译的平行语料库,以德语有声读物为基础,包括 110 小时的音频材料,对齐了超过 50k 句平行句子,并且提供了更大的数据集,包括 547 小时的德语语音对齐了德语文本,同时为德语语音识别和德语到英语的端到端翻译提供了大量的资源。
Oct, 2019
德文文本简化的当前状况,重点研究平行和单语德语语料库。评估神经语言模型在简化德语文本方面的适用性,特别是在法律文本和无障碍要求方面。研究结果强调了需要更多的训练数据和更恰当的方法,考虑到德语的特定语言特征,以及针对认知或语言障碍目标群体的需求和偏好的重要性。为了解决这些研究空白,作者们于 2023 年 4 月启动了跨学科的 OPEN-LS 项目。该项目旨在开发适合低识字水平个体使用的文本格式框架,整合法律文本,并提高对语言或认知障碍者的可理解性。此外,该项目还将探索使用生成图像的人工智能以增强面向特定受众的插图数据的成本效益方法。欲了解更多和最新信息,请访问我们的项目主页:https://URL-Link
Dec, 2023
本文介绍了德国与易读语言和简明语言(Leichte Sprache 和 Einfache Sprache)有关的最新自然语言处理工具和资源,并探讨了其目前的状况。
Jun, 2023
本文提出了一种通过在德国简单语言语料库上微调语言模型并将其作为序列到序列简化任务的解码器来克服数据稀缺性问题的两步方法,结果表明,在不同于英语的语言上进行无对齐预训练可以降低所需的平行数据量,同时提高下游任务的性能。
May, 2023
本文介绍了一个为德语文本开发的标注方案和标注工具,旨在基于论述结构进行表征,同时还允许其他表征的提取。本文还讨论了一些方法论问题和现象分析,并重点介绍了在项目中开发的工具及其应用。
Jul, 1998
该研究找出了语音到语音翻译领域所面临的主要限制是缺乏合适的培训数据。为了解决这个问题,研究人员创建了一个公开可用的语音到语音训练语料库 ——LibriS2S。基于这个语料库,提出了基于 FastSpeech 2 模型的新文本到语音模型,以及如何使模型直接根据源语言的发音来生成语音信号。
Apr, 2022
该研究提供了 TextComplexityDE 数据集,其中包括 1000 个句子,采自不同领域的 23 篇德文维基百科文章,用于开发文本复杂性预测模型和德语自动文本简化。该数据集包括由德语学习者在 A 和 B 级别提供的不同文本复杂度方面的主观评估,此外,还包括了由母语德语者提供的 250 个句子的手动简化以及目标群体参与者对简化后句子的主观评估。主观评级使用实验室研究和众包方法进行收集。
Apr, 2019