Klexikon:一个用于联合总结和简化的德语数据集
本文针对文本简化数据的缺乏问题,提出了使用文本摘要中的数据辅助文本简化的方法(Sum4Simp),并通过实验证明 Sum4Simp 可在低资源场景下提高几种主流简化模型的性能。
Feb, 2023
本研究评估了德语抽象文本摘要的特定现状,并调查现实情形下为什么有效的抽象文本摘要解决方案在工业界仍然缺失。我们的重点是分析训练资源和公开可用的摘要系统,并发现现有的数据集和系统存在极大的缺陷和评估偏差。此外,我们发现现有的系统经常不能与简单的基准线进行比较,并且忽略了更有效和高效的摘要方法。
Jan, 2023
本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库,在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究,验证了所提出的跨语言摘要任务。最后,作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。
Feb, 2022
本文介绍了一个名为 EUR-Lex-Sum 的新数据集,基于欧盟法律平台的法律法规摘要,包括 24 种官方欧洲语言的跨语言段落对齐数据,以及资源的关键特征对现有摘要资源进行比较。
Oct, 2022
德文文本简化的当前状况,重点研究平行和单语德语语料库。评估神经语言模型在简化德语文本方面的适用性,特别是在法律文本和无障碍要求方面。研究结果强调了需要更多的训练数据和更恰当的方法,考虑到德语的特定语言特征,以及针对认知或语言障碍目标群体的需求和偏好的重要性。为了解决这些研究空白,作者们于 2023 年 4 月启动了跨学科的 OPEN-LS 项目。该项目旨在开发适合低识字水平个体使用的文本格式框架,整合法律文本,并提高对语言或认知障碍者的可理解性。此外,该项目还将探索使用生成图像的人工智能以增强面向特定受众的插图数据的成本效益方法。欲了解更多和最新信息,请访问我们的项目主页:https://URL-Link
Dec, 2023
该研究提供了一个从网络资源中编制而来的德语语料库,可用于自动易读性评估和自动文本简化,并包含文字结构、排版和图片信息,可以作为机器学习方法中易读性评估和文本简化的一部分。本研究重点关注将此信息作为现有语料库标准的扩展。
Sep, 2019
本研究首次使用合成数据来训练德语文档级文本简化的生成模型,通过真实世界在线文本论证了我们方法的有效性。解决语言简化中数据稀缺的挑战,我们爬取了经过专业简化的德语文本并使用 GPT-4 合成了一个语料库。我们在这些数据上微调了多达 130 亿参数的大型语言模型,并使用多种方法对其性能进行评估。该论文运用了各种评估方法,并展示了当前使用的基于规则的度量指标的局限性。自动和手动评估均表明,我们的模型可以显著简化真实世界的在线文本,显示了合成数据在改进文本简化方面的潜力。
Feb, 2024
该研究介绍了 WikiLingua 项目,这是一个用于跨语言抽象摘要系统评估的大型多语种数据集。该数据集从 WikiHow 中提取出 18 种语言的文章和摘要对。研究者们使用图像对齐的方法为不同语言版本的文章与摘要建立起对应关系,并提出了一个使用合成数据和神经机器翻译的预训练方法进行直接跨语言摘要的方法,取得了显著的性能提升。
Oct, 2020
本研究填补了前人研究的空白,提出了一个多语种的学术领域摘要数据集,基于此我们能够训练和评估处理英语论文并生成德语、意大利语、汉语和日语摘要的模型,同时分析了在零样本和少样本情况下训练的性能。
May, 2022
该研究提供了 TextComplexityDE 数据集,其中包括 1000 个句子,采自不同领域的 23 篇德文维基百科文章,用于开发文本复杂性预测模型和德语自动文本简化。该数据集包括由德语学习者在 A 和 B 级别提供的不同文本复杂度方面的主观评估,此外,还包括了由母语德语者提供的 250 个句子的手动简化以及目标群体参与者对简化后句子的主观评估。主观评级使用实验室研究和众包方法进行收集。
Apr, 2019