EASSE-DE:德文自动句子简化评估的更简易方法
介绍了一个名为 EASSE 的 Python 包,旨在促进和标准化句子简化(SS)系统的自动评估和比较,为评估资源提供单一访问点:包括标准自动指标、某些简化转换的单词级准确性得分、无参考质量估算特征和标准的 SS 评估测试数据。通过实验,发现这些功能允许更好地比较和理解 SS 系统的性能。
Aug, 2019
本文提出了一种通过在德国简单语言语料库上微调语言模型并将其作为序列到序列简化任务的解码器来克服数据稀缺性问题的两步方法,结果表明,在不同于英语的语言上进行无对齐预训练可以降低所需的平行数据量,同时提高下游任务的性能。
May, 2023
该研究提供了一个从网络资源中编制而来的德语语料库,可用于自动易读性评估和自动文本简化,并包含文字结构、排版和图片信息,可以作为机器学习方法中易读性评估和文本简化的一部分。本研究重点关注将此信息作为现有语料库标准的扩展。
Sep, 2019
德文文本简化的当前状况,重点研究平行和单语德语语料库。评估神经语言模型在简化德语文本方面的适用性,特别是在法律文本和无障碍要求方面。研究结果强调了需要更多的训练数据和更恰当的方法,考虑到德语的特定语言特征,以及针对认知或语言障碍目标群体的需求和偏好的重要性。为了解决这些研究空白,作者们于 2023 年 4 月启动了跨学科的 OPEN-LS 项目。该项目旨在开发适合低识字水平个体使用的文本格式框架,整合法律文本,并提高对语言或认知障碍者的可理解性。此外,该项目还将探索使用生成图像的人工智能以增强面向特定受众的插图数据的成本效益方法。欲了解更多和最新信息,请访问我们的项目主页:https://URL-Link
Dec, 2023
该研究提供了 TextComplexityDE 数据集,其中包括 1000 个句子,采自不同领域的 23 篇德文维基百科文章,用于开发文本复杂性预测模型和德语自动文本简化。该数据集包括由德语学习者在 A 和 B 级别提供的不同文本复杂度方面的主观评估,此外,还包括了由母语德语者提供的 250 个句子的手动简化以及目标群体参与者对简化后句子的主观评估。主观评级使用实验室研究和众包方法进行收集。
Apr, 2019
本研究首次使用合成数据来训练德语文档级文本简化的生成模型,通过真实世界在线文本论证了我们方法的有效性。解决语言简化中数据稀缺的挑战,我们爬取了经过专业简化的德语文本并使用 GPT-4 合成了一个语料库。我们在这些数据上微调了多达 130 亿参数的大型语言模型,并使用多种方法对其性能进行评估。该论文运用了各种评估方法,并展示了当前使用的基于规则的度量指标的局限性。自动和手动评估均表明,我们的模型可以显著简化真实世界的在线文本,显示了合成数据在改进文本简化方面的潜力。
Feb, 2024
我们通过两个以复杂句和复杂词为重点的语料库,对西班牙语文本简化(TS)在生产系统中进行评估。我们将最流行的西班牙语特定可读性评分与神经网络进行比较,并表明后者在预测用户对 TS 的偏好方面始终更好。作为分析的一部分,我们发现多语言模型在相同任务上表现不及相应的仅限西班牙语模型,然而所有模型都过于频繁地关注无关的统计特征,如句子长度。我们通过在评估中发布我们的语料库,希望推动西班牙语自然语言处理的最新技术发展。
Aug, 2023
MUSS 是一种无监督句子简化系统,可以通过句子级复述数据训练模型,而不需要标记简化数据。该系统还可以从 Common Crawl 中使用语义句子嵌入挖掘语言无关的复述数据,并在英语,法语和西班牙语简化基准测试中进行评估,获得与有监督方法最佳结果相当的性能。
May, 2020
该研究介绍了 MultiSim 基准,这是一个包含 27 种语言的 12 种不同语言资源的集合,其中包含超过 170 万个复杂 - 简单句对,使用预训练的多语言语言模型进行的实验表明具有激动人心的性能提升,证实了跨语言的可行性。
May, 2023