英语、葡萄牙语和西班牙语的词汇简化基准

Sep, 2022

英语、葡萄牙语和西班牙语的词汇简化基准

Lexical Simplification Benchmarks for English, Portuguese, and Spanish

Sanja Stajner, Daniel Ferres, Matthew Shardlow, Kai North, Marcos Zampieri...

TL;DR本研究呈现了一个新的数据集以适用于三种语言且提供了建立和评估词汇简化系统所需的高质量数据体。通过采用神经网络架构，对两种高级系统进行了适应和评估，结果在英语中表现最佳。

Abstract

Even in highly-developed countries, as many as 15-30\% of the population can only understand texts written using a basic vocabulary. Their understanding of everyday texts is limited, which prevents them from taking an active role in society and making informed decisions regarding healthcare, legal representation, or democratic choice. →

lexical simplification natural language processing dataset neural architecture evaluation measures

发现论文，激发创造

TSAR-2022 多语言词汇简化公开挑战赛研究结果

报告了 TSAR-2022 共享任务中多语言词汇简化的发现，该任务在 EMNLP 2022 举行，涉及英语，葡萄牙语和西班牙语的多语言词汇简化。共有 14 个团队提交了他们的词汇简化系统的结果，并且结果表明英语的简化效果比西班牙语和葡萄牙语更好，建立了新的基准结果。

Feb, 2023

ALEXSIS-PT：葡萄牙语词汇简化的新资源

本研究介绍 ALEXSIS-PT 语料库构建的巴西葡萄牙语言词汇简化数据集，使用 mDistilBERT，mBERT，XLM-R 和 BERTimbau 四个模型进行评估，结果表明 BERTimbau 在所有评估指标上都具有最高性能。

Sep, 2022

MultiLS-SP/CA：加泰罗尼亚语和西班牙语的词汇复杂性预测和词汇简化资源

通过使用 MultiLS-SP/CA 数据集，本研究描述了自动词汇简化的任务，此数据集为西班牙语和加泰罗尼亚语提供了一种新的方法，首次包含西班牙语的词汇理解困难度的定量评分，并将此数据集的实验结果作为未来工作的基准。

Apr, 2024

词汇简化的深度学习方法：综述

本文针对近几年来人工智能 / 自然语言处理 community 中深度学习的进步，特别是大型语言模型和 prompt 学习的引入，在词汇简化领域（Lexical Simplification，LS）进行了全面的研究和调查，特别关注深度学习，在具体实践中展示了该任务的子任务，并提出未来的发展方向和基准数据集。

May, 2023

一项以用户为中心的西班牙文正文简化评价

我们通过两个以复杂句和复杂词为重点的语料库，对西班牙语文本简化（TS）在生产系统中进行评估。我们将最流行的西班牙语特定可读性评分与神经网络进行比较，并表明后者在预测用户对 TS 的偏好方面始终更好。作为分析的一部分，我们发现多语言模型在相同任务上表现不及相应的仅限西班牙语模型，然而所有模型都过于频繁地关注无关的统计特征，如句子长度。我们通过在评估中发布我们的语料库，希望推动西班牙语自然语言处理的最新技术发展。

Aug, 2023

MultiLS：一个多任务词汇简化框架

自动将难以阅读的词替换为更易理解的替代词，以改善文本可访问性；通过创建多任务的 LS 数据集，MultiLS 框架和 MultiLS-PT 数据集的潜力得到展示，并报告了基于转换器和大型语言模型的模型性能。

Feb, 2024

西班牙金融教育文本简化的新数据集

本研究的主要目标是开发一个西班牙语金融文本简化数据集，并通过使用 GPT-3、Tuner 和 MT5 等系统生成的简化进行比较，评估数据增强的可行性。

Dec, 2023

医学文本的多语言简化

本研究介绍了 MultiCochrane 数据集，并评估了跨多语言的医学简化文本模型，尽管该模型能够生成可行的简化文本，但我们也发现了仍未解决的挑战。

May, 2023

UniHD 参加 TSAR-2022 共享任务：词汇简化只需计算能力吗？

使用基于 GPT-3 生成的简单流水线，在少量训练实例的情况下，通过几种不同的提示模板获得了最佳表现，可以实现对英语以外语言的简化，方法适用于西班牙语和葡萄牙语，并讨论了提示的特点和未来工作的影响。

Jan, 2023

一个词汇复杂度词典和神经可读性排名模型，用于词汇简化

本文利用基于人类判断的词汇复杂性词典和基于高斯的特征向量化层提出了一种新的神经可读性排名模型，用于衡量任何给定单词或短语的复杂性，并通过将该模型应用于 Paraphrase 数据库（PPDB）生成了超过 1000 万个简化的复述规则。实验证明，我们的模型在不同的词汇简化任务和评估数据集上表现优于现有的最佳系统。

Oct, 2018