英语、葡萄牙语和西班牙语的词汇简化基准
报告了 TSAR-2022 共享任务中多语言词汇简化的发现,该任务在 EMNLP 2022 举行,涉及英语,葡萄牙语和西班牙语的多语言词汇简化。共有 14 个团队提交了他们的词汇简化系统的结果,并且结果表明英语的简化效果比西班牙语和葡萄牙语更好,建立了新的基准结果。
Feb, 2023
本研究介绍 ALEXSIS-PT 语料库构建的巴西葡萄牙语言词汇简化数据集,使用 mDistilBERT,mBERT,XLM-R 和 BERTimbau 四个模型进行评估,结果表明 BERTimbau 在所有评估指标上都具有最高性能。
Sep, 2022
通过使用 MultiLS-SP/CA 数据集,本研究描述了自动词汇简化的任务,此数据集为西班牙语和加泰罗尼亚语提供了一种新的方法,首次包含西班牙语的词汇理解困难度的定量评分,并将此数据集的实验结果作为未来工作的基准。
Apr, 2024
本文针对近几年来人工智能 / 自然语言处理 community 中深度学习的进步,特别是大型语言模型和 prompt 学习的引入,在词汇简化领域(Lexical Simplification,LS)进行了全面的研究和调查,特别关注深度学习,在具体实践中展示了该任务的子任务,并提出未来的发展方向和基准数据集。
May, 2023
我们通过两个以复杂句和复杂词为重点的语料库,对西班牙语文本简化(TS)在生产系统中进行评估。我们将最流行的西班牙语特定可读性评分与神经网络进行比较,并表明后者在预测用户对 TS 的偏好方面始终更好。作为分析的一部分,我们发现多语言模型在相同任务上表现不及相应的仅限西班牙语模型,然而所有模型都过于频繁地关注无关的统计特征,如句子长度。我们通过在评估中发布我们的语料库,希望推动西班牙语自然语言处理的最新技术发展。
Aug, 2023
自动将难以阅读的词替换为更易理解的替代词,以改善文本可访问性;通过创建多任务的 LS 数据集,MultiLS 框架和 MultiLS-PT 数据集的潜力得到展示,并报告了基于转换器和大型语言模型的模型性能。
Feb, 2024
本研究的主要目标是开发一个西班牙语金融文本简化数据集,并通过使用 GPT-3、Tuner 和 MT5 等系统生成的简化进行比较,评估数据增强的可行性。
Dec, 2023
使用基于 GPT-3 生成的简单流水线,在少量训练实例的情况下,通过几种不同的提示模板获得了最佳表现,可以实现对英语以外语言的简化,方法适用于西班牙语和葡萄牙语,并讨论了提示的特点和未来工作的影响。
Jan, 2023
本文利用基于人类判断的词汇复杂性词典和基于高斯的特征向量化层提出了一种新的神经可读性排名模型,用于衡量任何给定单词或短语的复杂性,并通过将该模型应用于 Paraphrase 数据库(PPDB)生成了超过 1000 万个简化的复述规则。实验证明,我们的模型在不同的词汇简化任务和评估数据集上表现优于现有的最佳系统。
Oct, 2018