UniHD 参加 TSAR-2022 共享任务:词汇简化只需计算能力吗?
报告了 TSAR-2022 共享任务中多语言词汇简化的发现,该任务在 EMNLP 2022 举行,涉及英语,葡萄牙语和西班牙语的多语言词汇简化。共有 14 个团队提交了他们的词汇简化系统的结果,并且结果表明英语的简化效果比西班牙语和葡萄牙语更好,建立了新的基准结果。
Feb, 2023
我们提出了一种基于无监督学习的词汇简化方法,仅使用单语数据和预训练语言模型。根据目标词和其上下文,我们的方法基于目标上下文和从单语数据中抽样的附加上下文生成替代词。我们在 TSAR-2022 共享任务的英语、葡萄牙语和西班牙语上进行实验,并表明我们的模型在所有语言上都显著优于其他无监督系统。我们还通过与 GPT-3.5 模型组合,建立了一个新的最先进模型。最后,我们在 SWORDS 词汇替换数据集上评估我们的模型,获得了最先进的结果。
Nov, 2023
该研究是关于 TSAR-2022 共享任务中字词简化的贡献,采用 RoBERTa 转换器语言模型扩展了无监督识别的词汇简化系统,通过采取一系列特征加权方案和基于文本蕴含的简化筛选方法,提高了系统的性能表现达 5.9%的精度,排名第二。
Dec, 2022
本文介绍了我们队伍 “teamPN” 为英语子任务所做的工作,我们创建了一个模块化的流水线,将现代转换器模型与传统的 NLP 方法相结合,创建了一个多级和模块化的系统,用于根据词性标注处理目标文本,以实现文本简化的目标。
Feb, 2023
提出了一种基于 Transformer 的多语言可控词汇简化系统,使用语言特定的前缀、控制标记和候选词从预训练的掩蔽语言模型中提取较简单的替代词,该系统在三个公开的词汇简化数据集上优于之前的最先进模型,表现良好。针对最近的 TSAR-2022 多语言 LS 共享任务数据集也展现出很强的性能,且在西班牙语和葡萄牙语中获得性能提升。
Jul, 2023
SimpLex 是用于将英文文本简化的新型架构,可以使用词嵌入和困惑度或句子变换器和余弦相似性来生成简化的英文句子。使用 SARI 和困惑度减少两个指标评估了该系统,实验表明,变压器模型在 SARI 得分方面优于其他模型,然而,基于词嵌入的模型在困惑度方面实现了最大的降低。
Apr, 2023
本文使用预训练转换器模型探讨了简化句子的方法,并在 Mechanical Turk 数据集上结合 GPT-2 和 BERT 模型取得了 46.80 的最佳 SARI 得分,明显优于之前的最新研究成果。
Dec, 2022
本研究呈现了一个新的数据集以适用于三种语言且提供了建立和评估词汇简化系统所需的高质量数据体。通过采用神经网络架构,对两种高级系统进行了适应和评估,结果在英语中表现最佳。
Sep, 2022
本研究首次使用合成数据来训练德语文档级文本简化的生成模型,通过真实世界在线文本论证了我们方法的有效性。解决语言简化中数据稀缺的挑战,我们爬取了经过专业简化的德语文本并使用 GPT-4 合成了一个语料库。我们在这些数据上微调了多达 130 亿参数的大型语言模型,并使用多种方法对其性能进行评估。该论文运用了各种评估方法,并展示了当前使用的基于规则的度量指标的局限性。自动和手动评估均表明,我们的模型可以显著简化真实世界的在线文本,显示了合成数据在改进文本简化方面的潜力。
Feb, 2024
本文针对近几年来人工智能 / 自然语言处理 community 中深度学习的进步,特别是大型语言模型和 prompt 学习的引入,在词汇简化领域(Lexical Simplification,LS)进行了全面的研究和调查,特别关注深度学习,在具体实践中展示了该任务的子任务,并提出未来的发展方向和基准数据集。
May, 2023