多层次模块化方法的词汇简化
SimpLex 是用于将英文文本简化的新型架构,可以使用词嵌入和困惑度或句子变换器和余弦相似性来生成简化的英文句子。使用 SARI 和困惑度减少两个指标评估了该系统,实验表明,变压器模型在 SARI 得分方面优于其他模型,然而,基于词嵌入的模型在困惑度方面实现了最大的降低。
Apr, 2023
本文针对近几年来人工智能 / 自然语言处理 community 中深度学习的进步,特别是大型语言模型和 prompt 学习的引入,在词汇简化领域(Lexical Simplification,LS)进行了全面的研究和调查,特别关注深度学习,在具体实践中展示了该任务的子任务,并提出未来的发展方向和基准数据集。
May, 2023
报告了 TSAR-2022 共享任务中多语言词汇简化的发现,该任务在 EMNLP 2022 举行,涉及英语,葡萄牙语和西班牙语的多语言词汇简化。共有 14 个团队提交了他们的词汇简化系统的结果,并且结果表明英语的简化效果比西班牙语和葡萄牙语更好,建立了新的基准结果。
Feb, 2023
提出了一种基于 Transformer 的多语言可控词汇简化系统,使用语言特定的前缀、控制标记和候选词从预训练的掩蔽语言模型中提取较简单的替代词,该系统在三个公开的词汇简化数据集上优于之前的最先进模型,表现良好。针对最近的 TSAR-2022 多语言 LS 共享任务数据集也展现出很强的性能,且在西班牙语和葡萄牙语中获得性能提升。
Jul, 2023
自动将难以阅读的词替换为更易理解的替代词,以改善文本可访问性;通过创建多任务的 LS 数据集,MultiLS 框架和 MultiLS-PT 数据集的潜力得到展示,并报告了基于转换器和大型语言模型的模型性能。
Feb, 2024
使用基于 GPT-3 生成的简单流水线,在少量训练实例的情况下,通过几种不同的提示模板获得了最佳表现,可以实现对英语以外语言的简化,方法适用于西班牙语和葡萄牙语,并讨论了提示的特点和未来工作的影响。
Jan, 2023
本文介绍了一种针对法律文本的无监督简化方法(USLT),该方法通过检测复杂词汇并利用掩码变换模型生成候选词,选取候选词进行替换,并在保留语义的同时将长句递归地分解为较短的核心句和上下文句,从而优于最先进的通用领域文本简化方法。
Sep, 2022
在语义上意识到文本中的句子结构和上下文联系,通过将复杂句子进行拆分和重新表述,生成有语义层次的简化句子,以提高自然语言处理应用的预测质量。
Aug, 2023
本文中,我们呈现了一种将认知辅助领域的知识引入到文本简化模型中的方法,通过引入归纳偏差,决定何时使用简化操作。我们证明了通过将这种归纳偏差添加到文本简化模型中,它能够更好地适应认知简化而无需查看简化数据,并且在传统的文本简化基准测试上优于基线模型。此外,我们提供了一个新颖的认知简化测试数据集,并分析了认知简化语料库与现有文本简化语料库之间在应用简化操作方面的区别。
Nov, 2022
基于预训练语言模型的词汇简化方法取得了显著进展,通过分析词语在其上下文环境中的替代词生成复杂词的潜在替代词。然而,这些方法需要针对不同语言进行单独的预训练模型,并且忽略了对句子意义的保留。本文提出了一种新颖的多语言词汇简化方法,通过生成释义来提供词语选择的多样性,同时保持句子的意义。我们将释义任务视为支持数百种语言的多语言神经机器翻译中的零 - shot 翻译任务。在释义建模的编码器中输入句子后,我们基于一种集中于复杂词的词汇变体的新颖解码策略生成替代词。实验结果表明,我们的方法在英语、西班牙语和葡萄牙语上明显优于基于 BERT 的方法和零 - shot GPT3 方法。
Jul, 2023