MultiLS:一个多任务词汇简化框架
提出了一种基于 Transformer 的多语言可控词汇简化系统,使用语言特定的前缀、控制标记和候选词从预训练的掩蔽语言模型中提取较简单的替代词,该系统在三个公开的词汇简化数据集上优于之前的最先进模型,表现良好。针对最近的 TSAR-2022 多语言 LS 共享任务数据集也展现出很强的性能,且在西班牙语和葡萄牙语中获得性能提升。
Jul, 2023
通过使用 MultiLS-SP/CA 数据集,本研究描述了自动词汇简化的任务,此数据集为西班牙语和加泰罗尼亚语提供了一种新的方法,首次包含西班牙语的词汇理解困难度的定量评分,并将此数据集的实验结果作为未来工作的基准。
Apr, 2024
本文针对近几年来人工智能 / 自然语言处理 community 中深度学习的进步,特别是大型语言模型和 prompt 学习的引入,在词汇简化领域(Lexical Simplification,LS)进行了全面的研究和调查,特别关注深度学习,在具体实践中展示了该任务的子任务,并提出未来的发展方向和基准数据集。
May, 2023
本研究介绍 ALEXSIS-PT 语料库构建的巴西葡萄牙语言词汇简化数据集,使用 mDistilBERT,mBERT,XLM-R 和 BERTimbau 四个模型进行评估,结果表明 BERTimbau 在所有评估指标上都具有最高性能。
Sep, 2022
基于预训练语言模型的词汇简化方法取得了显著进展,通过分析词语在其上下文环境中的替代词生成复杂词的潜在替代词。然而,这些方法需要针对不同语言进行单独的预训练模型,并且忽略了对句子意义的保留。本文提出了一种新颖的多语言词汇简化方法,通过生成释义来提供词语选择的多样性,同时保持句子的意义。我们将释义任务视为支持数百种语言的多语言神经机器翻译中的零 - shot 翻译任务。在释义建模的编码器中输入句子后,我们基于一种集中于复杂词的词汇变体的新颖解码策略生成替代词。实验结果表明,我们的方法在英语、西班牙语和葡萄牙语上明显优于基于 BERT 的方法和零 - shot GPT3 方法。
Jul, 2023
在低资源场景下,我们提出了一种无需平行语料库的新型词汇简化方法,该方法利用对原始句子进行混淆损失和不变性损失的指导来预测词汇编辑,并引入了创新的 LLM 增强损失,将大型语言模型的知识蒸馏到小型词汇简化系统中。大量的实验结果和三个基准 LS 数据集的分析证明了我们提出方法的有效性。
Feb, 2024
本文介绍了我们队伍 “teamPN” 为英语子任务所做的工作,我们创建了一个模块化的流水线,将现代转换器模型与传统的 NLP 方法相结合,创建了一个多级和模块化的系统,用于根据词性标注处理目标文本,以实现文本简化的目标。
Feb, 2023
本研究使用 Bidirectional Encoder Representations from Transformers (BERT) 模型,基于序列接受面向上下文、利用未标注数据训练能力,对于未知词语的语境下,对其进行了无监督的简化,显著提高了效果。
Jul, 2019
本文介绍了一种用 T5 微调的 ConLS 系统,该系统是一种可控的词汇简化系统,其评估结果表明,在 LexMTurk,BenchLS 和 NNSeval 等三个数据集上,我们的模型表现与 LSBert(目前的最新技术)相当甚至有时优于它,并且我们还对控制字符的有效性进行了详细比较以清晰地了解每个字符如何对模型做出贡献。
Feb, 2023
本研究探究了如何利用重述生成器从众多的替换候选词中生成一个最优的替换候选词的问题, 提出了两种解码策略, 实验结果表明,这些策略能够在所作的基准测试中胜过基于预训练语言模型的现有的词汇替换方法。
May, 2023