MANTIS 参加 TSAR-2022 共享任务:基于预训练编码器的无监督词汇简化改进
本研究使用 Bidirectional Encoder Representations from Transformers (BERT) 模型,基于序列接受面向上下文、利用未标注数据训练能力,对于未知词语的语境下,对其进行了无监督的简化,显著提高了效果。
Jul, 2019
报告了 TSAR-2022 共享任务中多语言词汇简化的发现,该任务在 EMNLP 2022 举行,涉及英语,葡萄牙语和西班牙语的多语言词汇简化。共有 14 个团队提交了他们的词汇简化系统的结果,并且结果表明英语的简化效果比西班牙语和葡萄牙语更好,建立了新的基准结果。
Feb, 2023
提出了一种基于 Transformer 的多语言可控词汇简化系统,使用语言特定的前缀、控制标记和候选词从预训练的掩蔽语言模型中提取较简单的替代词,该系统在三个公开的词汇简化数据集上优于之前的最先进模型,表现良好。针对最近的 TSAR-2022 多语言 LS 共享任务数据集也展现出很强的性能,且在西班牙语和葡萄牙语中获得性能提升。
Jul, 2023
使用基于 GPT-3 生成的简单流水线,在少量训练实例的情况下,通过几种不同的提示模板获得了最佳表现,可以实现对英语以外语言的简化,方法适用于西班牙语和葡萄牙语,并讨论了提示的特点和未来工作的影响。
Jan, 2023
本文提出了第一次尝试仅依赖于未标记文本语料库进行无监督神经文本简化的核心框架,由共享编码器和一对注意解码器组成,并通过基于鉴别和去噪的损失进行简化知识的获取,并使用从 en-Wikipedia 转储的未标记文本进行训练。我们在公共测试数据上进行的分析(包括定量和定性的人类评估)表明,所提出的模型可以在词汇和句法两个级别上进行文本简化,竞争现有的监督方法。此外,增加几个标记的对也进一步提高了性能。
Oct, 2018
我们提出了一种基于无监督学习的词汇简化方法,仅使用单语数据和预训练语言模型。根据目标词和其上下文,我们的方法基于目标上下文和从单语数据中抽样的附加上下文生成替代词。我们在 TSAR-2022 共享任务的英语、葡萄牙语和西班牙语上进行实验,并表明我们的模型在所有语言上都显著优于其他无监督系统。我们还通过与 GPT-3.5 模型组合,建立了一个新的最先进模型。最后,我们在 SWORDS 词汇替换数据集上评估我们的模型,获得了最先进的结果。
Nov, 2023
本文介绍了一种用 T5 微调的 ConLS 系统,该系统是一种可控的词汇简化系统,其评估结果表明,在 LexMTurk,BenchLS 和 NNSeval 等三个数据集上,我们的模型表现与 LSBert(目前的最新技术)相当甚至有时优于它,并且我们还对控制字符的有效性进行了详细比较以清晰地了解每个字符如何对模型做出贡献。
Feb, 2023
SimpLex 是用于将英文文本简化的新型架构,可以使用词嵌入和困惑度或句子变换器和余弦相似性来生成简化的英文句子。使用 SARI 和困惑度减少两个指标评估了该系统,实验表明,变压器模型在 SARI 得分方面优于其他模型,然而,基于词嵌入的模型在困惑度方面实现了最大的降低。
Apr, 2023
本文介绍了我们队伍 “teamPN” 为英语子任务所做的工作,我们创建了一个模块化的流水线,将现代转换器模型与传统的 NLP 方法相结合,创建了一个多级和模块化的系统,用于根据词性标注处理目标文本,以实现文本简化的目标。
Feb, 2023
本研究研究了预训练神经语言模型在医疗领域文本简化中的应用,引入了一个包含对齐的英文维基百科与简单英文维基百科句子的新的平行医学数据集,并比较了四个 PNLM(BERT,RoBERTa,XLNet 和 GPT-2),并演示了如何将待简化的句子的附加上下文合并以实现更好的结果(相对最佳单独模型提高 6.17% 的绝对值)。同时,我们介绍了一个组合模型,它结合了四个 PNLM,并且比最佳单独模型表现出 2.1% 的优越性,使得整体单词预测准确率达到 64.52%。
Oct, 2020