多语言可控变压器模型词汇简化
本文介绍了一种用 T5 微调的 ConLS 系统,该系统是一种可控的词汇简化系统,其评估结果表明,在 LexMTurk,BenchLS 和 NNSeval 等三个数据集上,我们的模型表现与 LSBert(目前的最新技术)相当甚至有时优于它,并且我们还对控制字符的有效性进行了详细比较以清晰地了解每个字符如何对模型做出贡献。
Feb, 2023
自动将难以阅读的词替换为更易理解的替代词,以改善文本可访问性;通过创建多任务的 LS 数据集,MultiLS 框架和 MultiLS-PT 数据集的潜力得到展示,并报告了基于转换器和大型语言模型的模型性能。
Feb, 2024
本研究使用 Bidirectional Encoder Representations from Transformers (BERT) 模型,基于序列接受面向上下文、利用未标注数据训练能力,对于未知词语的语境下,对其进行了无监督的简化,显著提高了效果。
Jul, 2019
基于预训练语言模型的词汇简化方法取得了显著进展,通过分析词语在其上下文环境中的替代词生成复杂词的潜在替代词。然而,这些方法需要针对不同语言进行单独的预训练模型,并且忽略了对句子意义的保留。本文提出了一种新颖的多语言词汇简化方法,通过生成释义来提供词语选择的多样性,同时保持句子的意义。我们将释义任务视为支持数百种语言的多语言神经机器翻译中的零 - shot 翻译任务。在释义建模的编码器中输入句子后,我们基于一种集中于复杂词的词汇变体的新颖解码策略生成替代词。实验结果表明,我们的方法在英语、西班牙语和葡萄牙语上明显优于基于 BERT 的方法和零 - shot GPT3 方法。
Jul, 2023
本文介绍了我们队伍 “teamPN” 为英语子任务所做的工作,我们创建了一个模块化的流水线,将现代转换器模型与传统的 NLP 方法相结合,创建了一个多级和模块化的系统,用于根据词性标注处理目标文本,以实现文本简化的目标。
Feb, 2023
该研究是关于 TSAR-2022 共享任务中字词简化的贡献,采用 RoBERTa 转换器语言模型扩展了无监督识别的词汇简化系统,通过采取一系列特征加权方案和基于文本蕴含的简化筛选方法,提高了系统的性能表现达 5.9%的精度,排名第二。
Dec, 2022
本研究旨在通过建立使用预训练语言模型的(心理)语言学特征的透明度较高的文本简化系统来提高可解释性和可控性,并利用提前设定的十种属性,拓展一种 Seq2Seq TS 模型,使其能够明确控制多个属性。实验证明我们的方法在解释复杂度预测方面表现优异,并且通过明确地将 Seq2Seq 模型的条件限制于十个属性,其性能在领域内外环境中均有显著提高。
Dec, 2022
报告了 TSAR-2022 共享任务中多语言词汇简化的发现,该任务在 EMNLP 2022 举行,涉及英语,葡萄牙语和西班牙语的多语言词汇简化。共有 14 个团队提交了他们的词汇简化系统的结果,并且结果表明英语的简化效果比西班牙语和葡萄牙语更好,建立了新的基准结果。
Feb, 2023
我们提出了一种基于无监督学习的词汇简化方法,仅使用单语数据和预训练语言模型。根据目标词和其上下文,我们的方法基于目标上下文和从单语数据中抽样的附加上下文生成替代词。我们在 TSAR-2022 共享任务的英语、葡萄牙语和西班牙语上进行实验,并表明我们的模型在所有语言上都显著优于其他无监督系统。我们还通过与 GPT-3.5 模型组合,建立了一个新的最先进模型。最后,我们在 SWORDS 词汇替换数据集上评估我们的模型,获得了最先进的结果。
Nov, 2023
本文针对近几年来人工智能 / 自然语言处理 community 中深度学习的进步,特别是大型语言模型和 prompt 学习的引入,在词汇简化领域(Lexical Simplification,LS)进行了全面的研究和调查,特别关注深度学习,在具体实践中展示了该任务的子任务,并提出未来的发展方向和基准数据集。
May, 2023