- MultiLS:一个多任务词汇简化框架
自动将难以阅读的词替换为更易理解的替代词,以改善文本可访问性;通过创建多任务的 LS 数据集,MultiLS 框架和 MultiLS-PT 数据集的潜力得到展示,并报告了基于转换器和大型语言模型的模型性能。
- 用于词汇简化的 LLM 增强对抗编辑系统
在低资源场景下,我们提出了一种无需平行语料库的新型词汇简化方法,该方法利用对原始句子进行混淆损失和不变性损失的指导来预测词汇编辑,并引入了创新的 LLM 增强损失,将大型语言模型的知识蒸馏到小型词汇简化系统中。大量的实验结果和三个基准 LS - 通过生成改写句实现多语言词汇简化
基于预训练语言模型的词汇简化方法取得了显著进展,通过分析词语在其上下文环境中的替代词生成复杂词的潜在替代词。然而,这些方法需要针对不同语言进行单独的预训练模型,并且忽略了对句子意义的保留。本文提出了一种新颖的多语言词汇简化方法,通过生成释义 - ACL教授预训练模型生成简单文本以进行文本简化
本文探讨了一种新的持续性的预训练策略,通过把 BART 模型继续预训练来生成简单的文本,从而提高简化任务的表现,同时与其他大型语言模型进行了比较。
- 词汇简化的深度学习方法:综述
本文针对近几年来人工智能 / 自然语言处理 community 中深度学习的进步,特别是大型语言模型和 prompt 学习的引入,在词汇简化领域(Lexical Simplification,LS)进行了全面的研究和调查,特别关注深度学习, - 英语的可控词汇简化
本文介绍了一种用 T5 微调的 ConLS 系统,该系统是一种可控的词汇简化系统,其评估结果表明,在 LexMTurk,BenchLS 和 NNSeval 等三个数据集上,我们的模型表现与 LSBert(目前的最新技术)相当甚至有时优于它, - 多层次模块化方法的词汇简化
本文介绍了我们队伍 “teamPN” 为英语子任务所做的工作,我们创建了一个模块化的流水线,将现代转换器模型与传统的 NLP 方法相结合,创建了一个多级和模块化的系统,用于根据词性标注处理目标文本,以实现文本简化的目标。
- EMNLPUniHD 参加 TSAR-2022 共享任务:词汇简化只需计算能力吗?
使用基于 GPT-3 生成的简单流水线,在少量训练实例的情况下,通过几种不同的提示模板获得了最佳表现,可以实现对英语以外语言的简化,方法适用于西班牙语和葡萄牙语,并讨论了提示的特点和未来工作的影响。
- EMNLPMANTIS 参加 TSAR-2022 共享任务:基于预训练编码器的无监督词汇简化改进
该研究是关于 TSAR-2022 共享任务中字词简化的贡献,采用 RoBERTa 转换器语言模型扩展了无监督识别的词汇简化系统,通过采取一系列特征加权方案和基于文本蕴含的简化筛选方法,提高了系统的性能表现达 5.9%的精度,排名第二。
- ALEXSIS-PT:葡萄牙语词汇简化的新资源
本研究介绍 ALEXSIS-PT 语料库构建的巴西葡萄牙语言词汇简化数据集,使用 mDistilBERT,mBERT,XLM-R 和 BERTimbau 四个模型进行评估,结果表明 BERTimbau 在所有评估指标上都具有最高性能。
- 英语、葡萄牙语和西班牙语的词汇简化基准
本研究呈现了一个新的数据集以适用于三种语言且提供了建立和评估词汇简化系统所需的高质量数据体。通过采用神经网络架构,对两种高级系统进行了适应和评估,结果在英语中表现最佳。
- Turkish 的自动词汇简化
本文提出了第一个适用于土耳其语的自动词汇简化系统,该系统利用预训练模型 BERT 和形态学特征来生成语法正确和语义恰当的单词级简化,以解决土耳其语作为低资源语言难以逼近的文本简化任务。
- 使用预训练编码器进行词汇简化
本研究使用 Bidirectional Encoder Representations from Transformers (BERT) 模型,基于序列接受面向上下文、利用未标注数据训练能力,对于未知词语的语境下,对其进行了无监督的简化,显 - EMNLP一个词汇复杂度词典和神经可读性排名模型,用于词汇简化
本文利用基于人类判断的词汇复杂性词典和基于高斯的特征向量化层提出了一种新的神经可读性排名模型,用于衡量任何给定单词或短语的复杂性,并通过将该模型应用于 Paraphrase 数据库(PPDB)生成了超过 1000 万个简化的复述规则。实验证 - 利用语义和神经方法实现简单有效的文本简化
本论文提出了一种基于自动语义分析器的简单有效的句子分割算法,并通过神经机器翻译进行进一步微调的简化操作,其中采用语义分析为基础的分割方式可以有效地解决以往机器翻译的过于保守的问题,经过广泛的自动化和人工评估,该方法在词汇和结构简化方面表现优