英语的可控词汇简化

Feb, 2023

Controllable Lexical Simplification for English

Kim Cheng Sheang, Daniel Ferrés, Horacio Saggion

TL;DR本文介绍了一种用 T5 微调的 ConLS 系统，该系统是一种可控的词汇简化系统，其评估结果表明，在 LexMTurk，BenchLS 和 NNSeval 等三个数据集上，我们的模型表现与 LSBert（目前的最新技术）相当甚至有时优于它，并且我们还对控制字符的有效性进行了详细比较以清晰地了解每个字符如何对模型做出贡献。

Abstract

Fine-tuning transformer-based approaches have recently shown exciting results on sentence simplification task. However, so far, no research has applied similar approaches to the →

transformer-based approaches sentence simplification task lexical simplification controllable lexical simplification control tokens

发现论文，激发创造

多语言可控变压器模型词汇简化

提出了一种基于 Transformer 的多语言可控词汇简化系统，使用语言特定的前缀、控制标记和候选词从预训练的掩蔽语言模型中提取较简单的替代词，该系统在三个公开的词汇简化数据集上优于之前的最先进模型，表现良好。针对最近的 TSAR-2022 多语言 LS 共享任务数据集也展现出很强的性能，且在西班牙语和葡萄牙语中获得性能提升。

Jul, 2023

使用预训练编码器进行词汇简化

本研究使用 Bidirectional Encoder Representations from Transformers (BERT) 模型，基于序列接受面向上下文、利用未标注数据训练能力，对于未知词语的语境下，对其进行了无监督的简化，显著提高了效果。

Jul, 2019

可控的句子简化：应用句法和词汇约束

通过对句子语法和词汇约束的控制，本文提出了一种可以满足不同用户简化需求的 CROSS 句子简化模型，使用 Transformer-based 结构，在两个基准数据集上实验表明，语法和词汇约束对于成功的简化至关重要。

Oct, 2019

词汇简化的深度学习方法：综述

本文针对近几年来人工智能 / 自然语言处理 community 中深度学习的进步，特别是大型语言模型和 prompt 学习的引入，在词汇简化领域（Lexical Simplification，LS）进行了全面的研究和调查，特别关注深度学习，在具体实践中展示了该任务的子任务，并提出未来的发展方向和基准数据集。

May, 2023

MultiLS：一个多任务词汇简化框架

自动将难以阅读的词替换为更易理解的替代词，以改善文本可访问性；通过创建多任务的 LS 数据集，MultiLS 框架和 MultiLS-PT 数据集的潜力得到展示，并报告了基于转换器和大型语言模型的模型性能。

Feb, 2024

MANTIS 参加 TSAR-2022 共享任务：基于预训练编码器的无监督词汇简化改进

该研究是关于 TSAR-2022 共享任务中字词简化的贡献，采用 RoBERTa 转换器语言模型扩展了无监督识别的词汇简化系统，通过采取一系列特征加权方案和基于文本蕴含的简化筛选方法，提高了系统的性能表现达 5.9％的精度，排名第二。

Dec, 2022

用于词汇简化的 LLM 增强对抗编辑系统

在低资源场景下，我们提出了一种无需平行语料库的新型词汇简化方法，该方法利用对原始句子进行混淆损失和不变性损失的指导来预测词汇编辑，并引入了创新的 LLM 增强损失，将大型语言模型的知识蒸馏到小型词汇简化系统中。大量的实验结果和三个基准 LS 数据集的分析证明了我们提出方法的有效性。

Feb, 2024

(心理 -) 语言学特征与 Transformer 模型相遇：改进可解释和可控的文本简化

本研究旨在通过建立使用预训练语言模型的（心理）语言学特征的透明度较高的文本简化系统来提高可解释性和可控性，并利用提前设定的十种属性，拓展一种 Seq2Seq TS 模型，使其能够明确控制多个属性。实验证明我们的方法在解释复杂度预测方面表现优异，并且通过明确地将 Seq2Seq 模型的条件限制于十个属性，其性能在领域内外环境中均有显著提高。

Dec, 2022

通过生成改写句实现多语言词汇简化

基于预训练语言模型的词汇简化方法取得了显著进展，通过分析词语在其上下文环境中的替代词生成复杂词的潜在替代词。然而，这些方法需要针对不同语言进行单独的预训练模型，并且忽略了对句子意义的保留。本文提出了一种新颖的多语言词汇简化方法，通过生成释义来提供词语选择的多样性，同时保持句子的意义。我们将释义任务视为支持数百种语言的多语言神经机器翻译中的零 - shot 翻译任务。在释义建模的编码器中输入句子后，我们基于一种集中于复杂词的词汇变体的新颖解码策略生成替代词。实验结果表明，我们的方法在英语、西班牙语和葡萄牙语上明显优于基于 BERT 的方法和零 - shot GPT3 方法。

Jul, 2023

SimpLex: 一个词汇文本简化架构

SimpLex 是用于将英文文本简化的新型架构，可以使用词嵌入和困惑度或句子变换器和余弦相似性来生成简化的英文句子。使用 SARI 和困惑度减少两个指标评估了该系统，实验表明，变压器模型在 SARI 得分方面优于其他模型，然而，基于词嵌入的模型在困惑度方面实现了最大的降低。

Apr, 2023