ParaLS: 通过预训练的释义工具进行词汇替换

May, 2023

ParaLS: 通过预训练的释义工具进行词汇替换

ParaLS: Lexical Substitution via Pretrained Paraphraser

Jipeng Qiang, Kang Liu, Yun Li, Yunhao Yuan, Yi Zhu

TL;DR本研究探究了如何利用重述生成器从众多的替换候选词中生成一个最优的替换候选词的问题，提出了两种解码策略，实验结果表明，这些策略能够在所作的基准测试中胜过基于预训练语言模型的现有的词汇替换方法。

Abstract

Lexical substitution (LS) aims at finding appropriate substitutes for a target word in a sentence. Recently, LS methods based on pretrained language models have made remarkable progress, generating potential substitutes for a target word through analysis of its contextual surroundings. However, these methods tend to overlook the preservation of the sentence'

lexicon substitution pretrained language models paraphraser decoding strategies state-of-the-art

发现论文，激发创造

通过生成改写句实现多语言词汇简化

基于预训练语言模型的词汇简化方法取得了显著进展，通过分析词语在其上下文环境中的替代词生成复杂词的潜在替代词。然而，这些方法需要针对不同语言进行单独的预训练模型，并且忽略了对句子意义的保留。本文提出了一种新颖的多语言词汇简化方法，通过生成释义来提供词语选择的多样性，同时保持句子的意义。我们将释义任务视为支持数百种语言的多语言神经机器翻译中的零 - shot 翻译任务。在释义建模的编码器中输入句子后，我们基于一种集中于复杂词的词汇变体的新颖解码策略生成替代词。实验结果表明，我们的方法在英语、西班牙语和葡萄牙语上明显优于基于 BERT 的方法和零 - shot GPT3 方法。

Jul, 2023

使用预训练编码器进行词汇简化

本研究使用 Bidirectional Encoder Representations from Transformers (BERT) 模型，基于序列接受面向上下文、利用未标注数据训练能力，对于未知词语的语境下，对其进行了无监督的简化，显著提高了效果。

Jul, 2019

基于去文本化嵌入的无监督词汇替换

本文采用预训练语言模型提出一种新的无监督词汇替换方法，通过根据单词在多个上下文中的平均上下文表示相似性来检索替代词，实验表明该方法在英语和意大利语上表现明显优于强基线，并且能够成功预测低频替代词且不受形态和句法中的词汇一致性的影响。

Sep, 2022

基于神经语言模型的词汇替换方法比较研究

本文基于大规模比较研究了常用的大规模神经语言和蒙面语言模型（LM 和 MLM），比如 Context2vec，ELMo，BERT，XLNet，在词汇替换任务中的应用。研究表明，如果目标词语的信息被适当地注入，则可以进一步提高 SOTA LM / MLM 已经具有的竞争结果，并比较几种目标注入方法。此外，提供不同模型生成的目标及其替代词之间语义关系类型的分析，从而深入探究生成或由注释员提供的替代词的种类。

May, 2020

始终牢记目标：研究语义并提高神经词汇替换的性能

本文比较了多种词汇替换方法，使用包括 context2vec、ELMo、BERT、RoBERTa、XLNet 等在内的多种语言模型，并证明注入目标词信息后，能够进一步显著提高现有最佳语言模型的结果。作者还分析了不同模型或注释者给出的目标词和替代词之间的语义关系类型。

Jun, 2022

MultiLS：一个多任务词汇简化框架

自动将难以阅读的词替换为更易理解的替代词，以改善文本可访问性；通过创建多任务的 LS 数据集，MultiLS 框架和 MultiLS-PT 数据集的潜力得到展示，并报告了基于转换器和大型语言模型的模型性能。

Feb, 2024

ProLex：面向语言能力的词汇替换基准

通过 PropLex 基准和模型，我们提出了一项新的任务，即面向语言熟练度的词汇替换，并展示了使用特定任务合成数据对 Llama2-13B 模型进行微调的最佳模型，在 F-score 上超过 ChatGPT 平均 3.2％，并在 ProLex 上获得与 GPT-4 相当的结果。

Jan, 2024

用于词汇简化的 LLM 增强对抗编辑系统

在低资源场景下，我们提出了一种无需平行语料库的新型词汇简化方法，该方法利用对原始句子进行混淆损失和不变性损失的指导来预测词汇编辑，并引入了创新的 LLM 增强损失，将大型语言模型的知识蒸馏到小型词汇简化系统中。大量的实验结果和三个基准 LS 数据集的分析证明了我们提出方法的有效性。

Feb, 2024

词汇简化的深度学习方法：综述

本文针对近几年来人工智能 / 自然语言处理 community 中深度学习的进步，特别是大型语言模型和 prompt 学习的引入，在词汇简化领域（Lexical Simplification，LS）进行了全面的研究和调查，特别关注深度学习，在具体实践中展示了该任务的子任务，并提出未来的发展方向和基准数据集。

May, 2023

神经语法预排序控制释义生成

本文从机器翻译的前置工作得到启发，使用句法变换软性 “重排序” 语句，辅助神经模型进行改写，从而增加生成的改写语句的多样性。

May, 2020