ProLex：面向语言能力的词汇替换基准

Jan, 2024

ProLex：面向语言能力的词汇替换基准

ProLex: A Benchmark for Language Proficiency-oriented Lexical Substitution

Xuanming Zhang, Zixun Chen, Zhou Yu

TL;DR通过 PropLex 基准和模型，我们提出了一项新的任务，即面向语言熟练度的词汇替换，并展示了使用特定任务合成数据对 Llama2-13B 模型进行微调的最佳模型，在 F-score 上超过 ChatGPT 平均 3.2％，并在 ProLex 上获得与 GPT-4 相当的结果。

Abstract

lexical substitution discovers appropriate substitutes for a given target word in a context sentence. However, the task fails to consider substitutes that are of equal or higher proficiency than the target, an aspect that could be beneficial for language learners looking to improve the

lexical substitution language proficiency prolex benchmark models

发现论文，激发创造

Swords: 一种具有改进数据覆盖率和质量的词汇替换基准

本文提出一种基于分类方法的新型词汇替换基准测试数据集，与现有基准测试相比，该数据集具有更高的数据质量和更广的数据覆盖率，其替换词以人类判断的可行性和上下文适宜度为导向，相比已有基准测试，其能够为同一任务提供更多、更合适的替换词。

Jun, 2021

ParaLS: 通过预训练的释义工具进行词汇替换

本研究探究了如何利用重述生成器从众多的替换候选词中生成一个最优的替换候选词的问题，提出了两种解码策略，实验结果表明，这些策略能够在所作的基准测试中胜过基于预训练语言模型的现有的词汇替换方法。

May, 2023

基于神经语言模型的词汇替换方法比较研究

本文基于大规模比较研究了常用的大规模神经语言和蒙面语言模型（LM 和 MLM），比如 Context2vec，ELMo，BERT，XLNet，在词汇替换任务中的应用。研究表明，如果目标词语的信息被适当地注入，则可以进一步提高 SOTA LM / MLM 已经具有的竞争结果，并比较几种目标注入方法。此外，提供不同模型生成的目标及其替代词之间语义关系类型的分析，从而深入探究生成或由注释员提供的替代词的种类。

May, 2020

MultiLS：一个多任务词汇简化框架

自动将难以阅读的词替换为更易理解的替代词，以改善文本可访问性；通过创建多任务的 LS 数据集，MultiLS 框架和 MultiLS-PT 数据集的潜力得到展示，并报告了基于转换器和大型语言模型的模型性能。

Feb, 2024

ProSwitch: 知识引导的语言模型微调，生成专业和非专业风格的文本

本研究介绍了一种名为 ProSwitch 的新型方法，通过知识引导的指导调优，使语言模型能够在专业和非专业响应之间切换，从而提供了一种解决文本专业性问题的能力。与通用和专用语言模型的比较分析显示，我们的方法在专业和非专业文本生成之间的切换方面优于基准模型。

Mar, 2024

LexSubCon：将词汇资源的知识融入上下文嵌入，用于词汇替换

LexSubCon 是一种端到端的词汇替换框架，结合上下文嵌入模型与结构化词汇资源，在词汇替换任务中取得高精度替换候选词，并通过混合嵌入策略、文档定义相似度和微调的句子相似性模型计算每个替换对句子语义的影响，从而优于先前的最先进方法。

Jul, 2021

通过生成改写句实现多语言词汇简化

基于预训练语言模型的词汇简化方法取得了显著进展，通过分析词语在其上下文环境中的替代词生成复杂词的潜在替代词。然而，这些方法需要针对不同语言进行单独的预训练模型，并且忽略了对句子意义的保留。本文提出了一种新颖的多语言词汇简化方法，通过生成释义来提供词语选择的多样性，同时保持句子的意义。我们将释义任务视为支持数百种语言的多语言神经机器翻译中的零 - shot 翻译任务。在释义建模的编码器中输入句子后，我们基于一种集中于复杂词的词汇变体的新颖解码策略生成替代词。实验结果表明，我们的方法在英语、西班牙语和葡萄牙语上明显优于基于 BERT 的方法和零 - shot GPT3 方法。

Jul, 2023

始终牢记目标：研究语义并提高神经词汇替换的性能

本文比较了多种词汇替换方法，使用包括 context2vec、ELMo、BERT、RoBERTa、XLNet 等在内的多种语言模型，并证明注入目标词信息后，能够进一步显著提高现有最佳语言模型的结果。作者还分析了不同模型或注释者给出的目标词和替代词之间的语义关系类型。

Jun, 2022

FASTSUBS: 基于 N-gram 语言模型寻找最可能的词汇替换的高效精确方法

本论文介绍了一种基于 n-gram 语言模型的新搜索算法 FASTSUBS, 用于精确定位给定句子中最有可能的词汇替换，可应用于诸如文本简化、机器翻译和词性归纳等领域，算法计算复杂度在 K 和词汇表大小 V 方面具有亚线性的特点。

May, 2012

LSCDiscovery 中的 BOS: 用于可解释的词汇语义变化检测的词汇替换

该研究提出了一种基于生成旧新义词的词汇替代方案，它在探测语义变化中实现了第二佳的结果，并且通过观察仅出现在一个时间段的替代词可以理解哪些义项被获得或丢失，从而为用户提供了更详细的信息并使方法具有可解释性。

Jun, 2022