基于去文本化嵌入的无监督词汇替换
LexSubCon 是一种端到端的词汇替换框架,结合上下文嵌入模型与结构化词汇资源,在词汇替换任务中取得高精度替换候选词,并通过混合嵌入策略、文档定义相似度和微调的句子相似性模型计算每个替换对句子语义的影响,从而优于先前的最先进方法。
Jul, 2021
我们提出了一种基于无监督学习的词汇简化方法,仅使用单语数据和预训练语言模型。根据目标词和其上下文,我们的方法基于目标上下文和从单语数据中抽样的附加上下文生成替代词。我们在 TSAR-2022 共享任务的英语、葡萄牙语和西班牙语上进行实验,并表明我们的模型在所有语言上都显著优于其他无监督系统。我们还通过与 GPT-3.5 模型组合,建立了一个新的最先进模型。最后,我们在 SWORDS 词汇替换数据集上评估我们的模型,获得了最先进的结果。
Nov, 2023
本文基于大规模比较研究了常用的大规模神经语言和蒙面语言模型(LM 和 MLM),比如 Context2vec,ELMo,BERT,XLNet,在词汇替换任务中的应用。研究表明,如果目标词语的信息被适当地注入,则可以进一步提高 SOTA LM / MLM 已经具有的竞争结果,并比较几种目标注入方法。此外,提供不同模型生成的目标及其替代词之间语义关系类型的分析,从而深入探究生成或由注释员提供的替代词的种类。
May, 2020
使用上下文嵌入测量语义变化的简化方法,仅依赖于最可能替代被遮盖术语的方法,不仅这种方法可直接解释,而且在存储效率、性能及变化细致调查方面均表现优越。
Sep, 2023
本文研究使用基于上下文嵌入方法进行检测历时语义变化的可能存在的输出错误。通过引入单一方法并进行深入的分析,作者发现这种方法可能会将词汇的词典含义变化与上下文语境的变化混淆,同时将词汇实体的句法和语义方面合并在一起。本文提出了一些解决这些问题的未来可能方案。
Aug, 2022
本研究探究了如何利用重述生成器从众多的替换候选词中生成一个最优的替换候选词的问题, 提出了两种解码策略, 实验结果表明,这些策略能够在所作的基准测试中胜过基于预训练语言模型的现有的词汇替换方法。
May, 2023
本文通过经验分析,将提到的未知名称根据新奇性和域外评估进行分离,并证明了最新情境嵌入模型在发现前所未见的名称方面特别有益,尤其是在域外评估中。
Jan, 2020
本文关注于从多个预训练的监督模型中提取表示,以丰富单词嵌入具有任务和领域特定的知识,实验表明这样的监督嵌入对于低资源情况有所帮助,但对于任务和领域的性质不同的扩展程度不同,而我们公开了我们的代码。
Jun, 2019
该研究应用上下文化词嵌入到 SemEval-2020 Shared Task 1 的词汇语义变化检测中,着重于子任务 2,在两种上下文化体系结构(BERT 和 ELMo)和三种变化检测算法方面,分析了其性能。我们发现,最有效的算法依赖于平均令牌嵌入之间的余弦相似度和令牌嵌入之间的成对距离。他们比强基线模型高出很大的差距,但是有趣的是,选择特定算法取决于测试集中金标准分数的分布。
Apr, 2020
提出通过对比学习策略来改进概念嵌入的语义表示方法,使用全新的 contextualized vectors 代替传统平均表示方法,可优化概念嵌入中的语义属性,使得使用该方法后的概念嵌入能在预测语义属性上显著突出于传统概念嵌入方法,尤其是使用 ConceptNet 的方法的效果最佳。
May, 2023