本研究提出使用基于 CBOW 的训练方法进行文本嵌入的知识蒸馏,可以有效地提高自然语言处理应用程序的计算效率,同时优于从头开始训练的静态嵌入和以前提出的方法提炼的嵌入。此外,该方法还可以通过标准词汇评估任务公平比较上下文和静态嵌入。
Jun, 2021
本研究提出基于预训练语言模型的动态情境词向量,能够以语言和非语言环境为依据来表征单词的含义变化,并在四个英文数据集上做出定性和定量分析,以彰显其应用潜力。
Oct, 2020
该研究提出了一种基于概率的语言模型,可以跟踪个别单词随时间的语义演变,并通过嵌入空间中的潜在轨迹表示单词和上下文。研究发现,该动态模型推断的单词嵌入轨迹更易解释,并且具有更高的预测性可能性。
Feb, 2017
本文通过对不同类型的上下文学习 skip-gram 词嵌入对广泛的内在和外在自然语言处理任务性能的首次全面评估,发现内在任务在特定类型的上下文和更高的维度方面更好,而对于大多数外在任务,需要更仔细的调整来找到最佳设置;另外,对于这些外在任务,一旦提高嵌入维度的好处大多用尽,使用不同上下文类型学习的简单词嵌入的串联,可以产生进一步的性能提升;此外,本文还提出了一种新的 skip-gram 模型变体,从替换词的加权上下文中学习单词嵌入。
Jan, 2016
本文提出了一种新的 Word embeddings 改进技术:extrofitting,它可以在不使用外部语义词典的情况下提高 word similarity 任务的表现,并且使用 deep extrofitting 可进一步提升表现。同时,我们证明了这种改进方法可以提高文本分类任务的效果。
Aug, 2018
提出通过对比学习策略来改进概念嵌入的语义表示方法,使用全新的 contextualized vectors 代替传统平均表示方法,可优化概念嵌入中的语义属性,使得使用该方法后的概念嵌入能在预测语义属性上显著突出于传统概念嵌入方法,尤其是使用 ConceptNet 的方法的效果最佳。
May, 2023
该综述评估了现有的上下文嵌入模型,跨语言多语预训练,上下文嵌入在下游任务中的应用,模型压缩和分析。
Mar, 2020
本文探讨使用无监督学习的方法,通过单词嵌入在词向量空间内学习语义相似性,以实现对文本分类任务的性能优化。研究发现,使用领域特定的词嵌入可以提高分类性能。
May, 2017
本文提出利用深度 LSTM 编码器来对词向量进行上下文增强的方法,并证明了这种方法在自然语言处理任务上,如情感分析、问题分类和问题回答等方面的有效性。
Aug, 2017
训练单词嵌入与高阶 n-gram 嵌入同时可以帮助消除上下文信息,从而得到更好的单词嵌入。通过在各种任务上显着优于其他竞争性单词表示模型,我们实证了我们的假设的有效性。
Apr, 2019