FRAGE: 频率无关字表示
该研究探讨神经机器翻译模型所学到的嵌入,在需要同时考虑概念相似性和词汇-句法角色知识的任务中,它们的性能优于单语言模型所学到的嵌入。研究结果还表明,词汇扩展算法对嵌入质量的影响很小。
Dec, 2014
本文分析词嵌入训练的三个关键组成部分,并将现有的基于神经网络的词嵌入算法系统化,并在相同语料库下进行比较评估。作者提供了几条简单指南以训练词嵌入。作者发现,选择合适领域的语料库比语料库大小更为重要。在此基础上使用更大的语料库能得到更好的结果。本文还展示了更快的模型在大多数情况下提供足够的性能,而更复杂的模型可以在培训语料库足够大的情况下使用,并且,对于迭代停止指标,应该依赖于所需任务的开发集,而不是训练嵌入的验证损失。
Jul, 2015
本文提出了一种集成方法,通过将GloVe和word2vec的嵌入方式与语义网络ConceptNet和PPDB的结构化知识相结合,将它们的信息融合成一个具有大型多语言词汇的共同表示,并达到了许多词语相似性评估的最先进性能
Apr, 2016
本文提出了一种评估单词表示学习方法的方法,即通过评估不同初始值下学习得到的单词表示的一致性。通过提出的度量标准,评估结果不仅揭示了单词嵌入方法的内在特性,还与下游任务的其他评估指标具有良好的相关性,这对于开发新的单词嵌入方法具有重要的鲁棒性特征的考虑是有用的。
May, 2016
本文提出了一种利用加权词向量嵌入学习无标注句子表示的无监督方法,通过TF-IDF变换提供的Shannon词熵拟合词向量的权重,选择不同的超参得出短期训练、在线推理的句子表示,经过与STS系统的对比表明,该方法在语义文本相似度模型中的表现已达到最优。
Oct, 2017
本文研究了元词向量嵌入(meta-embedding)的学习方法,提出了利用加权拼接来学习更准确和广泛覆盖面的词向量的两种无监督方法,并在多个基准数据集上进行试验,结果表明这些加权拼接的 meta-embedding 方法优于以前的 meta-embedding 学习方法。
Apr, 2022
使用余弦相似度可对于NLP的任务(如问答,信息检索,机器翻译)进行上下文嵌入建模,但是我们发现使用BERT解析的余弦相似度在估算词语相似度方面存在高低频词的差异,在控制多义性和其他因素后,高频词与同一词语的其他实例或其他上下文中的其他词语的相似度被低估,这种低估是由于高低频词的代表性几何形状差异导致.
May, 2022
本文系统研究了几种静态词向量嵌入中单词频率与语义相似性之间的关联,并发现高频单词之间的相似性更高。同时,本文还探究了单词频率对基于嵌入的性别偏见测量的影响,并证明通过操纵单词频率可使偏见发生倒转。
Nov, 2022
提出了一种新的无监督句子表示学习(USRL)框架,称为带有频率诱导的对抗微调和不完整句子过滤器的句子表示学习(SLT-FAI),通过利用单词频率信息来解决预先训练语言模型(PLM)中单词频率信息敏感性带来的相似偏差和信息偏差问题,此框架灵活易用并能优于现有的USRL基线。
May, 2023
本研究解决了神经网络模型中词嵌入空间偏斜的问题,传统的模型常假设词频均匀分布,而实际词频符合齐夫法则。我们提出通过按照实际词频进行PCA白化来显著提升任务性能,超越了已有基线,并强调低频词的重要性,这一发现对自然语言处理方法的有效性提供了理论支持。
Nov, 2024