- ACL利用注释规范化的预训练方法改进上下文表示
为了解决 BERT 模型在预训练和推理之间存在的差异,我们从单词概率分布的角度研究预训练和推理的上下文表示,并发现 BERT 在预训练中存在忽略上下文单词相似性的风险。通过引入辅助注释正则化器,我们提出了一个增强单词语义相似性的 GR-BE - COLING利用字符串和语音相似性的神经文本标准化
本研究提出了神经模型,利用单词字符串和音相似性来进行文本规范化。结论表明,将单词字符串的相似性与声音相似性综合考虑,能成功应对缩写、拼写错误和语音替代等问题,并达到了比基础模型更高的 F1 得分。
- 心智和机器中的词语含义
本文对比了人类和机器如何表现单词的意义,认为自然语言处理系统在某些方面可以作为人类单词相似性的成功模型,但在其他方面还有不足。当前的模型过度关注大型语料库中基于文本的模式,而与人们通过单词表达的愿望、目标和信念联系过于弱。我们讨论了更有前途 - EMNLP词语旋转距离
本研究旨在解决文本相似性度量中的挑战,提出了一种基于词向量旋转的新方法,利用词向量的模长和角度区分词的重要性和相似性,并通过此方法,以优化输送成本方式计算对齐相似度,相较于其他传统对齐方法和基线模型更为优越。
- ACL基于主题模型的多义词嵌入
该文提出了一种基于主题模型的 skip-gram 方法来学习多原型词嵌入,同时介绍了一种修剪嵌入的方法,用于代表每个主题中每个单词的概率表示, 并将我们的嵌入用于展示它们可以强烈地捕获上下文和词汇相似性,并优于各种最先进的实现。
- COS960:960 个中文词语相似度数据集
本文提出了一个基于中文词汇的数据集 COS960,用于测试两个及以上由两个以上语素构成的词汇的相似度。我们详细描述了数据集的构建过程和标注过程,并对一系列词嵌入模型进行了测试。
- EMNLPCard-660: Cambridge Rare Word Dataset - 一个可靠的罕见词汇基准数据集用于不经常词汇表征模型
研究为了解决一些大词汇表中的稀有词在准确语义理解中所起的关键作用,提出了一种评估方式: CamRare 单词相似度数据集,证明即便是最好的嵌入模型无法在数据集上达到高于 0.43(与人类表现相差大约一半的水平)的表现。
- EMNLP利用分布式推断技术提高稀疏词表示的语义组合能力
本文探索了一种替代方案,该方案涉及使用分布邻域明确推断未观察到的共现词,结果表明,分布推断在几个单词相似性基准测试中提高了稀疏的单词表示,并且我们的模型在可解释性的同时,在形容词 - 名词,名词 - 名词和动词 - 对象组合方面与最新技术保 - 使用字符 n-gram 嵌入词语和句子
本文主要介绍了一种名为 Charagram 的嵌入模型,使用字符 n-gram 技术来表示词组和句子,并通过单个非线性变换得到低维嵌入向量。作者进行了词相似度、句子相似度和词性标注三个实验任务验证了 Charagram 嵌入的性能,并证明其 - 利用位置上下文和外部存储增强 LexVec 分布式词向量表示模型
本文通过改进正点互信息矩阵的分解方法和应用位置上下文提高了分布式单词表示的句法表现,并解决了 PMMI 矩阵存储需求的问题,实现了在外存上处理聚合数据,并使用词语相似性任务验证了两种改进方法的有效性。
- 使用窗口采样和负采样的矩阵分解来改进词表示
本文介绍了一种使用低秩、加权的正点互信息矩阵分解以及随机梯度下降法的新方法 LexVec,用于生成分散的词汇表示,并通过单词相似性和类比任务的评估表明,LexVec 在这些任务中与现有技术方法相当甚至超越。
- ACL将分布式词汇对比集成到词向量中用于反义词 - 同义词区分
该论文提出了一种新的向量表示方法,将词汇对比整合到分布式向量中,并加强了确定词语相似度度量的最显著特征。改进后的向量模型明显优于标准模型,并且可以跨词类(形容词,名词,动词)将反义词从同义词中区分开来。此外,该论文还将词汇对比向量整合到跳字 - AAAI无监督的词语相似度测量方法:如何在向量空间模型中超越共现和向量余弦
本文认为矢量余弦在向量空间模型中用于识别单词相似度的无监督度量之一,可以被计算目标词最互相关联上下文的交集的无监督度量领先。为了证明这一点,我们描述并评估了 APSyn,它是平均精度的一种变体,无需任何优化,在标准 ESL 测试集上比矢量余 - 在 ESL 和 TOEFL 数据集中击败学生和向量余弦的技术
本文声称,对于在向量空间模型中识别单词相似度最有效的无监督度量之一,即向量余弦来说,它可以被一种完全无监督的度量超越,这种度量评估两个目标单词的最相关语境的交集程度,并根据共享语境在依赖性排名列表中的排名对该交集进行加权。为了证明这一点,我