本文倡导明确模拟视觉 - 语义层次中的偏序结构,介绍一个学习有序表示的通用方法,并展示了如何将其应用于涉及图像和语言的各种任务中,特别是超义预测和图像字幕检索,结果表明得到的表示优于当前方法。
Nov, 2015
本研究在解决如何为复杂的信息或知识库创建向量空间嵌入,以便于机器学习、相似性搜索或类似任务时能更有效地用于预测蛋白质相互作用。
Feb, 2019
该研究提出了一种统计方法来揭示密集词嵌入中的潜在语义结构,并引入了一个新的数据集(SEMCAT),其中包含超过 6500 个在 110 个类别下语义分组的单词。研究还提出了一种量化词嵌入可解释性的方法,这是一种实用的替代方法,不需要人为干预。
Nov, 2017
本文讨论了跨语言句子嵌入向量表示句子语义的方法,并提出了通过简单的线性跨语言映射以及正交性偏差条件的度量来改善多语言嵌入向量。
May, 2023
本文对词嵌入进行了主成分分析,并提出了许多新颖且反直观的观察。研究人员进一步说明了方差解释率作为下游任务性能的代理效用,并通过对主嵌入空间的句法探测来展示主成分所捕捉的句法信息与其解释方差的数量不相关,从而调查了基于方差的嵌入后处理的局限性,并证明这种后处理在句子分类和机器翻译任务中是产生反效果的。最后,本文提供了一些关于应用基于方差的嵌入后处理的预防性准则,并解释了非各向同性几何可能是词嵌入性能的一部分的原因。
Oct, 2019
通过使用德语数据作为案例研究,我们使用语素标注数据引导连续单词嵌入,使嵌入空间中的接近词彼此共享语素特征,并展示了我们学习得到的嵌入实现了这一目标。
Jul, 2019
本文研究了利用学习表示的空间的内在几何结构来实现自动遵守复杂结构约束的本体 (分层和部分有序结构) 学习的最新工作,并探讨了对一种此类模型的两种扩展,旨在提高通识知识表示文本数据的性能。通过混合学习排序关系和非分层知识,以及利用训练数据的部分有序结构找到在配对训练过程中不好执行的嵌入之间的长距离 triplet 约束,我们发现这两种扩展都优于原始的 order-embedding 模型和其他强基线模型。
Aug, 2017
该研究探讨了一种计算模型,即词嵌入模型,通过将词表示为多维空间中的向量,从词汇共现模式中学习来自语义记忆中的常见知识,并提出了语义投影的解决方案,以检验词嵌入模型是否能够恢复多种语义特征和对象属性的上下文依赖关系。
Feb, 2018
本文介绍了一种基于 Grassmannian 的新方法,旨在通过建模单词集合所围成的子空间来捕获连续词向量表示中的类比关系,该方法利用测地核的修改余弦距离模型捕获跨单词类别的关系特定距离,实验结果表明与以前的方法相比,本方法在类比任务上表现显著改善。
Jul, 2015
本文基于知识图谱嵌入探索了一种新的基于结构的映射方法,并使用合成和真实数据集进行了初步评估,结果表明,该方法对相似结构的图形具有很好的处理能力,可优于处理本体的大小和结构差异的对齐噪声。
Apr, 2022