通过部分正交性揭示嵌入的含义

Oct, 2023

Uncovering Meanings of Embeddings via Partial Orthogonality

Yibo Jiang, Bryon Aragam, Victor Veitch

TL;DR研究了语义结构如何编码在文本嵌入向量的代数结构中，通过引入语义独立性的概念和部分正交性作为相关代数结构，证明了部分正交性确实捕捉到了语义独立性，同时介绍了保持独立性的嵌入方法及其近似存在性的证明。

Abstract

machine learning tools often rely on embedding text as vectors of real numbers. In this paper, we study how the semantic structure of lang

machine learning semantic structure embedding semantic independence partial orthogonality

发现论文，激发创造

图像和语言的序列嵌入

本文倡导明确模拟视觉 - 语义层次中的偏序结构，介绍一个学习有序表示的通用方法，并展示了如何将其应用于涉及图像和语言的各种任务中，特别是超义预测和图像字幕检索，结果表明得到的表示优于当前方法。

Nov, 2015

EL Embeddings: 用于描述逻辑 EL++ 的模型的几何构建

本研究在解决如何为复杂的信息或知识库创建向量空间嵌入，以便于机器学习、相似性搜索或类似任务时能更有效地用于预测蛋白质相互作用。

Feb, 2019

词嵌入的语义结构和可解释性

该研究提出了一种统计方法来揭示密集词嵌入中的潜在语义结构，并引入了一个新的数据集（SEMCAT），其中包含超过 6500 个在 110 个类别下语义分组的单词。研究还提出了一种量化词嵌入可解释性的方法，这是一种实用的替代方法，不需要人为干预。

Nov, 2017

句子嵌入的线性跨语言映射

本文讨论了跨语言句子嵌入向量表示句子语义的方法，并提出了通过简单的线性跨语言映射以及正交性偏差条件的度量来改善多语言嵌入向量。

May, 2023

关于单词嵌入空间的维度语言特征

本文对词嵌入进行了主成分分析，并提出了许多新颖且反直观的观察。研究人员进一步说明了方差解释率作为下游任务性能的代理效用，并通过对主嵌入空间的句法探测来展示主成分所捕捉的句法信息与其解释方差的数量不相关，从而调查了基于方差的嵌入后处理的局限性，并证明这种后处理在句子分类和机器翻译任务中是产生反效果的。最后，本文提供了一些关于应用基于方差的嵌入后处理的预防性准则，并解释了非各向同性几何可能是词嵌入性能的一部分的原因。

Oct, 2019

形态学词向量

通过使用德语数据作为案例研究，我们使用语素标注数据引导连续单词嵌入，使嵌入空间中的接近词彼此共享语素特征，并展示了我们学习得到的嵌入实现了这一目标。

Jul, 2019

预测常识本体的改进表示学习

本文研究了利用学习表示的空间的内在几何结构来实现自动遵守复杂结构约束的本体 (分层和部分有序结构) 学习的最新工作，并探讨了对一种此类模型的两种扩展，旨在提高通识知识表示文本数据的性能。通过混合学习排序关系和非分层知识，以及利用训练数据的部分有序结构找到在配对训练过程中不好执行的嵌入之间的长距离 triplet 约束，我们发现这两种扩展都优于原始的 order-embedding 模型和其他强基线模型。

Aug, 2017

语义投影：从词嵌入中恢复多个不同物体特征的人类知识

该研究探讨了一种计算模型，即词嵌入模型，通过将词表示为多维空间中的向量，从词汇共现模式中学习来自语义记忆中的常见知识，并提出了语义投影的解决方案，以检验词嵌入模型是否能够恢复多种语义特征和对象属性的上下文依赖关系。

Feb, 2018

利用矩阵流形推理单词嵌入中的语言规律

本文介绍了一种基于 Grassmannian 的新方法，旨在通过建模单词集合所围成的子空间来捕获连续词向量表示中的类比关系，该方法利用测地核的修改余弦距离模型捕获跨单词类别的关系特定距离，实验结果表明与以前的方法相比，本方法在类比任务上表现显著改善。

Jul, 2015

通过嵌入空间的绝对定向进行本体匹配

本文基于知识图谱嵌入探索了一种新的基于结构的映射方法，并使用合成和真实数据集进行了初步评估，结果表明，该方法对相似结构的图形具有很好的处理能力，可优于处理本体的大小和结构差异的对齐噪声。

Apr, 2022