Gov2Vec: 学习机构及其法律文本的分布式表示

Sep, 2016

Gov2Vec: 学习机构及其法律文本的分布式表示

Gov2Vec: Learning Distributed Representations of Institutions and Their Legal Text

John J. Nay

TL;DR使用唯一向量空间嵌入法比较不同机构之间的政策差异，发现各机构之间存在有意义的差异，并使用文法向量回答具体问题，正在扩展为更综合的法律语义地图。

Abstract

We compare policy differences across institutions by embedding representations of the entire legal corpus of each institution and the vocabulary shared across all corpora into a continuous →

policy differences vector space government branches legal corpus semantic map

发现论文，激发创造

使用文档向量嵌入和深度学习进行法律文件检索

本研究使用三种模型，分别基于向量空间表示法，将法律案例文档表示为不同的向量空间，并结合语义词度量和自然语言处理技术，展示了在信息检索过程中引入领域特定语义相似性测量的必要性，表明整合多种技术可显著提高信息检索的准确性，同时还展示了词相似度测量分布变化及文档向量维度变化对法律信息检索过程的影响，从而为信息检索提供了更好的方案。

May, 2018

Gram2Vec：一种可解释的文档向量化方法

介绍了 Gram2Vec，一种将文档嵌入到高维空间的语法风格嵌入算法。通过提取文本中存在的语法特征的标准化相对频率，Gram2Vec 提供了固有的可解释性。使用 Gram2Vec 向量的作者到文档的映射可视化，并演示了添加或删除特征以查看哪些作者做出了某些语言选择。然后，使用作者归属作为应用程序，展示了 Gram2Vec 如何解释为什么将文档归属于某个作者，通过计算 Gram2Vec 特征向量之间的余弦相似度来计算候选文档与查询文档之间的距离。

Jun, 2024

Company2Vec -- 基于公司网站的德国公司嵌入

使用 Company2Vec 模型，通过对公司网站数据进行 Word2Vec 嵌入和降维分析，本研究论文提出了一种新的表示学习应用。Company2Vec 能够维护语义语言结构，并在精细粒度的行业中创建高效的公司嵌入。这些语义嵌入可用于银行业的各种应用，包括语义业务分析和行业预测等。矢量化的嵌入结构还可通过余弦距离衡量公司之间的相似性，从而提供比标准行业标签（NACE）更细粒度的公司比较方法。此外，研究提供了基于公司嵌入的 k-means 聚类的替代行业分割方法，最后还提出了三种算法用于对等公司识别，包括以公司为中心、以行业为中心和以投资组合为中心。

Jul, 2023

利用语义桥梁学习罕见词汇的表示

本文提出一种方法学习语言的词汇，并使用图嵌入技术和跨语言向量空间映射方法结合本体源和语料库来提高现有词向量的覆盖范围以及加强其词汇知识。所提出的方法在 Rare Word Similarity dataset 上表现出 10% 的性能提升。

Jul, 2017

word2vec, node2vec, graph2vec, X2vec: 结构化数据的向量嵌入理论

该研究探讨了图形和关系结构的矢量表示，以及生成这些表示的方法。作者提出了两种理论方法来理解矢量嵌入的基础，并建议未来的研究方向。

Mar, 2020

Topic2Vec: 学习主题的分布式表示

本文提出 Topic2Vec 方法，通过在语义向量空间中学习话题表示来替代概率的 LDA 表示，实验证明该方法取得了有意义的结果。

Jun, 2015

将文档和查询表示为嵌入词向量集以进行信息检索

提供一种使用词向量嵌入表示整个文档的有效方法，通过将文档和查询表示为单词向量集，使用单词集中每个单词对之间的相似性来计算标准相似性度量，提高 TREC 自适应数据集中的平均精确度。

Jun, 2016

Top2Vec：主题的分布式表示

提出了一种基于分布式语义嵌入的主题建模方法 top2vec，不需要预定义的停用词表、词干提取或词形还原等预处理，能够自动确定主题数目，有效地提取语义信息并以主题向量的形式呈现。实验结果表明，top2vec 比传统的生成模型更加优秀。

Aug, 2020

探索词语和关系的理论表示

该研究提出了一种理论方法，将词嵌入和知识图谱中的实体及其关系的几何形状联系起来，以便更好地理解它们的语义结构和性能。

Feb, 2022

通过数据损坏实现高效文档向量表示

本文介绍了一个有效的文档表示学习框架，Doc2VecC。Doc2VecC 通过词嵌入的简单平均来表示每个文档，并引入一个数据相关的正则化模型以捕捉文档的语义含义。该模型在训练时能够较好地捕捉文本信息，同时能够在生成文档表示方面与当前最先进算法匹配或超越，并且其模型结构简单，能够高效地处理海量文档。

Jul, 2017