Gov2Vec: 学习机构及其法律文本的分布式表示
本研究使用三种模型,分别基于向量空间表示法,将法律案例文档表示为不同的向量空间,并结合语义词度量和自然语言处理技术,展示了在信息检索过程中引入领域特定语义相似性测量的必要性,表明整合多种技术可显著提高信息检索的准确性,同时还展示了词相似度测量分布变化及文档向量维度变化对法律信息检索过程的影响,从而为信息检索提供了更好的方案。
May, 2018
介绍了 Gram2Vec,一种将文档嵌入到高维空间的语法风格嵌入算法。通过提取文本中存在的语法特征的标准化相对频率,Gram2Vec 提供了固有的可解释性。使用 Gram2Vec 向量的作者到文档的映射可视化,并演示了添加或删除特征以查看哪些作者做出了某些语言选择。然后,使用作者归属作为应用程序,展示了 Gram2Vec 如何解释为什么将文档归属于某个作者,通过计算 Gram2Vec 特征向量之间的余弦相似度来计算候选文档与查询文档之间的距离。
Jun, 2024
使用 Company2Vec 模型,通过对公司网站数据进行 Word2Vec 嵌入和降维分析,本研究论文提出了一种新的表示学习应用。Company2Vec 能够维护语义语言结构,并在精细粒度的行业中创建高效的公司嵌入。这些语义嵌入可用于银行业的各种应用,包括语义业务分析和行业预测等。矢量化的嵌入结构还可通过余弦距离衡量公司之间的相似性,从而提供比标准行业标签(NACE)更细粒度的公司比较方法。此外,研究提供了基于公司嵌入的 k-means 聚类的替代行业分割方法,最后还提出了三种算法用于对等公司识别,包括以公司为中心、以行业为中心和以投资组合为中心。
Jul, 2023
本文提出一种方法学习语言的词汇,并使用图嵌入技术和跨语言向量空间映射方法结合本体源和语料库来提高现有词向量的覆盖范围以及加强其词汇知识。所提出的方法在 Rare Word Similarity dataset 上表现出 10% 的性能提升。
Jul, 2017
该研究探讨了图形和关系结构的矢量表示,以及生成这些表示的方法。作者提出了两种理论方法来理解矢量嵌入的基础,并建议未来的研究方向。
Mar, 2020
提供一种使用词向量嵌入表示整个文档的有效方法,通过将文档和查询表示为单词向量集,使用单词集中每个单词对之间的相似性来计算标准相似性度量,提高 TREC 自适应数据集中的平均精确度。
Jun, 2016
提出了一种基于分布式语义嵌入的主题建模方法 top2vec,不需要预定义的停用词表、词干提取或词形还原等预处理,能够自动确定主题数目,有效地提取语义信息并以主题向量的形式呈现。实验结果表明,top2vec 比传统的生成模型更加优秀。
Aug, 2020
本文介绍了一个有效的文档表示学习框架,Doc2VecC。Doc2VecC 通过词嵌入的简单平均来表示每个文档,并引入一个数据相关的正则化模型以捕捉文档的语义含义。该模型在训练时能够较好地捕捉文本信息,同时能够在生成文档表示方面与当前最先进算法匹配或超越,并且其模型结构简单,能够高效地处理海量文档。
Jul, 2017