利用大型语言模型嵌入追溯思想的谱系

Jan, 2024

利用大型语言模型嵌入追溯思想的谱系

Tracing the Genealogies of Ideas with Large Language Model Embeddings

Lucian Li

TL;DR通过使用大规模语料库中语言模型的独特优势来检测知识影响，本文提出了一种新方法，并应用组合方法来实现不同阈值下的引用、改写或相似性，通过使用这种方法在 19 世纪的大规模学术著作中检测达尔文的观点，证明了该方法的可行性和广泛适用性。

Abstract

In this paper, I present a novel method to detect intellectual influence across a large corpus. Taking advantage of the unique affordances of large →

intellectual influence large corpus language models ensemble method semantic content

发现论文，激发创造

语言嵌入中受生物启发的结构识别

本研究使用生物启发方法来遍历和可视化词嵌入，并显示了其可理解的结构。此外，我们的模型还生成可信的单词相似性排名。我们还展示了使用生物启发模型在不同的单词嵌入技术之间进行比较，以研究其对语义输出的影响，这可以强调或模糊文本数据中的特定解释。

Sep, 2020

评估语义变化的句子嵌入模型的比较研究

分析语义变化的模式在长篇实际文本（如书籍或记录）中是有趣的，从文体、认知和语言的角度来看。这项研究也对应用领域，如文本分段、文档摘要和语义新颖性检测是有用的。本文通过时间序列的语义相似性以及多本文学作品的两两句子相似性矩阵比较了几种最近的句子嵌入方法。与以前使用目标任务和精心策划的数据集比较句子嵌入方法的研究不同，我们的方法提供了对方法在现实情境的评估。我们发现，大部分句子嵌入方法确实能够在给定文档中推断出高度相关的语义相似性模式，但也存在有趣的差异。

Aug, 2023

词嵌入中的思想流动

本文采用微流变学的特定工具研究了基于相似性的思想流动，通过介绍词嵌入中的随机行走并研究其行为，发现这种相似性介导的随机行走在嵌入空间中表现出生物细胞和复杂流体等复杂结构系统中常见的异常扩散特征。最后，该论文提出了应用随机行走和布朗运动下粒子扩散的研究中常用的工具，来定量评估文档中多样思想的融入情况，总体而言，该论文提出了结合微流变学和机器学习概念的自我参照方法，以探索语言模型的蜿蜒倾向及其与创造力的潜在关联。

Jul, 2023

利用神经机器翻译嵌入词汇相似度

该研究探讨神经机器翻译模型所学到的嵌入，在需要同时考虑概念相似性和词汇 - 句法角色知识的任务中，它们的性能优于单语言模型所学到的嵌入。研究结果还表明，词汇扩展算法对嵌入质量的影响很小。

Dec, 2014

连接点：使用检索的短语图推断专利短语相似度

本研究提出了一种基于图增强的方法来提高专利短语的表示能力，并通过自监督学习目标来优化上下文嵌入和图参数，实现专利短语的语义相似度推断。实验证明，该方法在自监督模式下显著提高了专利短语的表示，同时在监督模式下也观察到明显的改进，突显了利用检索的短语图增强的潜在优势。

Mar, 2024

医学语言嵌入的知识转移

该研究使用分布语义学将结构化知识图谱与非结构化文本相结合，利用概率生成模型预测医学概念之间的新关系，进一步证明该方法可用于医学领域的数据稀缺性问题。

Feb, 2016

词嵌入的形状：通过拓扑数据分析识别语言谱系

通过使用形式上标记的嵌入的形状之间的距离矩阵，利用持久同调的概念，对 81 种印欧语言进行语言进化树的重建。

Mar, 2024

用于改写和文本摘要的语义句子嵌入

介绍了一种适用于高级自然语言处理的句子向量编码框架，该框架可以从编码器 - 解码器模型中提取具有相似向量表示的常见语义信息的句子 latents 表示。我们将句子表示的应用用于两个不同的任务 -- 句子复述和段落摘要，使其适用于常用的循环框架处理文本。实验结果有助于深入了解向量表示适用于高级语言嵌入。

Sep, 2018

利用词嵌入进行类比任务预测药物 - 基因关系

利用自然语言处理和 BioConceptVec 嵌入，预测药物和靶基因的关系，通过生物途径的分类改善性能，并通过历史关系的向量预测未知的未来关系。

Jun, 2024

语言表征实际代表着什么？

本文研究表明神经语言模型在多语言语料库上的训练可以用来学习语言的分布式表示，尤其是在语料库被翻译成英文的情况下。我们研究了语言表示与各种相似性之间的相关性和因果关系，发现结构相似是最能影响语言表示相似性的，而遗传关系则是一个混淆因素。这项研究可以促进自然语言处理和语言学的相互发展。

Jan, 2019