利用大型语言模型嵌入追溯思想的谱系
本研究使用生物启发方法来遍历和可视化词嵌入,并显示了其可理解的结构。此外,我们的模型还生成可信的单词相似性排名。我们还展示了使用生物启发模型在不同的单词嵌入技术之间进行比较,以研究其对语义输出的影响,这可以强调或模糊文本数据中的特定解释。
Sep, 2020
分析语义变化的模式在长篇实际文本(如书籍或记录)中是有趣的,从文体、认知和语言的角度来看。这项研究也对应用领域,如文本分段、文档摘要和语义新颖性检测是有用的。本文通过时间序列的语义相似性以及多本文学作品的两两句子相似性矩阵比较了几种最近的句子嵌入方法。与以前使用目标任务和精心策划的数据集比较句子嵌入方法的研究不同,我们的方法提供了对方法在现实情境的评估。我们发现,大部分句子嵌入方法确实能够在给定文档中推断出高度相关的语义相似性模式,但也存在有趣的差异。
Aug, 2023
本文采用微流变学的特定工具研究了基于相似性的思想流动,通过介绍词嵌入中的随机行走并研究其行为,发现这种相似性介导的随机行走在嵌入空间中表现出生物细胞和复杂流体等复杂结构系统中常见的异常扩散特征。最后,该论文提出了应用随机行走和布朗运动下粒子扩散的研究中常用的工具,来定量评估文档中多样思想的融入情况,总体而言,该论文提出了结合微流变学和机器学习概念的自我参照方法,以探索语言模型的蜿蜒倾向及其与创造力的潜在关联。
Jul, 2023
该研究探讨神经机器翻译模型所学到的嵌入,在需要同时考虑概念相似性和词汇 - 句法角色知识的任务中,它们的性能优于单语言模型所学到的嵌入。研究结果还表明,词汇扩展算法对嵌入质量的影响很小。
Dec, 2014
本研究提出了一种基于图增强的方法来提高专利短语的表示能力,并通过自监督学习目标来优化上下文嵌入和图参数,实现专利短语的语义相似度推断。实验证明,该方法在自监督模式下显著提高了专利短语的表示,同时在监督模式下也观察到明显的改进,突显了利用检索的短语图增强的潜在优势。
Mar, 2024
介绍了一种适用于高级自然语言处理的句子向量编码框架,该框架可以从编码器 - 解码器模型中提取具有相似向量表示的常见语义信息的句子 latents 表示。我们将句子表示的应用用于两个不同的任务 -- 句子复述和段落摘要,使其适用于常用的循环框架处理文本。实验结果有助于深入了解向量表示适用于高级语言嵌入。
Sep, 2018
利用自然语言处理和 BioConceptVec 嵌入,预测药物和靶基因的关系,通过生物途径的分类改善性能,并通过历史关系的向量预测未知的未来关系。
Jun, 2024
本文研究表明神经语言模型在多语言语料库上的训练可以用来学习语言的分布式表示,尤其是在语料库被翻译成英文的情况下。我们研究了语言表示与各种相似性之间的相关性和因果关系,发现结构相似是最能影响语言表示相似性的,而遗传关系则是一个混淆因素。这项研究可以促进自然语言处理和语言学的相互发展。
Jan, 2019