使用文本引导的多向量模型用于精细化科学文档相似性

ACLNov, 2021

使用文本引导的多向量模型用于精细化科学文档相似性

Multi-Vector Models with Textual Guidance for Fine-Grained Scientific Document Similarity

Sheshera Mysore, Arman Cohan, Tom Hope

TL;DR通过匹配文本的精细细节，我们提出了一种新的科学文献相似性模型。我们利用多个论文引用的全文来训练我们的模型，提供了一种新形式的文本监督用于跨论文匹配，具有快速单次匹配和稀疏多次匹配两种方法，提高了在四个数据集上的相似性任务表现。

Abstract

We present a new scientific document similarity model based on matching fine-grained aspects of texts. To train our model, we exploit a naturally-occurring source of supervision: sentences in the full-text of papers that cite multiple papers together (→

发现论文，激发创造

研究论文的基于方面的文档相似度

本研究介绍了一种基于方面信息的相似度扩展方法，使用 Transformer 模型和 LSTM 基线评估了 172,073 份论文的相似度，结果表明 SciBERT 是最有效的系统，这种基于方面信息的相似度扩展方法可以为文献推荐系统提供更高的粒度和准确度。

Oct, 2020

用于基于方面相似性的研究论文的专业文档嵌入

本文讨论了利用基于 aspect 的文本相似性测度进行科学论文推荐的问题，提出了将单一常规嵌入表示文档改为多个具有专业性的嵌入，并在 aspect 特异的嵌入空间中对其进行相似性度量的方案，有效地解决了现有方案中文档连贯性差的问题，并通过与现有方案的比较表明其优越性。

Mar, 2022

基于多模型精细非线性融合的语义相似度计算模型

该论文介绍了一种基于多模型非线性融合的新模型，通过使用基于词性、TF-IDF 和 word2vec-CNN 算法的 Jaccard 系数来分别衡量句子的相似度，输入加权向量到全连接神经网络，从而降低特征提取的细粒度，全局把握句子特征。实验结果表明，句子相似度计算方法的匹配率为 84%，模型的 F1 值为 75%。

Feb, 2022

AspectCSE：利用对比学习与结构化知识的基于方面的语义文本相似性句子嵌入

本文提出了 AspectCSE，一种基于对比学习的以方面为基础的句子嵌入方法，并在多个方面的信息检索任务上实现了 3.97％的平均改进。同时，作者还提出使用 Wikidata 知识图谱属性来训练多方面的句子嵌入模型，并证明这种方法优于单方面的嵌入，同时该研究还探讨了基于方面的句子嵌入空间。

Jul, 2023

对比学习和专家混合使得向量嵌入更精确

我们针对高度专业化的科学子领域中，传统方法不能很好地进行文本分类和矢量表示的问题，提出了使用共引作为相似度度量的专业数据集，并结合领域特定微调和专家混合的通用适应性方法，实现了在多个任务上具有高效性的通用 Transformer 网络，显著推进了科学文本分类指标的发展，并有望增强矢量数据库的搜索和编译。

Jan, 2024

学生论文中细粒度的主题相关性评估的句子相似度测量

本文研究学习者文章中句子级提示相关性评估的任务，在两个学习者写作数据集上评估使用单词重叠、神经嵌入和神经合成模型的各种系统。我们提出了一种新的句子级相似度计算方法，该方法学习调整针对特定任务的预训练单词嵌入的权重，相较于其他相关基线模型，实现了显著更高的准确性。

Jun, 2016

评估语义变化的句子嵌入模型的比较研究

分析语义变化的模式在长篇实际文本（如书籍或记录）中是有趣的，从文体、认知和语言的角度来看。这项研究也对应用领域，如文本分段、文档摘要和语义新颖性检测是有用的。本文通过时间序列的语义相似性以及多本文学作品的两两句子相似性矩阵比较了几种最近的句子嵌入方法。与以前使用目标任务和精心策划的数据集比较句子嵌入方法的研究不同，我们的方法提供了对方法在现实情境的评估。我们发现，大部分句子嵌入方法确实能够在给定文档中推断出高度相关的语义相似性模式，但也存在有趣的差异。

Aug, 2023

学习极短文本的语义相似性

研究了基于单词嵌入和 tf-idf 相似性的方法，用于匹配短文本片段，并得出使用两种方法的混合方法可以更好地模拟非常短的文本片段中的语义内容。

Dec, 2015

CausalCite：论文引用的因果表述

本研究提出了一种叫做 CausalCite 的因果推断方法，通过高维文本嵌入将每篇论文编码，利用余弦相似度提取相似的样本并综合计算出反事实样本，用于衡量论文被引用的因果关系，该方法在科学专家对 1,000 篇论文进行的实验、历史论文的奖项和 AI 各个子领域的稳定性等各种标准中表现出了很高的相关性和有效性，并给出了一些建议供未来研究者利用我们的度量方法以更好地理解论文质量。

Nov, 2023

图搜索和匹配实现的多文档摘要

本论文提出了一种基于图表达的文本相似性和差异性总结方法，使用 “spreading activation” 技术在两个相关文档中发现与主题语义相关的节点，并将两个文档的激活图匹配以获得相似和不同之处的图。

Dec, 1997