使用文本引导的多向量模型用于精细化科学文档相似性
本研究介绍了一种基于方面信息的相似度扩展方法,使用 Transformer 模型和 LSTM 基线评估了 172,073 份论文的相似度,结果表明 SciBERT 是最有效的系统,这种基于方面信息的相似度扩展方法可以为文献推荐系统提供更高的粒度和准确度。
Oct, 2020
本文讨论了利用基于 aspect 的文本相似性测度进行科学论文推荐的问题,提出了将单一常规嵌入表示文档改为多个具有专业性的嵌入,并在 aspect 特异的嵌入空间中对其进行相似性度量的方案,有效地解决了现有方案中文档连贯性差的问题,并通过与现有方案的比较表明其优越性。
Mar, 2022
该论文介绍了一种基于多模型非线性融合的新模型,通过使用基于词性、TF-IDF 和 word2vec-CNN 算法的 Jaccard 系数来分别衡量句子的相似度,输入加权向量到全连接神经网络,从而降低特征提取的细粒度,全局把握句子特征。实验结果表明,句子相似度计算方法的匹配率为 84%,模型的 F1 值为 75%。
Feb, 2022
本文提出了 AspectCSE,一种基于对比学习的以方面为基础的句子嵌入方法,并在多个方面的信息检索任务上实现了 3.97%的平均改进。同时,作者还提出使用 Wikidata 知识图谱属性来训练多方面的句子嵌入模型,并证明这种方法优于单方面的嵌入,同时该研究还探讨了基于方面的句子嵌入空间。
Jul, 2023
我们针对高度专业化的科学子领域中,传统方法不能很好地进行文本分类和矢量表示的问题,提出了使用共引作为相似度度量的专业数据集,并结合领域特定微调和专家混合的通用适应性方法,实现了在多个任务上具有高效性的通用 Transformer 网络,显著推进了科学文本分类指标的发展,并有望增强矢量数据库的搜索和编译。
Jan, 2024
本文研究学习者文章中句子级提示相关性评估的任务,在两个学习者写作数据集上评估使用单词重叠、神经嵌入和神经合成模型的各种系统。我们提出了一种新的句子级相似度计算方法,该方法学习调整针对特定任务的预训练单词嵌入的权重,相较于其他相关基线模型,实现了显著更高的准确性。
Jun, 2016
分析语义变化的模式在长篇实际文本(如书籍或记录)中是有趣的,从文体、认知和语言的角度来看。这项研究也对应用领域,如文本分段、文档摘要和语义新颖性检测是有用的。本文通过时间序列的语义相似性以及多本文学作品的两两句子相似性矩阵比较了几种最近的句子嵌入方法。与以前使用目标任务和精心策划的数据集比较句子嵌入方法的研究不同,我们的方法提供了对方法在现实情境的评估。我们发现,大部分句子嵌入方法确实能够在给定文档中推断出高度相关的语义相似性模式,但也存在有趣的差异。
Aug, 2023
本研究提出了一种叫做 CausalCite 的因果推断方法,通过高维文本嵌入将每篇论文编码,利用余弦相似度提取相似的样本并综合计算出反事实样本,用于衡量论文被引用的因果关系,该方法在科学专家对 1,000 篇论文进行的实验、历史论文的奖项和 AI 各个子领域的稳定性等各种标准中表现出了很高的相关性和有效性,并给出了一些建议供未来研究者利用我们的度量方法以更好地理解论文质量。
Nov, 2023
本论文提出了一种基于图表达的文本相似性和差异性总结方法,使用 “spreading activation” 技术在两个相关文档中发现与主题语义相关的节点,并将两个文档的激活图匹配以获得相似和不同之处的图。
Dec, 1997