基于内容的引用推荐
我们探讨了链接预测作为自动获取与新文档的主题或背景相关的现有文献的代理方法。我们的模型使用基于变压器的图嵌入来编码每个文档的含义,这些文档作为引文网络中的节点呈现。我们展示了我们的模型生成的语义表示在推荐和排名任务中可以胜过其他基于内容的方法。这为在那些需要这些文档正确互相引用以最小化可能出现的不一致性的领域中探索引文图提供了一种整体的方法。
Mar, 2024
本文旨在研究引用建议系统,在多个数据集上测试了基于嵌入、主题建模和信息检索技术的引用建议方法,并将它们结合成一个半遗传混合推荐系统进行了离线和在线的评估,结果表明包含嵌入和信息检索组件的混合模型优于其他单个方法和算法。
Feb, 2020
现有的机器学习方法用于本地引用推荐直接将一个查询映射或翻译为值得引用的研究论文,这会导致有限的推荐可解释性。为了缓解这个问题,我们引入了基于证据的本地引用推荐任务,目标潜藏空间包括用于推荐特定论文的证据跨度。通过远程监督证据检索和多步骤再排序框架,我们的提议系统 ILCiteR 为查询推荐应引用的论文,并基于从现有研究文献中提取的类似证据跨度进行引用。与过去的方法只输出推荐不同,ILCiteR 检索了验证跨度和推荐论文的排序列表。其次,以前提出的引用推荐的神经模型需要在大规模标记数据上进行昂贵的训练,理想情况下是在候选论文池的每次重大更新之后。相反,ILCiteR 仅依靠动态证据数据库的远程监督和预训练的基于 Transformer 的语言模型,而无需任何模型训练。我们为基于证据的本地引用推荐任务贡献了一个新颖的数据集,并展示了我们提出的条件神经网络排序集成方法在重新排序证据跨度上的有效性。
Mar, 2024
我们提出了一种新颖的上下文感知引用推荐系统,使用作者已经撰写的内容从给定的源文档中生成可引用的段落和标记跨度的排名列表,通过在演讲转录和新闻文章的集合上进行实验,评估了模型的段落排名和跨度预测性能。
May, 2020
通过使用最近邻搜索和层次化注意网络构建文本嵌入来预测相关的引用文献,并使用 SciBERT reranker 在本地引文推荐任务中进行微调,我们的 reranker 需要更少的预取候选项即可达到最先进的性能。
Dec, 2021
本文提出了一种组合了 TF-IDF 和 KGE 的加权内容推荐系统,用于嵌入文本数据和命名实体。通过复合方法,还使用从电影相关网站爬取的数据集和 FarsBase KG 的结构来构建 MovieFarsBase KG,该方法明显优于传统的 TF-IDF 方法。
Oct, 2022
提出了一种使用分布式单词表示和领域知识从参考论文中提取适当上下文的无监督模型,评估结果表明其明显优于现有技术,并且还演示了上下文化方法提高科学文章引用摘要的有效性。
May, 2017
本文提出一种基于深度学习的模型和完整组织的数据集,用于文章引用建议的上下文感知。该模型具有文档编码器和上下文编码器,并使用图卷积网络层和来自转换器的双向编码器表示 (BERT)。修改了 PeerRead 数据集之后,提出新的数据集全文 PeerRead,其中包含指向引用和文章元数据的上下文句子取样。本文中所述的方法能够获得最新的预测结果,提高了 28% 以上的平均准确率 (MAP) 和 recall@k。
Mar, 2019
引用推荐是根据给定的文本寻找合适引用的任务,该研究通过收集第一个学术法律数据集,对现有模型进行了实验和性能比较。研究结果表明,对于法律引用推荐任务,BM25 是一个强大的基准方法,而最有效的方法是使用 BM25 + 进行预提取,然后使用 SciNCL 进行重新排序,这将基准方法的性能从 0.26 提升至 0.30 的 MAP@10。此外,对预训练模型进行微调可以显著提高性能,这说明在这些模型的训练数据中包含法律文章的重要性。
Nov, 2023