基于主题句作为查询的段落级引文推荐
我们提出了一种新颖的上下文感知引用推荐系统,使用作者已经撰写的内容从给定的源文档中生成可引用的段落和标记跨度的排名列表,通过在演讲转录和新闻文章的集合上进行实验,评估了模型的段落排名和跨度预测性能。
May, 2020
现有的机器学习方法用于本地引用推荐直接将一个查询映射或翻译为值得引用的研究论文,这会导致有限的推荐可解释性。为了缓解这个问题,我们引入了基于证据的本地引用推荐任务,目标潜藏空间包括用于推荐特定论文的证据跨度。通过远程监督证据检索和多步骤再排序框架,我们的提议系统 ILCiteR 为查询推荐应引用的论文,并基于从现有研究文献中提取的类似证据跨度进行引用。与过去的方法只输出推荐不同,ILCiteR 检索了验证跨度和推荐论文的排序列表。其次,以前提出的引用推荐的神经模型需要在大规模标记数据上进行昂贵的训练,理想情况下是在候选论文池的每次重大更新之后。相反,ILCiteR 仅依靠动态证据数据库的远程监督和预训练的基于 Transformer 的语言模型,而无需任何模型训练。我们为基于证据的本地引用推荐任务贡献了一个新颖的数据集,并展示了我们提出的条件神经网络排序集成方法在重新排序证据跨度上的有效性。
Mar, 2024
基于大型语言模型的引文生成方法,旨在解决单段落引文生成的挑战,研究通过整合多个目标论文与单个源论文,生成包含多个句子引文文本的连贯段落。同时,通过将目标论文的知识图谱整合到生成引文文本的提示中实现了更好的性能,这一研究揭示了利用大型语言模型进行引文生成的潜力,为探索科学文档之间的复杂连接打开了一个引人注目的途径。
Apr, 2024
本文旨在研究引用建议系统,在多个数据集上测试了基于嵌入、主题建模和信息检索技术的引用建议方法,并将它们结合成一个半遗传混合推荐系统进行了离线和在线的评估,结果表明包含嵌入和信息检索组件的混合模型优于其他单个方法和算法。
Feb, 2020
通过使用注意力机制的双向长短期记忆 (BiLSTM) 网络和环境信息,我们可以检测需要引用的句子,我们还构建了一个比以前数据集大数个数量级的新数据集 (PMOA-CITE),证明我们的架构在标准 ACL-ARC 数据集上达到了最先进的性能 ($F_1=0.507$),在新的 PMOA-CITE 数据集上表现出很高的性能 ($F_1=0.856$),并且可以在这些数据集之间进行迁移学习。我们还使用可解释的模型揭示了促进和抑制引用的特定语言的运用,发现了我们改进预测的关键是章节和周围句子。我们进一步检查了模型的错误预测,并发现了人类引用行为和来源数据中的系统性错误,这为我们的模型在提交前和存档过程中检查文档打开了门。我们将这个新数据集、代码和基于网络的工具提供给社区。
May, 2024
我们探讨了链接预测作为自动获取与新文档的主题或背景相关的现有文献的代理方法。我们的模型使用基于变压器的图嵌入来编码每个文档的含义,这些文档作为引文网络中的节点呈现。我们展示了我们的模型生成的语义表示在推荐和排名任务中可以胜过其他基于内容的方法。这为在那些需要这些文档正确互相引用以最小化可能出现的不一致性的领域中探索引文图提供了一种整体的方法。
Mar, 2024
本文提出一种基于深度学习的模型和完整组织的数据集,用于文章引用建议的上下文感知。该模型具有文档编码器和上下文编码器,并使用图卷积网络层和来自转换器的双向编码器表示 (BERT)。修改了 PeerRead 数据集之后,提出新的数据集全文 PeerRead,其中包含指向引用和文章元数据的上下文句子取样。本文中所述的方法能够获得最新的预测结果,提高了 28% 以上的平均准确率 (MAP) 和 recall@k。
Mar, 2019
该研究提出了一种基于内容的方法来推荐论文草稿中的引用,通过将请求文档嵌入到向量空间中,再使用其最近邻作为候选项,并使用区分观察和未观察到的引用的判别模型对候选项进行重新排序,无需元数据,得到了相对于标准数据集的显著提升。
Feb, 2018
通过引入句子层级和主题层级的图半监督学习方法,以及利用句子和词之间的依赖关系构建主题模型,可以有效改善查询聚焦的多文档摘要的质量。经实验证明,该方法在 DUC 和 TAC 数据集上非常有效。
Dec, 2012