文献引用推荐:方法与数据集
引用推荐是根据给定的文本寻找合适引用的任务,该研究通过收集第一个学术法律数据集,对现有模型进行了实验和性能比较。研究结果表明,对于法律引用推荐任务,BM25 是一个强大的基准方法,而最有效的方法是使用 BM25 + 进行预提取,然后使用 SciNCL 进行重新排序,这将基准方法的性能从 0.26 提升至 0.30 的 MAP@10。此外,对预训练模型进行微调可以显著提高性能,这说明在这些模型的训练数据中包含法律文章的重要性。
Nov, 2023
本篇论文旨在解决文献检索中文本相似性问题,提出了一种基于引用信息的文献检索算法,并优化了相关搜索算法以提高文献检索质量和多样性。通过实验表明,优化算法在检索文献数据库时非常成功。
Sep, 2012
本文旨在研究引用建议系统,在多个数据集上测试了基于嵌入、主题建模和信息检索技术的引用建议方法,并将它们结合成一个半遗传混合推荐系统进行了离线和在线的评估,结果表明包含嵌入和信息检索组件的混合模型优于其他单个方法和算法。
Feb, 2020
本文综述了自动文本摘要的研究现状及其评估方法,使用引用文献的方法考察各种摘要生成机制,同时对可用于摘要任务的数据集进行了广泛的回顾,并在 CNN 语料库数据集上进行了抽取和生成方法的实证研究。
Jan, 2023
该研究提出了一种基于内容的方法来推荐论文草稿中的引用,通过将请求文档嵌入到向量空间中,再使用其最近邻作为候选项,并使用区分观察和未观察到的引用的判别模型对候选项进行重新排序,无需元数据,得到了相对于标准数据集的显著提升。
Feb, 2018
本文详细介绍了推荐系统的评估方法,包括内容推荐和协同过滤机制的相似度指标,候选生成度量,预测指标,排名指标以及与经济目标相关的商业指标。同时强调了这些指标的上下文应用和相互依赖,提出了一种选择和解释这些指标的框架,以促进推荐系统的改进和商业目标的实现。
Dec, 2023
在本研究中,我们分析引用筛选评估数据集,揭示了许多可用数据集存在的问题,例如太小、数据泄漏以及对于将自动化文献筛选系统视为分类任务而不是检索或问答任务有限适用性。为了解决这些挑战,我们介绍了 CSMeD,这是一个集合了九个公开释放的文献综述集合的元数据集,提供统一访问 325 个医学和计算机科学领域的系统化文献综述资源。此外,我们还介绍了专门用于评估全文出版物筛选任务的新数据集 CSMeD-FT。通过实验和建立新数据集的基线,我们展示了 CSMeD 的实用性。
Nov, 2023
该文献综述通过机器学习预测引用次数或质量评分等方法,从文章文本和元数据中识别高影响力或高质量研究的指标,并回顾了有关排名和公共数据集的证据,用于预测学术文章的影响力,并讨论了技术辅助评估的偏见和透明度。
Dec, 2022
我们探讨了链接预测作为自动获取与新文档的主题或背景相关的现有文献的代理方法。我们的模型使用基于变压器的图嵌入来编码每个文档的含义,这些文档作为引文网络中的节点呈现。我们展示了我们的模型生成的语义表示在推荐和排名任务中可以胜过其他基于内容的方法。这为在那些需要这些文档正确互相引用以最小化可能出现的不一致性的领域中探索引文图提供了一种整体的方法。
Mar, 2024