利用 PubMed 用户查询日志为推荐的相似文章提供事后解释

Feb, 2024

利用 PubMed 用户查询日志为推荐的相似文章提供事后解释

Harnessing PubMed User Query Logs for Post Hoc Explanations of Recommended Similar Articles

Ashley Shin, Qiao Jin, James Anibal, Zhiyong Lu

TL;DR通过重用用户查询日志，我们建立了 PubCLogs，利用该模型来解释文献推荐，进一步证实了其性能优越。

Abstract

Searching for a related article based on a reference article is an integral part of scientific research. pubmed, like many academic search engines, has a "similar articles" feature that recommends articles relevant to the current article viewed by a user. Explaining recommended items c

发现论文，激发创造

使用统计自然语言处理技术为查询建议相关问题

本研究提出一个自我学习的组合方法，通过引入具有权重的句法和语义相似度指标来确定来自预定数据库的类似问题，通过全面分析证明其效率和功效高于现有文献。

Apr, 2022

弥合差距：有效映射 PubMed 查询与文档的语义相似度度量

提出了一种基于 Word Mover's Distance 计算单词间距离的查询 - 文档相似度测量方法，利用神经词嵌入在检索无直接匹配的情况下发现相关词，并将其与 BM25 相结合，结果在 TREC Genomics 数据上平均精度平均提高 12％，在来自 PubMed 搜索日志的真实数据集上，结合学习排序的方法，正确率提高了 25％，表明该方法与 BM25 的结合可以产生更出色的性能。

Aug, 2016

应用迁移学习提升特定领域搜索体验：使用查询和问题的相似度

本研究提出一种针对任何特定领域搜索引擎的框架来计算给定输入查询和一组预定义问题之间的相似度，使用 Siamese 网络和 LSTM 模型训练分类器来生成未归一化和归一化的相似度分数，并结合两种词向量和自定义模糊匹配分数等三种其他相似度得分计算的元分类器，在 Quora 问题对（QQP）数据集以及特定于金融领域的数据集上进行性能测试。

Jan, 2021

LADER: 生物医学文献检索的对数增强稠密检索

LADER 是一种简单的插件模块，可将稠密检索器与类似训练查询的点击日志相结合，从而实现生物医学文献检索的最新技术表现。

Apr, 2023

研究论文的基于方面的文档相似度

本研究介绍了一种基于方面信息的相似度扩展方法，使用 Transformer 模型和 LSTM 基线评估了 172,073 份论文的相似度，结果表明 SciBERT 是最有效的系统，这种基于方面信息的相似度扩展方法可以为文献推荐系统提供更高的粒度和准确度。

Oct, 2020

基于注意力相似度学习的社交媒体可解释式作者验证

本文针对社交媒体上短文本语言特征多变不足以支持作者验证的问题，提出了一种基于 Hierarchical Siamese 神经网络的算法，通过学习神经特征和可视化决策过程可以有效地进行作者验证，并在大规模的亚马逊评论数据集上进行实验，结果表明 Siamese 神经网络模型优于传统的基于语言特征的方法。

Oct, 2019

基于激活和显著性图解释基于 BERT 的文本相似性

本研究利用预训练的 BERT 模型提出了一种无监督的技术来解释段落相似性，该方法被广泛应用于数据集，证明了其在识别重要语义单词、匹配和检索关键词等方面表现优异，能够更准确地解释与人类感知相关的相似性预测。

Aug, 2022

文献综述的层次目录生成：基准评估

本研究以文獻綜述的目錄生成為挑戰，構建了涵蓋 13.8k 個目錄和 120k 個參考文獻的英文文獻綜述目錄數據集，並通過端到端和管線方法進行了多方面的評估與分析，提出了基於語義和結構相似度的模型性能評估方式。結果顯示，本研究提出的生成方法與評估指標具有較高的效果和品質，並且為以後的相關研究提供了方向。

Apr, 2023

历史英语语义相似性巨大数据集

该研究利用来自当地美国报纸的新数字化文章创建了一个巨大的语义相似性数据集，并利用深度神经方法检测了这些文章中的正面语义相似性对。该语义相似性数据集跨足了 70 年，包含近 400M 个正面语义相似性对，随着时间跨度的增加，将有助于将对比训练的语义相似性模型应用于各种任务。

Jun, 2023

HFL 在 SemEval-2022 任务 8 中：一种基于语言学的回归模型与数据增强的多语言新闻相似性方法

本文介绍了我们的系统，以应对针对于 SemEval-2022 任务 8：多语言新闻文章相似性。我们提出了一种受语言学启发的模型，采用了几个任务特定的策略进行训练。我们的系统的主要技术包括：1）数据增强，2）多标签损失，3）适应 R-Drop，4）头尾组合中的样本重构。我们还对一些负面方法进行了简要分析，例如两塔架构。我们的系统在排行榜上排名第 1，并在官方评估集上实现了 0.818 的皮尔逊相关系数。

Apr, 2022