利用 PubMed 用户查询日志为推荐的相似文章提供事后解释
本研究提出一个自我学习的组合方法,通过引入具有权重的句法和语义相似度指标来确定来自预定数据库的类似问题,通过全面分析证明其效率和功效高于现有文献。
Apr, 2022
提出了一种基于 Word Mover's Distance 计算单词间距离的查询 - 文档相似度测量方法,利用神经词嵌入在检索无直接匹配的情况下发现相关词,并将其与 BM25 相结合,结果在 TREC Genomics 数据上平均精度平均提高 12%,在来自 PubMed 搜索日志的真实数据集上,结合学习排序的方法,正确率提高了 25%,表明该方法与 BM25 的结合可以产生更出色的性能。
Aug, 2016
本研究提出一种针对任何特定领域搜索引擎的框架来计算给定输入查询和一组预定义问题之间的相似度,使用 Siamese 网络和 LSTM 模型训练分类器来生成未归一化和归一化的相似度分数,并结合两种词向量和自定义模糊匹配分数等三种其他相似度得分计算的元分类器,在 Quora 问题对(QQP)数据集以及特定于金融领域的数据集上进行性能测试。
Jan, 2021
本研究介绍了一种基于方面信息的相似度扩展方法,使用 Transformer 模型和 LSTM 基线评估了 172,073 份论文的相似度,结果表明 SciBERT 是最有效的系统,这种基于方面信息的相似度扩展方法可以为文献推荐系统提供更高的粒度和准确度。
Oct, 2020
本文针对社交媒体上短文本语言特征多变不足以支持作者验证的问题,提出了一种基于 Hierarchical Siamese 神经网络的算法,通过学习神经特征和可视化决策过程可以有效地进行作者验证,并在大规模的亚马逊评论数据集上进行实验,结果表明 Siamese 神经网络模型优于传统的基于语言特征的方法。
Oct, 2019
本研究利用预训练的 BERT 模型提出了一种无监督的技术来解释段落相似性,该方法被广泛应用于数据集,证明了其在识别重要语义单词、匹配和检索关键词等方面表现优异,能够更准确地解释与人类感知相关的相似性预测。
Aug, 2022
本研究以文獻綜述的目錄生成為挑戰,構建了涵蓋 13.8k 個目錄和 120k 個參考文獻的英文文獻綜述目錄數據集,並通過端到端和管線方法進行了多方面的評估與分析,提出了基於語義和結構相似度的模型性能評估方式。結果顯示,本研究提出的生成方法與評估指標具有較高的效果和品質,並且為以後的相關研究提供了方向。
Apr, 2023
该研究利用来自当地美国报纸的新数字化文章创建了一个巨大的语义相似性数据集,并利用深度神经方法检测了这些文章中的正面语义相似性对。该语义相似性数据集跨足了 70 年,包含近 400M 个正面语义相似性对,随着时间跨度的增加,将有助于将对比训练的语义相似性模型应用于各种任务。
Jun, 2023
本文介绍了我们的系统,以应对针对于 SemEval-2022 任务 8:多语言新闻文章相似性。我们提出了一种受语言学启发的模型,采用了几个任务特定的策略进行训练。我们的系统的主要技术包括:1)数据增强,2)多标签损失,3)适应 R-Drop,4)头尾组合中的样本重构。我们还对一些负面方法进行了简要分析,例如两塔架构。我们的系统在排行榜上排名第 1,并在官方评估集上实现了 0.818 的皮尔逊相关系数。
Apr, 2022