BERT 的文章重新排序
通过对 MS MARCO 段落重新排序数据集的实证研究,分析 fine-tuned BERT 模型的结果,探讨 BERT 在检索方面成功和失败的潜在原因及其性能中 成功的细节
May, 2019
该论文提出了一种利用 BERT 表示和 learning-to-rank 模型进行文档排序的机器学习算法。在公共基准测试中,采用这种方法可以取得更好的表现。最新的实验使用 RoBERTa 和 ELECTRA 模型,取得了较之其它方法更好的排名成绩。
Apr, 2020
本文研究了预先训练的 BERT 在排名任务中的表现和行为,探索了在两种排名任务中优化 BERT 的几种不同方法,并实验证明了 BERT 在问题回答焦点的段落排名任务中的强有效性,以及 BERT 作为强交互式序列到序列匹配模型的事实。
Apr, 2019
本文探讨了针对关键字错别字造成的关键字不匹配所产生的影响,针对这一问题,我们提出了简单而有效的错别字感知培训框架,实验证明该框架可以显著提高 DR 和 BERT Re-ranker 的有效性。
Aug, 2021
本文利用 BERT 模型重新排序自动语音识别中的 N 个最优假设,同时融合了任务特定的全局主题信息。实验表明,相较于循环神经网络和利用 BERT 计算伪对数似然分数的方法,本方法在 AMI 基准语料库上的有效性和可行性得到了证实。
Apr, 2021
本文提出了对 Duet 深度神经排名模型的若干小修改,并在 MS MARCO 文章排名任务上进行了评估,根据消融研究,我们报告了所提出的改进的显著提升。
Mar, 2019
本文提出了一种多样化的 BERT 模型,通过使用多个片段并全局规范化答案分数,并得到统一的分数,性能提高了 4%。通过使用段落评分器选择高质量的段落,多通道 BERT 获得了额外的 2%。实验结果表明,我们的方案在所有基准测试上均优于现有模型,特别是在 OpenSQuAD 数据集上,我们的模型比所有非 BERT 模型和基于 BERT 的模型都表现出色。
Aug, 2019
本文提出一种简单有效的重新排序方法,利用预训练语言模型计算与检索的段落之间的关联度,从而提高开放式问题回答中的检索效果,并在多个数据集上进行了评估和实验,使得无监督和有监督的模型的检索准确率分别提高了 6-18% 和 12%。
Apr, 2022
本文提出了一种新的长文档重新排序方法,通过利用自注意力机制和模块化 Transformer 框架建立查询到文档的交互模型,避免了编码过程中低维度表示带来的信息瓶颈,实现了从全部文档中提取重要信息的目的,并在 Robust04 和 ClueWeb09 等数据集上实现了有效的重新排序。
May, 2022
使用人工生成的相关性评分和 LLM 相关性评分,在对信息检索进行重新排序之前进行预过滤,能够有效地过滤掉不相关的段落,并使较小模型如 Mixtral 能够与更大的专有模型(如 ChatGPT 和 GPT-4)具有竞争力。
Jun, 2024