本文利用 BERT 模型重新排序自动语音识别中的 N 个最优假设,同时融合了任务特定的全局主题信息。实验表明,相较于循环神经网络和利用 BERT 计算伪对数似然分数的方法,本方法在 AMI 基准语料库上的有效性和可行性得到了证实。
Apr, 2021
本文提出 HLATR 作为一个轻量级的后续 reranking 模块,将检索和 reranking 阶段的特征结合起来,可以有效提高现有的多阶段文本检索方法的排名性能。
May, 2022
本文介绍了 ColBERT-X,这是一个使用 XLM-RoBERTa 编码器的多重表示稠密检索模型,用于支持跨语言信息检索(CLIR)。在几种语言的自适应文件排名任务上表现出了在传统词汇 CLIR 基线之上的显着和统计上的显着改进。
Jan, 2022
通过考虑语义稳定性、蕴涵和样本间不确定度的方法,我们提出了 CERET,以改进文本生成的质量,实验结果表明 CERET 在各种任务设置下持续优于其他方法,相对于 LLM 自排方法,我们的方法仅需其延迟的 9.4% 且更具成本效益。
Jun, 2024
本文中,我们提出了一种用于从头开始联合训练检索增强语言模型的架构和训练流程,名为 Retrieval-Pretrained Transformer(RPT),并使用四个长程语言建模任务进行了评估,横跨图书、代码和数学写作,证明了与强基线相比,RPT 改善了整体的检索质量和困惑度。
Jun, 2023
本文提出了利用轻量级的推理,将 re-ranker 的命中率反馈给 retriever 的方法,从而提高检索召回率。实验证明,此方法在多个领域、语言和模态下均明显提高了检索召回率。
May, 2023
该研究介绍了一个新的 Rewrite-Retrieve-Read 框架,该框架从查询重写的角度改进了检索增强方法,并通过强化学习调整该框架的策略模型,通过开放域 QA 等下游任务进行了验证。
该论文提出了一种利用 BERT 表示和 learning-to-rank 模型进行文档排序的机器学习算法。在公共基准测试中,采用这种方法可以取得更好的表现。最新的实验使用 RoBERTa 和 ELECTRA 模型,取得了较之其它方法更好的排名成绩。
Apr, 2020
为了解决长文本检索中的问题,研究人员引入了 LoCoV1 任务基准和 M2-BERT 检索编码器,通过预训练和微调方法,实现了对长文本的高效检索能力。
Feb, 2024
在 TREC 网络搜索数据集和 MIRACL 跨语言数据集上,使用无需特定任务训练数据的 Listwise Reranker with a Large Language Model (LRL) 可以作为第一阶段和最终阶段的重新排序方法,在多层文本排序任务中取得了强大的效果。