稠密检索蒸馏的课程学习
在学习排名问题时,我们提出了一种基于知识蒸馏的技术,称为 RD,通过使用更小的模型在保持模型性能的同时提高在线推理的效率,该技术在公共数据集和推荐模型上实现了旨在设计的目的。
Sep, 2018
本文提出了一种新的知识蒸馏框架,DE-RRD,用于推荐系统,该框架使得学生模型能够从教师模型中编码的潜在知识和教师的预测中学习。实验证明,DE-RRD 的性能优于现有的竞争对手,并且具有更快的推断时间。
Dec, 2020
本文提出了 Dual Correction strategy for Distillation (DCD),该方法通过梯度对齐实现知识转移,将评分信息从教师模型传递到学生模型,以更高效地训练推荐系统,同时解决了每个模型预测错误时所出现的问题,并通过用户和物品两个方面来处理稀疏隐式反馈,实验结果表明,该方法优于现有的基线模型。
Sep, 2021
提出一种名为基于数据分布的课程学习(DDCL)的新型课程学习方法,通过评分方法确定训练样本的顺序,实验证明 DDCL 方法相对于无课程的标准评估,对多个数据集应用时,改善了平均分类准确率,并且通过错误损失分析表明,在单个训练时期,使用 DDCL 方法比无课程方法收敛更快。
Feb, 2024
通过蒸馏技术,提出了一种名为 DGR 的可行框架,利用排名模型作为教师角色,通过专门设计的蒸馏 RankNet loss 来优化生成式检索模型,从而提升了当前生成式检索系统的性能。
Feb, 2024
信息检索一直是信息检索研究的重点之一。近年来,提出了 Dense Retrieval(DR)技术来缓解诸如词汇不匹配问题等固有缺陷,但是绝大多数现有 DR 模型的培训都依赖于从语料库中抽样负实例来优化成对损失函数,即不公平的样本,因此提出了 Learning To Retrieve(LTRe)培训技术, 它通过预先构建文档索引,并在每个培训迭代中在没有负样本采样的情况下执行全检索,从而在整个语料库中检索相关文档,实验表明,LTRe 在有效性方面明显优于所有有竞争力的稀疏和密集基线。它甚至在合理的延迟限制下比 BM25-BERT 级联系统表现更好。
Oct, 2020
针对视觉丰富的文档应用(如文档布局分析和文档图像分类),本文探讨了知识蒸馏(KD)。通过设计一种 KD 实验方法,我们研究了不同架构和容量的骨干模型之间的知识传递策略对教师 - 学生知识差距的影响,并发现一些方法可以始终优于监督学生训练。此外,我们设计了下游任务设置,评估了蒸馏的布局分析模型在零样本布局感知文档视觉问答上的鲁棒性,结果表明存在较大的知识差距,强调进一步探索如何高效获得更多的语义文档布局意识的必要性。
Jun, 2024
本文中介绍了 Deep Retrieval (DR) 算法,通过学习可检索结构来获取最优推荐结果,其编码所有候选项入离散潜在空间,接着使用当前模型下的光束搜索来检索前置候选项,以实现重新排名。实验证明,使用 DR 算法,在两个公共数据集上能够实现近乎于暴力基线的准确性,并且在实时生产推荐系统上,高度优化的 DR 算法显著优于 ANN 基准线。DR 是非 ANN 的推荐算法在工业推荐系统规模的首批成功部署之一。
Jul, 2020
本文介绍了基于学习排序蒸馏的组合优化问题解决方法,其中高性能排序策略通过强化学习可以被提炼成非迭代简单模型,从而实现低延迟的拟合,通过优化推理效率和性能表现,证明了这一框架的优势。
Dec, 2021