从简单到困难:面向上下文的文档排名的双重课程学习框架
本文提出了一种新的策略,学习如何先识别最简单的正确答案,再逐步处理困难情况。应用于神经答案排名器的策略可以帮助构建一个训练课程,并在训练过程中逐渐将难度相对较小的训练样本权重升高,得到大比例的正确答案。与无课程的模型相比,该模型在 MRR 和 P @1 方面可提高 4%和 9%的性能,相当于更昂贵的最先进技术的性能水平相当。
Apr, 2020
本文提出了一种上下文感知的神经排序模型,通过引入两级分层循环神经网络对查询、搜索任务进行搜索上下文表示的学习,并结合文档排序和查询建议两个伴随的检索任务来提高检索性能,并在循环状态的两个级别上引入注意力机制来识别搜索上下文和用户正在进行的搜索活动之间的可变依赖结构。通过丰富的实验比较以及深入的消融分析,证实我们所提出的方法对于建模搜索任务中隐藏的搜索上下文具有价值。
Jun, 2019
本文探讨了在神经检索模型训练中,如何通过对训练数据进行智能排序(即通过实行课程学习)来提高检索效率。作者利用大规模数据和会话响应排序任务,研究了如何确定难度以及如何过渡到更难的实例,取得了 2%的性能改进。
Dec, 2019
介绍课程发现问题,提出一种能够在课程空间内根据样本难度的先验知识,发现有效课程的课程学习框架。使用注释熵和损失作为难度度量标准,我们发现:(i)对于给定的模型和数据集,顶级发现的课程通常是非单调课程,而不是现有文献中的单调课程,(ii)普遍的易于难或难于易过渡课程往往存在表现不佳的风险,(iii)在较小的数据集和模型上表现良好的课程在较大数据集和模型上表现也很好。该框架包含一些现有的课程学习方法,并可以发现在几个自然语言处理任务上优于它们的课程。
Jul, 2023
本文介绍了一种针对对话回复选择的匹配模型的学习方法,通过逐级加难的层次化课程训练框架对模型进行训练,提高其在识别对话上下文和回复候选之间的匹配线索以及识别二者之间不匹配信息的能力,实验证明该方法显著提高了模型在各项评估指标上的表现。
Dec, 2020
本文介绍一种基于对比学习的用户搜索行为序列生成方法,包括三种数据增强策略,通过将用户行为序列与其他序列进行对比,生成更鲁棒的表示,在文档排名中应用,取得了比现有方法显著更好的效果,展现了该方法在上下文感知文档排名方面的有效性
Aug, 2021
通过注意力机制和上下文信息评估单词背景下的信息量,该研究提出了一种用于导出关键上下文元素用于单词理解的有效方法,并探究如何将其应用于学生词汇学习和机器学习中。
Apr, 2022
本篇论文探讨了如何通过 Curriculum Learning 使用有组织的训练数据,以提高机器学习模型的性能,并在语音识别领域证明了这一方法的有效性。
Aug, 2022
本文提出了一种课程抽样策略来对原始的双编码器的不足进行改进,使得检索模型能够学习将注意力从文档扩展至文档和查询,从而获得高质量的查询知情文档表示,实验结果表明,我们的方法优于以前的密集检索方法。
Dec, 2022