该研究描述了一种将搜索为基础的结构预测算法 “Searn” 应用于无监督学习问题的方法,并展示了将无监督学习简化为监督学习的可能性,并且演示了高质量的无监督移位 - 归约分析模型,最后展示了半监督学习拓展的效果。而关键创新点是将 “自预测” 概念应用于无监督学习。
Jun, 2009
该研究提出了一种将搜索引擎文档扩展为与其内容相关或代表性术语的简单方法,并利用基于 Vanilla 序列到序列模型的数据集对其进行扩展,结合高效的重新排序组件,实现了两种检索任务的最高效结果。
Apr, 2019
本文提出了使用弱监督学习方法训练神经排序模型来解决信息检索排名问题,并通过实验结果表明,基于弱标记数据的预训练可以极大地提高神经排序模型的性能。
Apr, 2017
本研究探讨了如何利用 QGen 方法进行细粒度的相关性预测,介绍了 label-conditioned QGen 模型来区分不同等级的相关性,然而 QGen 方法仍然难以捕捉到完整的相关性标签空间,从而生成的查询与所需的相关性标签不符。
May, 2023
本文提出了无需注释的可扩展伪查询文档对训练方法,包括查询提取和转化查询生成两种。通过使用这些方法,研究展示出比其他方法更好的检索表现。
Dec, 2022
论文研究了神经排序中标记相关性判定数量巨大的问题,并提出使用弱监督来源训练排名器,然后使用过滤技术排除域外样本,实现了有效的性能改进。
Jul, 2017
本研究探讨了基于 Transformer 的 QA 模型中问题、答案和上下文的隐藏表示,并通过观察回答表示中的一致性模式来自动评估预测出的答案跨度是否正确,其方法不需要任何标记数据且优于强启发式基线,在两个数据集和七个领域上均能够达到较高准确率。
Oct, 2020
本文介绍了一种称为 Self-QA 的创新框架,利用大量无监督知识代替传统的人工撰写指导文件种子,从而生成更多正确和特定于领域的指导数据,以克服创建用于指导调整的监督配对问答数据所面临的挑战。
我们提出了一种无监督训练 QA 模型的方法,该方法使用生成的伪数据训练,为 QA 训练生成问题,通过对相关检索到的句子应用简单模板,而非原始上下文句子来实现,从而使模型能够学习更复杂的上下文问题关系。 使用这些数据训练 QA 模型可在 SQuAD 数据集上获得 14%的 F1 分数相对提高,并且在答案为命名实体时提高 20%,从而实现无监督 QA 的最新性能。
Apr, 2020
本文提出了一种基于最小二乘代理损失的方法来解决标签排名问题,并针对本方法采用了具体的特征映射 / 嵌入来转换排名 / 排列为向量表示,旨在提高结构化预测的效率和准确性,在部分排名情况下有着良好的表现。
Jul, 2018