- OmniSearchSage: Pinterest 搜索的多任务多实体嵌入
OmniSearchSage 是一个可扩展且适用于 Pinterest 搜索的多功能系统,通过统一查询嵌入与钉子和产品嵌入的联合学习,使 Pinterest 的生产搜索系统的相关性提高了 8% 以上,参与度提高了 7% 以上,广告点击率提高 - 搜索查询的语义领域产品识别
通过用户行为数据培训产品分类器的新方法,在搜索查询中准确地显式和隐式识别产品对于增强用户体验至关重要。我们的语义模型导致已部署的界面的 CTR(点击率)相对改进超过 25%;空查询率下降超过 50%;展现的应用程序卡数量增加了 2 倍,有助 - 响应增强的半监督对话查询生成
提出了一种半监督学习框架 SemiDQG,通过使用未标注的对话数据来改进模型性能,使用类似度选择策略选取高质量伪查询进一步训练模型,并采用 REINFORCE 算法作为精细化训练信号,实验结果表明该框架在跨领域和资源有限场景中具有显著优势。
- EMNLP面向开放领域知识驱动对话的社交常识引导搜索查询生成
通过整合主题跟踪、常识回答生成和指令驱动的查询生成,我们的研究提出了一种新的方法来生成由社交常识引导的互联网搜索查询,在 passsive 用户交互中能够生成相关、具体和有吸引力的搜索查询,从而提供更加引人入胜的回应。
- Thistle:Rust 编写的向量数据库
Thistle 是一个功能完备的向量数据库,使用多个著名算法,在 MS MARCO 数据集上进行基准测试。结果有助于澄清潜在知识领域和不断壮大的 Rust ML 生态系统。
- EMNLPCOVID-19 疫苗搜索分类的稠密特征记忆增强 Transformers
本文提出一种监测 COVID-19 疫苗相关搜索的分类模型,该模型结合了现代最先进的自然语言理解 (NLU) 技术和传统的密集特征,并通过将密集特征视为内存令牌进行了改进,相对于梯度提升基线,在 F1 得分和精度方面实现了 + 15%和 + - 利用离线增强学习的可适应声明重写方法,有效发现误信息
介绍了一种基于离线强化学习的查询重写策略,以帮助事实核查员在多个社交媒体平台上进行有效的搜索,实验证明该方法能够将查询的效力相对提高达 42% 同时也具有可读性。
- 基于无监督领域自适应的方言搜索查询翻译
该研究提出了一种无监督领域适应方法,用于翻译搜索查询,使用了基于公共语料库训练的开放领域翻译模型,并使用两种语言的单语查询来调整该模型以适应查询数据,最终改进了 Hindi 到英文查询翻译的性能。
- KDD多任务学习的单模型多国流感预测
本研究利用多任务学习,建立了一种针对多个国家的流感预测模型,并提出了解决搜索查询和如何有效地利用搜索查询的问题的方法。实验表明,与基准组相比,我们的模型通过利用搜索查询和多任务学习显著提高了流行性感冒预测的性能。
- APRF-Net: 基于注意力机制的伪相关反馈网络用于查询分类
本文提出了一种名为 APRF-Net 的神经模型,将伪相关反馈(PRF)方法应用于查询分类中,以改善较为罕见的查询的表现,通过实验结果表明,这种模型可以显著提高查询分类效果。
- WWW通过强化学习来控制会话式搜索的风险
提出了一种风险感知的对话式搜索代理模型,平衡了回答用户查询和提出澄清问题的风险,并通过强化学习策略在 MSDialog 数据集上得到了比非风险感知基线更好的结果。
- MIMICS: 用于搜索澄清的大规模数据收集
本文介绍了 MIMICS 数据集,它包含三个数据子集,包括超过 400k 条实际网页搜索查询,每个查询都有一个或多个澄清问题和最多五个备选答案,其中一个包含超过 2k 条已经由至少 3 个训练有素的注释者手动标记的查询 - 澄清配对,MIM - SIGIR分析和学习用户交互以进行搜索澄清
本文研究了在搜索引擎中使用澄清问题以揭示查询意图的用户交互,并提出了一种基于用户交互数据的学习表示澄清问题的模型,用于重新排列自动生成的澄清问题,同时在点击数据和人工标注数据上进行评估,展示了提出方法的高质量。
- 识别符合语法的自然语言问题
介绍了识别自然语言问题是否良好形式的任务并构建 / 发布了一个包含 25,100 个公共问题的数据集。对测试集的准确率为 70.7%。 并展示了分类器可用于提高基于神经网络的序列到序列模型生成阅读理解问题的性能。