高效即时搜索的深度强化学习智能体

Mar, 2022

高效即时搜索的深度强化学习智能体

Deep Reinforcement Agent for Efficient Instant Search

Ravneet Singh Arora, Sreejith Menon, Ayush Jain, Nehil Jain

TL;DR本研究提出了一种基于强化学习的方法来解决实时搜索中高负载问题，并通过评估框架验证了其在搜索效果和性能上的优越性。

Abstract

instant search is a paradigm where a search system retrieves answers on the fly while typing. The naïve implementation of an instant search

instant search search system retrieval reinforcement learning performance

发现论文，激发创造

交互代理增强搜索引擎

本文介绍了设计搜索代理的成功步骤，通过机器学习元策略来迭代查询精细化。文章提出了一种新颖的方法，使用机器阅读辅助挑选查询结果的精炼术语，使代理能够通过简单而有效的搜索操作对查询和搜索结果进行细粒度和透明的控制。通过自主学习，利用基于 Transformer 的语言模型来生成综合搜索会话，并介绍了一种强化学习代理，其具有动态限制的动作，可以从零开始学习交互式搜索策略。我们的搜索代理只使用传统的基于词项的 BM25 排名函数和可解释的离散筛选和筛选操作，即可达到与最新的神经方法相当的检索和答案质量性能。

Sep, 2021

任务导向的强化学习查询重构

介绍了一种基于神经网络的查询重构系统，使用强化学习训练神经网络，动作是选择术语以建立重构查询，回报是文档召回率，我们在三个数据集上评估了我们的方法，相对 Recall 方面有 5-20% 的改进。此外，我们提供了一种简单方法来估算模型在特定环境中的保守上限性能，并验证存在很大的改进空间。

Apr, 2017

通过自然语言指导的语义探索提高深度强化学习的效率

用检索式方法通过神经网络编码，选择性、高效地与 oracle 进行交互，并使用 oracle 的答案更新 agent 的策略和值函数，从而在强化学习任务中大幅提高效率。

Sep, 2023

一种以强化学习为驱动的面向搜索型对话系统的翻译模型

本研究提出了一种基于强化学习的翻译模型框架，该模型以关键字为基础，能够理解使用自然语言表示的信息需求，并通过注入相关反馈，采用单词选择方法来克服缺乏大规模数据集的问题。实验表明，该方法在两个 TREC 数据集上的有效性得到了证明。

Aug, 2018

超越查询：通过强化学习训练更小的语言模型进行网络交互

针对传统搜索系统在产品搜索等场景中面临的挑战，本研究介绍了一种用于智能网页交互的基于语言模型和强化学习的框架，名为 GLAINTEL。GLAINTEL 通过引入基于 transformer 模型的 Flan-T5 架构，结合语言建模和价值评估模块，实现了对网页环境中搜索能力的增强。通过系统评估不同场景下的训练效果，发现在无人示范的情况下，无监督学习方法的效果优于行为克隆方法，同时将人类示范与强化学习相结合的模型效果与使用 GPT-4 模型的结果相当。

Apr, 2024

使用深度强化学习生成高质量的相关搜索查询建议

利用强化学习技术的深度学习模型预测用户下一个搜索词并依据长期会话反馈、语法相关性以及生成查询的自然度等奖励信号对高质量且多样化的相关搜索查询进行推荐。相对于基线监督模型，我们提出的方法在推荐的多样性、用户参与度和每个句子重复词的数量方面都有显著的相对改进（3％、4.2％和 82％）。

Aug, 2021

基于搜索智能体和混合环境的零次检索

本文主要研究的是学习搜索领域中，通过基于符号的查询重构策略组合基于词项的传统检索来学习人工智能搜索引擎检索的能力，同时也拓展到了混合检索环境来进行离散查询操作，本文的实验证明了在这种混合环境下，基于 HRE 的搜索代理在 BEIR 任务中优于传统方法。

Sep, 2022

使用强化学习优化 Web 搜索的查询评估

本研究将匹配规划问题视为强化学习任务，通过使用静态设计的匹配计划选择候选文档集，可实现最多 20% 的索引块访问减少，而不降低候选集的质量。

Apr, 2018

一种基于深度强化学习的句子级交互式搜索方法

基于交互反馈进行交互式搜索可以显著提高搜索准确性，而现有最先进系统中，强化学习模型主要通过项级反馈进行交互，忽略了句子级反馈的细粒度信息。本文提出了一种新的基于深度 Q 学习的方法 DQrank，通过适应自然语言处理方面最先进的 BERT 模型，根据用户参与度选择关键句子并进行更满意的响应。我们还提出了两种机制来更好地探索优化动作。DQrank 进一步利用 DQ 中的经验回放机制来存储反馈句子，以获得更好的初步排名性能。我们在三个搜索数据集上验证了 DQrank 的有效性，结果显示 DQrank 的性能至少比之前的最先进强化学习方法提高了 12%。我们还进行了详细的消融研究，消融结果表明每个模型组件都能高效地提取和累积用户句子级反馈的长期参与效果，该结构为构建具有句子级交互的搜索系统提供了有性能保证的新技术。

Oct, 2023

深度强化学习在赞助搜索实时竞价中的应用

本文提出了一种基于强化学习的方法解决了在线广告拍卖中的实时竞标问题，特别是在搜索广告拍卖中针对多关键字的竞标策略提出了一个控制模型。

Mar, 2018