高效即时搜索的深度强化学习智能体
本文介绍了设计搜索代理的成功步骤,通过机器学习元策略来迭代查询精细化。文章提出了一种新颖的方法,使用机器阅读辅助挑选查询结果的精炼术语,使代理能够通过简单而有效的搜索操作对查询和搜索结果进行细粒度和透明的控制。通过自主学习,利用基于 Transformer 的语言模型来生成综合搜索会话,并介绍了一种强化学习代理,其具有动态限制的动作,可以从零开始学习交互式搜索策略。我们的搜索代理只使用传统的基于词项的 BM25 排名函数和可解释的离散筛选和筛选操作,即可达到与最新的神经方法相当的检索和答案质量性能。
Sep, 2021
介绍了一种基于神经网络的查询重构系统,使用强化学习训练神经网络,动作是选择术语以建立重构查询,回报是文档召回率,我们在三个数据集上评估了我们的方法,相对 Recall 方面有 5-20% 的改进。此外,我们提供了一种简单方法来估算模型在特定环境中的保守上限性能,并验证存在很大的改进空间。
Apr, 2017
用检索式方法通过神经网络编码,选择性、高效地与 oracle 进行交互,并使用 oracle 的答案更新 agent 的策略和值函数,从而在强化学习任务中大幅提高效率。
Sep, 2023
本研究提出了一种基于强化学习的翻译模型框架,该模型以关键字为基础,能够理解使用自然语言表示的信息需求,并通过注入相关反馈,采用单词选择方法来克服缺乏大规模数据集的问题。实验表明,该方法在两个 TREC 数据集上的有效性得到了证明。
Aug, 2018
针对传统搜索系统在产品搜索等场景中面临的挑战,本研究介绍了一种用于智能网页交互的基于语言模型和强化学习的框架,名为 GLAINTEL。GLAINTEL 通过引入基于 transformer 模型的 Flan-T5 架构,结合语言建模和价值评估模块,实现了对网页环境中搜索能力的增强。通过系统评估不同场景下的训练效果,发现在无人示范的情况下,无监督学习方法的效果优于行为克隆方法,同时将人类示范与强化学习相结合的模型效果与使用 GPT-4 模型的结果相当。
Apr, 2024
利用强化学习技术的深度学习模型预测用户下一个搜索词并依据长期会话反馈、语法相关性以及生成查询的自然度等奖励信号对高质量且多样化的相关搜索查询进行推荐。相对于基线监督模型,我们提出的方法在推荐的多样性、用户参与度和每个句子重复词的数量方面都有显著的相对改进(3%、4.2%和 82%)。
Aug, 2021
本文主要研究的是学习搜索领域中,通过基于符号的查询重构策略组合基于词项的传统检索来学习人工智能搜索引擎检索的能力,同时也拓展到了混合检索环境来进行离散查询操作,本文的实验证明了在这种混合环境下,基于 HRE 的搜索代理在 BEIR 任务中优于传统方法。
Sep, 2022
基于交互反馈进行交互式搜索可以显著提高搜索准确性,而现有最先进系统中,强化学习模型主要通过项级反馈进行交互,忽略了句子级反馈的细粒度信息。本文提出了一种新的基于深度 Q 学习的方法 DQrank,通过适应自然语言处理方面最先进的 BERT 模型,根据用户参与度选择关键句子并进行更满意的响应。我们还提出了两种机制来更好地探索优化动作。DQrank 进一步利用 DQ 中的经验回放机制来存储反馈句子,以获得更好的初步排名性能。我们在三个搜索数据集上验证了 DQrank 的有效性,结果显示 DQrank 的性能至少比之前的最先进强化学习方法提高了 12%。我们还进行了详细的消融研究,消融结果表明每个模型组件都能高效地提取和累积用户句子级反馈的长期参与效果,该结构为构建具有句子级交互的搜索系统提供了有性能保证的新技术。
Oct, 2023