交互式系统的全语料端到端探索
本文介绍一种采用探索和模仿学习的代理程序,能够在玩基于文本的电脑游戏时表现出最先进的性能。该方法使用 Go-Explore 探索方法以及模仿学习策略去训练模型,实现了更高效的解决文本游戏和更强的泛化能力。
Jan, 2020
本论文利用领域随机化方法针对强化学习与交互式信息检索技术之间的样本低效性问题,提高其学习效率并在TREC Dynamic Domain(DD) 2017跑道实验中,有效地提高RL智能体在处理未见过情况时的效能22%。
Jun, 2020
本文介绍了设计搜索代理的成功步骤,通过机器学习元策略来迭代查询精细化。文章提出了一种新颖的方法,使用机器阅读辅助挑选查询结果的精炼术语,使代理能够通过简单而有效的搜索操作对查询和搜索结果进行细粒度和透明的控制。通过自主学习,利用基于Transformer的语言模型来生成综合搜索会话,并介绍了一种强化学习代理,其具有动态限制的动作,可以从零开始学习交互式搜索策略。我们的搜索代理只使用传统的基于词项的BM25排名函数和可解释的离散筛选和筛选操作,即可达到与最新的神经方法相当的检索和答案质量性能。
Sep, 2021
本文提出了一种基于马尔科夫决策过程的演员-评论家强化学习算法,教会自动代理程序如何在开放领域搜索实体之间的多跳路径,并且在处理较少文档的同时仍能找到所需信息,相比几个基线启发式算法表现更优秀。
May, 2022
文中探讨了研究本质激励代理在文本环境中探索的机遇和挑战,并认为文本环境及自主代理之间具有重要的协同作用,提出文本世界适合自主代理探索的关键特性包括深度、广度、进步利基以及语言目标易用性,认为实现这些驱动器对可实现文本世界探索自主代理是有帮助的,并列举了需要在该领域克服的一些具体挑战。
Jul, 2022
本文主要研究的是学习搜索领域中,通过基于符号的查询重构策略组合基于词项的传统检索来学习人工智能搜索引擎检索的能力,同时也拓展到了混合检索环境来进行离散查询操作,本文的实验证明了在这种混合环境下,基于 HRE 的搜索代理在 BEIR 任务中优于传统方法。
Sep, 2022
提出了一种名为ELLM(LLM探索)的方法,它利用来自文本语料库的背景知识来塑造探索,通过利用大规模语言模型预训练,无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向,通过在Crafter游戏环境和Housekeep机器人模拟器中的实验,证明了ELLM训练的代理在预训练期间具有更好的常识行为覆盖,并且在一系列下游任务中通常与或优于性能。
Feb, 2023
基于交互反馈进行交互式搜索可以显著提高搜索准确性,而现有最先进系统中,强化学习模型主要通过项级反馈进行交互,忽略了句子级反馈的细粒度信息。本文提出了一种新的基于深度Q学习的方法DQrank,通过适应自然语言处理方面最先进的BERT模型,根据用户参与度选择关键句子并进行更满意的响应。我们还提出了两种机制来更好地探索优化动作。DQrank进一步利用DQ中的经验回放机制来存储反馈句子,以获得更好的初步排名性能。我们在三个搜索数据集上验证了DQrank的有效性,结果显示DQrank的性能至少比之前的最先进强化学习方法提高了12%。我们还进行了详细的消融研究,消融结果表明每个模型组件都能高效地提取和累积用户句子级反馈的长期参与效果,该结构为构建具有句子级交互的搜索系统提供了有性能保证的新技术。
Oct, 2023
针对传统搜索系统在产品搜索等场景中面临的挑战,本研究介绍了一种用于智能网页交互的基于语言模型和强化学习的框架,名为GLAINTEL。GLAINTEL通过引入基于transformer模型的Flan-T5架构,结合语言建模和价值评估模块,实现了对网页环境中搜索能力的增强。通过系统评估不同场景下的训练效果,发现在无人示范的情况下,无监督学习方法的效果优于行为克隆方法,同时将人类示范与强化学习相结合的模型效果与使用GPT-4模型的结果相当。
Apr, 2024