交互式信息检索中的强化学习训练经验平衡

SIGIRJun, 2020

交互式信息检索中的强化学习训练经验平衡

Balancing Reinforcement Learning Training Experiences in Interactive Information Retrieval

Limin Chen, Zhiwen Tang, Grace Hui Yang

TL;DR本论文利用领域随机化方法针对强化学习与交互式信息检索技术之间的样本低效性问题，提高其学习效率并在 TREC Dynamic Domain (DD) 2017 跑道实验中，有效地提高 RL 智能体在处理未见过情况时的效能 22%。

Abstract

interactive information retrieval (IIR) and reinforcement learning (RL) share many commonalities, including an agent who learns while interacts, a long-term and complex goal, and an algorithm that explores and ad

interactive information retrieval reinforcement learning sample inefficiency domain randomization text retrieval conference

发现论文，激发创造

文本摘要的逆强化学习

本研究使用反向强化学习的方法构建了一个文本摘要模型，通过同时评估摘要代理的奖励函数和优化，我们证明该模型在诸多评测标准中优于 MLE 和 RL 基线模型。

Dec, 2022

深度学习相应：创造相关信息（与检索不同）

论文研究了信息检索系统不仅可以检索与查询相关的信息，而且可以将其 “理解” 并综合成一个单一的文档，使用递归神经网络进行深度学习来人工合成文档，通过众包实验评估文档的相关性。

Jun, 2016

通过元反强化学习学习意图的先验知识

本文通过学习先验 (prior) 函数从其他任务的演示中推断奖励函数 (reward functions)，以优化从有限的演示中推断表达丰富的奖励函数的能力，并演示了该方法可以有效地从图像中恢复新任务的奖励。

May, 2018

逆强化学习实现多样文本生成

本论文针对文本生成中奖励稀疏和模式崩溃等问题，提出采用反强化学习方法实现文本生成，即通过学习在训练数据上的奖励函数和最大化预期总奖励的最优策略函数，将奖励和策略函数进行优化，实验结果表明该方法较之前的方法可以生成更高质量的文本。

Apr, 2018

具有概率上下文变量的元反强化学习

研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数，从而有效地解决逆强化学习中从少量演示推断奖励的问题，并在多个连续控制任务中展示了实验结果。

Sep, 2019

信息导向的强化学习奖励学习

使用基于贝叶斯模型的信息导向方法进行强化学习，通过最大化不同策略间回报差异的信息增益来选择专家反馈以提高政策性能。

Feb, 2021

从摘要数据中进行反向强化学习

该论文介绍了一种新的逆向强化学习方法，该方法不需要对数据进行特定的简化假设，可以在不确定简化函数的情况下进行推理和评估参数不确定性。

Mar, 2017

为提高文档摘要中的强化学习效率而进行的奖励学习

提出了一种新的基于强化学习的文档摘要算法 ——RELIS，它采用学习排序算法训练奖励函数，并在测试时使用该奖励函数来训练输入特定的强化学习策略，相比当下最先进的模型能够将训练时间缩短两个数量级并保持同样的性能，适用于多文档摘要。

Jul, 2019

基于聚合数据的对抗性模仿学习

通过使用聚合数据上的对抗性模仿学习，我们提出了一种名为 Adversarial Imitation Learning on Aggregated Data (AILAD) 的动态自适应方法，可以同时学习非线性奖励函数和相关的最优策略，并且生成多样化的行为来匹配专家数据的分布。

Nov, 2023

程序化生成环境下高效演示逆强化学习

通过有限集的初始种子和一些训练稳定的修改，我们提出了一种基于对抗性反向强化学习的技术，名为 DE-AIRL，该技术能够显著减少对专家演示的需求，并仍能够将回报函数外推到完全程序化域，我们在 MiniGrid 和 DeepCrawl 的两个程序化环境中展示了我们的技术的有效性。

Dec, 2020