通过交互无悔学习实现强化学习和模仿学习
本文提出了一种新的迭代算法,该算法在在线学习环境中训练一个稳定的确定性策略,结合特定的降维假设,找到了具有良好性能的策略,克服了之前方法的一些不足,实验表明该方法在两个挑战性的仿真学习问题和基准序列标记问题上表现优异。
Nov, 2010
在模仿学习中,我们使用基于样本的方法开发了一种基于策略梯度的算法,即通过学习专家的样本轨迹,找到至少与专家策略一样好的参数化随机策略;该算法可以应用于高维度环境,并保证收敛到局部最小值。
May, 2016
论文提出了一种算法框架,称为层次性指导,旨在通过利用专家的反馈来学习序贯决策制定策略,以应对奖励稀疏和时间范围长等问题,该框架可以在不同的层次上组合不同的imitation learning和reinforcement learning,从而大大减少专家工作量和探索成本,并对该框架的某些实例的标注成本进行了理论分析。
Mar, 2018
本文提出了一种基于分歧最小化的Imitation Learning方法,即$f$-MAX,将IRL方法如GAIL和AIRL联系起来并揭示了它们的算法特性,通过期望最大化演算法来教授机器人在推手环境中进行多样化的行为。
Nov, 2019
提出了一种新的模拟学习元算法 IMPLANT,利用决策时间规划来纠正模仿策略的复合误差,从而实现比基准模仿学习方法更好的实验效果,在挑战性测试时动态运行。
Apr, 2022
该研究论文旨在通过对强化学习, 凸优化和无偏学习方法进行研究, 提出了一种新方法,即对偶RL方法,可以用于从离线偏置数据中进行无偏学习。
Feb, 2023
我们考虑上下文强化学习和模仿学习中的问题,学习者缺乏执行动作奖励的直接知识,但可以主动查询专家以比较两个动作并获得嘈杂的偏好反馈。本文提供一种算法,利用在线回归预测与函数类相关,在选择动作和决定何时查询时达到最小后悔和最小查询的目标。该算法不要求最优动作与任何子优动作在所有情境下的最小偏好知识,并且获得的后悔界限与标准上下文强化学习中观察到的奖励信号相当。此外,该算法对专家的查询次数仅为O(min{T,d^2/Δ^2})。我们还将算法扩展到模仿学习中,在每个长度为H的回合中,学习代理在未知环境中进行交互,并对后悔和查询复杂度提供类似的保证。有趣的是,我们的模仿学习算法甚至可以在专家表现不佳时超越其性能,凸显了基于偏好反馈在模仿学习中的实际优势。
Jul, 2023