本文探讨了多任务强化学习中一种范例,即在一个固定的环境中进行一系列任务的学习,介绍了一种共享结构模型,在状态-动作值空间中联合学习优化价值函数,从而提高数据效率并获得更健壮、更具潜力的可传递表征。
Mar, 2016
本文首次从理论上研究了使用多任务表示学习来提高勘探性无奖励多任务强化学习中多个任务的样本效率,并证明了它比单独学习每个任务更加样本高效。此外,我们还研究了下游强化学习,并表明与直接学习低秩模型有所不同的是,从上游学习的表示更有利于下游强化学习。
Jun, 2022
本文提供一种以人类在强化学习中的角色为基础的算法框架,旨在从理论角度解决设计有效的奖励函数的问题。我们提供了一种主动学习的RL算法,通过仅在某些状态动作对上询问少量关于任务奖励的问题,保证以高概率提供几乎最优的任务策略。
Apr, 2023
研究提出了一种有效的轨迹对采样方法,用于探索隐藏的奖励函数,以便在收集人类反馈之前准确地学习,比现有文献更少地需要人类反馈量来学习基于偏好模型的最优策略,可以考虑线性和低秩MDP
May, 2023
多任务强化学习在马尔可夫决策过程中的应用揭示了共享潜在结构可以显著提高对样本的利用效率,并探讨了在部分可观察的MDPs和预测状态表示中这种好处是否能扩展。
Oct, 2023
利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持,本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界,提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法,并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。
Dec, 2023
从人类反馈中进行强化学习是使大型语言模型能够有效地遵循指令并产生有用辅助的关键进展,通过使用注意力权重重新分配奖励以高亮最重要的标记,它在稳定训练、加快学习速度和实现更好的局部最优解方面展现了实证优势。
Feb, 2024
通过模型化部分观察到的奖励状态对强化学习从人类反馈中进行建模,并通过减少基于人类反馈的两种主要形式(基数反馈和对战反馈)到部分观测到的奖励状态强化学习的归约,来提出了有效的统计算法。
通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础,重点关注了奖励模型作为RLHF核心组件的建模选择、函数逼近的陷阱,以及它们对训练算法的影响,同时揭示了当前方法的局限性。通过对现有文献的分类评论,我们对RLHF的挑战进行了描述,为研究人员和从业者理解RLHF的挑战并建立在现有研究的基础上提供参考。
Apr, 2024
本研究解决了现有基于人类反馈的强化学习在长序列中的信用分配问题,导致学习效率低下。提出的MA-RLHF框架引入宏操作,显著减少了操作与奖励之间的时间距离,从而提升了学习效率和政策梯度的稳定性。本方法在文本摘要、对话生成等任务中表现优异,相较传统方法性能提升达30%,训练速度提高至1.7倍甚至2倍。
Oct, 2024