现场策略迭代
在传统的强化学习方法中,基于离线学习的在线策略学习是一种有希望的方法,然而其高昂的计算成本限制了其应用广度。本文提出了一种优化在线策略学习效率的 In-context Exploration-Exploitation (ICEE) 算法,通过在 Transformer 模型中在输入过程中进行探索利用的平衡策略,从而避免了昂贵的显式贝叶斯推断过程,并证明了该算法相比现有方法能以更少的训练时间学习解决新的强化学习任务。
Mar, 2024
本研究提出了 Retrieval for In-Context Learning (RetICL),一种可学习的方法,用于模拟和最佳选择逐个该如何为 in-context learning 选择任务例子。它将顺序示例选择问题作为马尔可夫决策过程,使用 LSTM 设计示例检索器模型,并使用 PPO 进行训练。我们在数学问题求解数据集上验证了 RetICL,表明它优于启发式和可学习的基线,并在 TabMWP 数据集上实现了最先进的准确性。我们还使用案例研究展示了 RetICL 隐含学习了数学问题求解策略的表示方式。
May, 2023
通过 Rewards-in-Context(RiC)的方法,本文提出了一种用于多目标对齐基础模型和人类偏好的简洁和适应性方法,并通过监督微调在推断过程中支持用户偏好的动态调整,从而在只使用大约 10% 的 GPU 时间与多目标强化学习基准相比,对齐大型语言模型(LLMs)和扩散模型以适应多样化的奖励。
Feb, 2024
通过与环境的交互实现对未知任务的概括,我们提出了一种方法 AD^ε,该方法通过人类示范的较差策略引入噪音并逐渐改进,实现了多任务环境下的增量式学习。在 Dark Room 和 Dark Key-to-Door 环境中,我们的方法相比于最佳策略改进了 2 倍。
Dec, 2023
在这篇论文中,研究人员提出了一种新的自适应上下文学习 (AICL) 方法,通过预测分类器的 Softmax 后验概率来动态调整在推断中使用的示例数,以提高文本分类任务的性能。
Mar, 2024
本研究讨论在上下文幸存者模型下自动化决策系统的离线学习问题,提出了一种通过策略改进和正则化来解决 IPWE 中参数估计不准的问题的方法。实验证明,该方法在无概率记录情况下比目前最先进的 CE 损失更准确,而在有概率记录的情况下,可以帮助我们排除混淆变量或模型规范化失误。
Jan, 2019
本研究提出一种基于预测模型的框架 PicCoLO,可将一阶模型无关强化或模仿学习算法转化为一种新的混合方法,用于优化策略,减少模型偏差及实现收敛加速。该框架通过对可预测在线学习转换为对抗学习的新颖减少方法,使得多种一阶模型无关算法的收敛速度得到提高。
Oct, 2018