online fine-tuning | BriefGPT

关键词online fine-tuning

搜索结果 - 12

自适应离线到在线强化学习的剩余学习和上下文编码
离线强化学习通过离线数据集学习顺序行为，但实际应用中离线和在线阶段的转换动力学常常变化，所以提出了一种利用残差学习推断离线解决方案输出的动力学变化的方法，在在线微调阶段通过训练上下文编码器来学习能在当前在线学习环境中保持一致且能预测动态转换
PDF24 days ago
ICML线下到线上强化学习的贝叶斯设计原则
离线强化学习（RL）在探索可能成本高昂或不安全的真实世界应用中至关重要。然而，离线学习的策略通常是次优的，需要进一步进行在线微调。本文解决了离线到在线微调的基本困境：如果智能体保持悲观态度，可能无法学到更好的策略，而如果直接变得乐观，性能可
PDFa month ago
Reflect-RL: 用于语言模型的两人在线强化学习微调
使用在线强化学习引导反射模型辅助多轮交互决策中的预训练语言模型，通过单提示动作枚举和课程学习来提高性能。实验证实了 Reflect-RL 在在线学习中的有效性，并显示其在性能上优于通常的 SFT 和无反射的在线 RL 方法。
PDF5 months ago
带有部分反馈的模式估计
利用部分反馈对分布的模态进行估计，我们演示了熵编码如何在弱监督和主动学习中实现最佳信息获取，开发了用于模态识别的粗糙充分统计量，并将强盗算法调整到我们的新环境中。最后，将这些贡献结合到一起，实现了在统计和计算方面高效的解决方案。
PDF5 months ago
MOTO：基于模型的机器人学习的离线预训练与在线微调
我们研究了离线预训练和在线微调在实际机器人任务中从高维观测中进行强化学习的问题，通过控制认知不确定性，我们提出一种基于模型的方法，通过模型值扩展和策略规范化高效地重用先前数据，成功从像素中解决了 MetaWorld 基准和 Franka K
PDF6 months ago
在线微调的游戏求解
应用在线微调的方法解决游戏问题，在计算时间上相比基准方法仅使用了 23.54%，表明节约的规模与问题的大小成正比。
PDF8 months ago
离线至在线强化学习中的超领域规划
离线预训练与在线微调（offline-to-online 或 OtO）是与实际强化学习部署过程相匹配的范式，我们研究在线强化学习开拓问题的主要方法，其中 PTGOOD 算法在在线微调中显著提高了智能体回报，并且在少于 10k 的在线步骤中找
PDF9 months ago
SERA：离线到在线强化学习中的样本高效奖励增强
通过引入一种名为 Sample Efficient Reward Augmentation (SERA) 的广义奖励增强框架来提高在线微调的性能，SERA 通过设计鼓励探索的内在奖励，来增强在线微调表现。它隐含地实现了 State Marg
PDF9 months ago
使用动作偏好查询提升离线强化学习
本文介绍了一种称为 OAP 的无交互培训方案，该方法通过查询预先收集的、学习到的动作之间的偏好来适应性地鼓励或抑制策略限制，从而更准确地评估未见数据，实验证明 OAP 的综合实验在 D4RL 基准测试和最先进算法上具有更高的得分（平均增加
PDFa year ago
语言模型的元学习在线适应
通过元学习的方法，提出了一种称为 Context-aware Meta-learned Loss Scaling (CaMeLS) 的在线微调算法，可以显著提高大语言模型对文本知识的保留能力。
PDFa year ago
Cal-QL: 在线微调高效的离线校准强化学习预训练
本文提出了一种新颖的基于离线数据初始化的强化学习 (RL) 初始值学习框架，称作 Cal-QL，该方法可以快速优化在离线数据上学习的策略，并在探索困难的情况下进行预训练，实验证明该方法在 10/11 个测试任务中超过了现有成熟方法。
PDFa year ago
提升 TD3-BC：放松策略约束用于离线学习和稳定的在线微调
该研究探讨了如何通过 RL 和行为克隆来优化策略以在离线环境下改善性能，并且证明了通过减少 BC 的影响来在训练后调整权衡以产生经过优化的政策是可能的，并且可以用于稳定的在线微调。
PDF2 years ago