关键词online fine-tuning
搜索结果 - 12
- 自适应离线到在线强化学习的剩余学习和上下文编码PDF24 days ago
- ICML线下到线上强化学习的贝叶斯设计原则PDFa month ago
- Reflect-RL: 用于语言模型的两人在线强化学习微调PDF5 months ago
- 带有部分反馈的模式估计PDF5 months ago
- MOTO:基于模型的机器人学习的离线预训练与在线微调PDF6 months ago
- 在线微调的游戏求解PDF8 months ago
- 离线至在线强化学习中的超领域规划PDF9 months ago
- SERA:离线到在线强化学习中的样本高效奖励增强PDF9 months ago
- 使用动作偏好查询提升离线强化学习PDFa year ago
- 语言模型的元学习在线适应PDFa year ago
- Cal-QL: 在线微调高效的离线校准强化学习预训练PDFa year ago
- 提升 TD3-BC:放松策略约束用于离线学习和稳定的在线微调PDF2 years ago
Prev
Next