BriefGPT.xyz
大模型
Ask
alpha
关键词
expert guidance
搜索结果 - 3
利用大型语言模型的反馈加速机器人操控的强化学习
通过利用大型语言模型的及时反馈,Lafite-RL(语言代理反馈互动式强化学习)框架使强化学习智能体能够有效地学习机器人任务,实验结果表明,Lafite-RL 智能体在自然语言的简单提示设计下,通过大型语言模型的引导在学习效率和成功率方面优
→
PDF
8 months ago
KDD
整合专家指导的疫情预测
利用 AI 安全中的 Seldonian 优化框架,我们提出了一种新的流感样疾病预测方法,其可以系统地结合专家反馈和指导,以达到更好的预测效果,并且在测试数据上能够将均方根误差减少多达 17%。
PDF
4 years ago
AAAI
基于软件导师的不完美演示强化学习
本文研究了强化学习的探索效率问题。提出了一种基于专家演示的强化学习方法,通过将专家指导视为对智能体政策探索的软约束,最终转化为一个约束优化问题,并采用局部线性搜索来高效解决。在广泛的基准测试中,我们的方法比其他方法获得了更好的结果。
PDF
5 years ago
Prev
Next