教授机器人行走的同时也教给它们交易 —— 使用知情数据和 LLMs 进行制度自适应执行
通过利用大型语言模型的及时反馈,Lafite-RL(语言代理反馈互动式强化学习)框架使强化学习智能体能够有效地学习机器人任务,实验结果表明,Lafite-RL 智能体在自然语言的简单提示设计下,通过大型语言模型的引导在学习效率和成功率方面优于基准模型,凸显了大型语言模型所提供的奖励的功效。
Nov, 2023
通过使用增强学习直接生成基础指令数据集,TeaMs-RL 方法能够在单一微调步骤中提高大型语言模型的能力,减少人为参与需求、模型查询次数以及提高模型隐私保护能力。
Mar, 2024
通过将大型语言模型(LLMs)作为决策制定代理部署到 RL 中,我们提出了 TWOSOME,这是一个新颖的在线框架,无需准备数据集或环境先验知识,使 LLMs 能够高效地与具体环境进行交互和对齐。在广泛的实验中,我们评估了 TWOSOME 的性能,结果表明 TWOSOME 在经典决策制定环境和模拟家庭环境中均显著提高了样本效率和性能,并展示了优越的一般化能力和原始能力的保持。
Jan, 2024
从理论角度出发,研究大型语言模型在物理世界中解决决策问题的原因,通过层次化强化学习模型,证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习,并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。
May, 2024
通过使用基于大型语言模型的规划器,我们克服了当前固定技能集的限制,提出了一种用于数据和时间高效教授机器人这些技能的方法,该系统可以重复使用新习得的技能,展示了开放世界和终身学习的潜力。
Sep, 2023
在高度动荡的金融市场环境下,本研究提出了一个自适应的多智能体框架(MASA),采用了深度学习和强化学习方法作为反应性代理,平衡投资组合的回报和潜在风险。该框架中的市场观察者代理提供了有价值的市场趋势信息,以帮助多智能体反应性学习方法快速适应不断变化的市场条件。经验证实,MASA 框架在过去 10 年的 CSI 300 指数、道琼斯工业平均指数和标准普尔 500 指数上相比其他已知基于强化学习方法的方法表现出潜在优势,并为未来的研究提供了多个可能的方向。
Feb, 2024
本文探讨了在存在概念漂移的情况下,使用元强化学习来进行短期金融交易,并提出了使用逻辑程序归纳来发现价格序列中经常出现的符号模式,以提高元强化学习算法的性能。通过对真实数据的实验,我们发现元强化学习算法比传统的强化学习算法表现更好,并且通过学习符号特征可以提高其性能。
Jan, 2023
我们提出了一种名为符号反馈强化学习(RLSF)的新型训练 / 微调范式,旨在增强 LLMs 的推理能力,并通过使用证明等符号工具来提供精确的奖励信号,从而从传统方法中克服了局限性。
May, 2024
本研究提出了一种基于强化学习算法的语言模型微调方法,通过与动态黑盒引导语言模型(GPT-3)相互作用,比传统监督学习和 PPO 策略优化算法表现更好,尤其在语义和词汇多样性等方面的指标上有改善。
Jun, 2023