教授机器人行走的同时也教给它们交易 —— 使用知情数据和 LLMs 进行制度自适应执行

Jun, 2024

教授机器人行走的同时也教给它们交易 —— 使用知情数据和 LLMs 进行制度自适应执行

What Teaches Robots to Walk, Teaches Them to Trade too -- Regime Adaptive Execution using Informed Data and LLMs

Raeid Saqur

TL;DR通过强化学习算法从市场反馈中动态适应迁移和协方差偏移，从而提高金融市场预测精确性，并且在现有基准任务和最近提出的任务中表现优于其他模型。

Abstract

machine learning techniques applied to the problem of financial market forecasting struggle with dynamic regime switching, or underlying correlation and covariance shifts in true (hidden) market variables. Drawing inspiration from the success of →

machine learning techniques financial market forecasting reinforcement learning adaptive policy language embeddings

发现论文，激发创造

利用大型语言模型的反馈加速机器人操控的强化学习

通过利用大型语言模型的及时反馈，Lafite-RL（语言代理反馈互动式强化学习）框架使强化学习智能体能够有效地学习机器人任务，实验结果表明，Lafite-RL 智能体在自然语言的简单提示设计下，通过大型语言模型的引导在学习效率和成功率方面优于基准模型，凸显了大型语言模型所提供的奖励的功效。

Nov, 2023

TeaMs-RL：通过强化学习教授 LLMs 更好地自我指导

通过使用增强学习直接生成基础指令数据集，TeaMs-RL 方法能够在单一微调步骤中提高大型语言模型的能力，减少人为参与需求、模型查询次数以及提高模型隐私保护能力。

Mar, 2024

真知源于实践：通过强化学习使 LLMs 与具身环境对齐

通过将大型语言模型（LLMs）作为决策制定代理部署到 RL 中，我们提出了 TWOSOME，这是一个新颖的在线框架，无需准备数据集或环境先验知识，使 LLMs 能够高效地与具体环境进行交互和对齐。在广泛的实验中，我们评估了 TWOSOME 的性能，结果表明 TWOSOME 在经典决策制定环境和模拟家庭环境中均显著提高了样本效率和性能，并展示了优越的一般化能力和原始能力的保持。

Jan, 2024

从词语到行动：揭示 LLM 驱动的自主系统的理论基础

从理论角度出发，研究大型语言模型在物理世界中解决决策问题的原因，通过层次化强化学习模型，证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习，并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。

May, 2024

基于基础模型的人机协同持续机器人学习

通过使用基于大型语言模型的规划器，我们克服了当前固定技能集的限制，提出了一种用于数据和时间高效教授机器人这些技能的方法，该系统可以重复使用新习得的技能，展示了开放世界和终身学习的潜力。

Sep, 2023

基于深度强化学习的多智能体和自适应框架开发动态投资组合风险管理

在高度动荡的金融市场环境下，本研究提出了一个自适应的多智能体框架（MASA），采用了深度学习和强化学习方法作为反应性代理，平衡投资组合的回报和潜在风险。该框架中的市场观察者代理提供了有价值的市场趋势信息，以帮助多智能体反应性学习方法快速适应不断变化的市场条件。经验证实，MASA 框架在过去 10 年的 CSI 300 指数、道琼斯工业平均指数和标准普尔 500 指数上相比其他已知基于强化学习方法的方法表现出潜在优势，并为未来的研究提供了多个可能的方向。

Feb, 2024

用大型语言模型引导机器人行走

使用自然语言处理模型（LLMs）通过少量样本来实现机器人的动态运动控制，充分展示了机器人领域中大规模预训练模型的潜力。

Sep, 2023

基于神经符号元强化学习的交易模型

本文探讨了在存在概念漂移的情况下，使用元强化学习来进行短期金融交易，并提出了使用逻辑程序归纳来发现价格序列中经常出现的符号模式，以提高元强化学习算法的性能。通过对真实数据的实验，我们发现元强化学习算法比传统的强化学习算法表现更好，并且通过学习符号特征可以提高其性能。

Jan, 2023

RLSF: 强化学习来自符号反馈

我们提出了一种名为符号反馈强化学习（RLSF）的新型训练 / 微调范式，旨在增强 LLMs 的推理能力，并通过使用证明等符号工具来提供精确的奖励信号，从而从传统方法中克服了局限性。

May, 2024

学习生成比您的 LLM 更好的结果

本研究提出了一种基于强化学习算法的语言模型微调方法，通过与动态黑盒引导语言模型（GPT-3）相互作用，比传统监督学习和 PPO 策略优化算法表现更好，尤其在语义和词汇多样性等方面的指标上有改善。

Jun, 2023