语言模型作为主方程求解器
本研究提出了一种基于模型的强化学习算法,它将贝叶斯神经网络与随机展开和随机优化策略相结合,并通过最小化α-散度来训练BNNs以捕获转换动态中复杂的统计模式,解决了传统方法容易失误的多模态和异方差问题,并在控制燃气轮机的真实场景中获得了有希望的结果。
May, 2016
本文演示了通过对结构适当的逐步演示进行自回归语言模型(GPT-Neo)的微调,可以教授它执行以前对Transformers难以处理的数学任务(如笔算模态运算)。通过对解决长除法问题的200个结构适当的演示进行Fine-tuning,可以在不更改学习算法的情况下,使最小的GPT-Neo模型实现超过80%的准确性,这表明在小型的数据集上进行充分的微调和完善的演示可能是帮助没有机器学习培训的个人让这些模型执行某些复杂多步骤任务的有用范例。
Sep, 2021
利用机器学习中的泛化功能,我们研究如何学习政策,使典型代理能够针对任何人口分布表现最佳。我们提出了一种方法来学习这样的Master策略,并且证明了单个Master策略提供了纳什均衡。我们的方法基于三个方面:将当前人口分布添加为观察的一部分,使用神经网络逼近Master策略,使用强化学习和虚拟博弈进行训练。我们通过数值示例展示了所学习的Master策略的高效性以及其超越训练中使用的分布的推广能力。
Sep, 2021
通过 Language Dynamics Distillation (LDD) 方法,将语言展示与环境相结合,通过强化学习预训练模型来预测语言关系,从而提高样本效率以及跨环境的泛化能力。
Sep, 2022
本文提出了一种使用神经随机微分方程学习控制动力学模型的框架和算法,能够构建模型预测控制算法以及模型基的增强学习领域中的仿真器,在模拟机器人系统中得到良好的应用。
Jun, 2023
通过使用大规模语言模型,我们提出了一种新的框架,通过从语言模型教师代理接收指导行为,训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中,该学生代理可以用较少的数据进行训练,并通过环境反馈进一步提升其能力。实验结果表明,我们的方法提高了样本效率,并实现了比基准方法更卓越的性能。
Nov, 2023
预训练的大型语言模型(LLMs)在进行零-shot任务(包括时间序列预测)时表现出惊人的效果,本文研究了LLMs在从事受物理规律控制的动力系统情景下外推行为的能力,结果显示LLaMA2在无需微调或提示工程的情况下能准确预测动力系统时间序列,此外,学习到的物理规律的准确性随输入环境窗口长度的增加而增加,揭示了一种上下文版本的神经缩放定律,并提出了一种灵活高效的算法,可直接从LLMs中提取多位数的概率密度函数。
Feb, 2024
我们提出了LARL-RM算法,利用自动机将高层知识编码到强化学习中,以加速强化学习过程,同时使用大型语言模型通过提示工程来获取高层领域特定知识,避免了需要专家编码自动机的问题,且能够在无需专家指导和监督下进行全闭环强化学习,我们还展示了算法收敛到最优策略的理论保证,并通过两个案例研究实现了30%的加速收敛。
Feb, 2024
通过表示编辑的方法,提出了一种通过在预训练的自回归大型语言模型上引入外部控制信号,以实现特定目标对齐的方法,实验证明该方法在测试时间上优于现有的测试时间对齐技术,并且相对于微调方法需要较少的资源。
Jun, 2024
我们提出并比较了用于连续时间异质主体经济与总量冲击的新全局解算法。我们首先通过近似代理分布来描述经济的平衡,这使得我们可以将其刻画为一个高维非线性偏微分方程。我们考虑不同的近似方法:离散代理数量、离散代理状态变量以及将分布投影到有限基函数集上。其次,我们使用神经网络来表示值函数,并使用深度学习工具训练该函数以解决微分方程。我们将该解决方案称为经济模型信息神经网络(EMINN)。该技术的主要优势在于可以找到高维非线性问题的全局解。我们通过解决宏观经济学和空间文献中的重要模型(例如Krusell和Smith(1998),Khan和Thomas(2007),Bilal(2023))来展示我们的算法。
Jun, 2024