Oct, 2023

O3D:用于大型语言模型的离线数据驱动发现与蒸馏的顺序决策制定

TL;DR我们提出了一种离线学习框架,利用大规模的离线数据(如人类互动日志)来改善大型语言模型的在上下文学习性能。我们通过文本和代码的方法形式化定义了基于大型语言模型的策略,并引入了一种离线数据驱动的发现和精炼框架(O3D),以改善大型语言模型的决策能力。在两个交互式决策基准测试中的实证结果表明,O3D 可以通过离线发现和精炼过程显著提升大型语言模型的决策能力,并在基于文本和代码的策略下持续优于基准模型。