Oct, 2023
O3D:用于大型语言模型的离线数据驱动发现与蒸馏的顺序决策制定
O3D: Offline Data-driven Discovery and Distillation for Sequential Decision-Making with Large Language Models
Yuchen Xiao, Yanchao Sun, Mengda Xu, Udari Madhushani, Jared Vann...
TL;DR我们提出了一种离线学习框架,利用大规模的离线数据(如人类互动日志)来改善大型语言模型的在上下文学习性能。我们通过文本和代码的方法形式化定义了基于大型语言模型的策略,并引入了一种离线数据驱动的发现和精炼框架(O3D),以改善大型语言模型的决策能力。在两个交互式决策基准测试中的实证结果表明,O3D 可以通过离线发现和精炼过程显著提升大型语言模型的决策能力,并在基于文本和代码的策略下持续优于基准模型。