Nov, 2023

代码模型是零 - shot 预处理推理器

TL;DR通过使用代码表示,从示范轨迹中零样本提取行动前提条件,从而提出了一种基于前提条件的行动采样策略,以确保策略预测的行动与前提条件一致,继而提升少样本策略学习方法在任务导向的对话和具体化文本世界基准测试中的性能。