O3D：用于大型语言模型的离线数据驱动发现与蒸馏的顺序决策制定

Oct, 2023

O3D：用于大型语言模型的离线数据驱动发现与蒸馏的顺序决策制定

O3D: Offline Data-driven Discovery and Distillation for Sequential Decision-Making with Large Language Models

Yuchen Xiao, Yanchao Sun, Mengda Xu, Udari Madhushani, Jared Vann...

TL;DR我们提出了一种离线学习框架，利用大规模的离线数据（如人类互动日志）来改善大型语言模型的在上下文学习性能。我们通过文本和代码的方法形式化定义了基于大型语言模型的策略，并引入了一种离线数据驱动的发现和精炼框架（O3D），以改善大型语言模型的决策能力。在两个交互式决策基准测试中的实证结果表明，O3D 可以通过离线发现和精炼过程显著提升大型语言模型的决策能力，并在基于文本和代码的策略下持续优于基准模型。

Abstract

Recent advancements in large language models (LLMs) have exhibited promising performance in solving sequential decision-making problems. By imitating few-shot examples provided in the prompts (i.e., in-context learning<

large language models in-context learning offline learning framework o3d decision-making capabilities

发现论文，激发创造

大规模语言模型的高效顺序决策

本论文提出了一种新的方法，利用在线模型选择算法在序列决策中高效地整合 LLM 代理，统计上显著优于传统决策算法和普通 LLM 代理，计算上避免了 LLM 梯度更新的高昂代价，并且在整个决策过程中只需要少量 LLM 调用。

Jun, 2024

引导式在线蒸馏：通过离线演示提升安全强化学习

安全增强学习旨在找到在满足成本约束的同时实现高回报的策略。本研究提出了一种离线到在线的安全增强学习框架，通过引导在线安全增强学习训练，将离线决策变压器策略提炼为轻量级策略网络，在挑战性的安全关键场景中成功解决决策问题。

Sep, 2023

GOLD: 通过基于超出分布引导的语言数据生成进行的泛化知识蒸馏

基于语言模型的知识蒸馏是提高语言模型的有效部署的关键。本文提出了 GOLD，一种任务无关的数据生成和知识蒸馏框架，通过迭代的超出分布引导的反馈机制来改善生成数据的泛化能力。我们在 10 个不同的分类和序列到序列任务的自然语言处理方面的广泛实验中验证了 GOLD 的优越性和对 less explored 和 novel 任务的适用性。

Mar, 2024

在线决策转换器

本文提出了基于序列建模的决策转换器（ODT）算法，该算法在离线预训练和在线调整中融合了序列级熵正则化和自回归建模目标，以实现高效的探索和调整。实验证明，在 D4RL 基准测试中，ODT 在绝对性能方面与最先进的方法具有竞争力，在微调过程中展现出更显著的提高。

Feb, 2022

探索用于多模态离域检测的大型语言模型

应用世界知识通过选择性生成大型语言模型并利用一致性基准不确定性校正方法来提高过分布检测性能，通过从每个图像提取视觉对象充分利用前述世界知识，充分实验证明本方法始终优于现有技术。

Oct, 2023

超越已知：研究 LLMs 在域外意图检测中的性能

对大规模语言模型在超出预定义领域内意图检测任务中的能力进行了综合评估，揭示了它们的优势和劣势，发现 LLMs 表现出强大的零样本和少样本能力，但与使用完整资源进行微调的模型相比仍存在劣势。通过进一步的分析实验，讨论总结了 LLMs 面临的挑战，并提出了对未来工作的指导，包括注入领域知识、加强从领域内到超领域的知识转移和理解长指令。

Feb, 2024

大型语言模型的超出分布检测能力如何？

通过对大型语言模型进行实证研究，本文发现余弦距离的异常检测器表现出卓越的效力，优于其他异常检测器，并通过强调大型语言模型嵌入空间的各向同性特征，提供了对这一现象的有趣解释，进一步增强了我们对大型语言模型在检测异常数据方面的适应性和可靠性。

Aug, 2023

多层知识蒸馏用于文本领域中的外部分布检测

本研究实现了一种多级知识蒸馏方法，将自监督学习与基于语言模型的强制学习相结合，以生成新颖的 OoD 检测方案，并在多个基准数据集上实现了最新的性能。

Nov, 2022

鉴别器指导的基于模型的离线模仿学习

该论文提出了一种基于鉴别器指导的模型辅助离线仿真学习框架，该框架采用协作对抗学习策略，能够显著提高在小数据集下的性能和鲁棒性。

Jul, 2022

重构识别领域外数据的关系

利用大型语言模型作为中介代理在 Out-of-distribution 检测任务中引入了一个新方法，称为 Concept Matching with Agent（CMA），通过使用中立的提示作为代理以增强 CLIP-based OOD 检测的鲁棒性和适应性，实现了更好的 ID 和 OOD 输入的分离和识别。

May, 2024