Few-Shot Bayesian Imitation Learning with Logical Program Policies

AAAIApr, 2019

Few-Shot Bayesian Imitation Learning with Logical Program Policies

Tom Silver, Kelsey R. Allen, Alex K. Lew, Leslie Pack Kaelbling, Josh Tenenbaum

TL;DR提出了一种表达逻辑组合方案的策略学习算法，该算法可以从少量样本中学习有趣的策略，具备较高的数据效率和计算效率，适用于训练数据稀缺且存在结构差异较大的任务。

Abstract

Humans can learn many novel tasks from a very small number (1--5) of demonstrations, in stark contrast to the data requirements of nearly tabula rasa deep learning methods. We propose an expressive class of policies, a strong but general prior, and a learning algorithm that, together, can learn interesting policies from very few examples. We represent polici

few-shot learning probabilistic grammar policy learning domain-specific language structured variation

发现论文，激发创造

通过迭代局部搜索进行编程策略提取

通过结合模仿投影、数据集聚合和局部搜索启发式，我们提出了一种直接提取预训练神经策略的程序化策略的简单方法，该方法在编程问题和摆动问题上实现了可解释性和高效性。

Jan, 2022

零样本模仿策略通过演示数据集搜索

使用预训练的基础模型的潜在空间索引演示数据集，通过复制类似情境中的行为来解决具有计算成本的训练过程和策略适应问题，实验结果显示该方法在准确性和知觉评估方面明显优于基于学习的模型，能在 Minecraft 环境中以人类样式表现出智能行为。

Jan, 2024

时间逻辑模仿：从演示中学习满足规划的动作策略

本文提出使用状态与运动的离散抽象方法，通过连续策略学习，基于线性时间逻辑公式以确保当前任务在无论是任务层面还是运动层面的干扰下都能顺利完成。

Jun, 2022

面向多领域和多任务对话的少样本结构化策略学习

本研究旨在探讨使用结构化政策提高在多领域和多任务环境下的强化学习样本效率。作者在测试不同结构化水平时，发现图形神经网络具有优势，且建议未来的研究应聚焦于连接人类数据、模拟器和自动评估器。

Feb, 2023

针对智能代理人自然语言交流的定期策略优化

提出一个可以通过联合推理视觉观察和语言输入来学习自然语言指令的新型策略优化算法，该训练范式提供了有效的探索和更好的泛化能力，相比现有的集成模型，我们提出的最佳模型在块世界环境中的执行错误率可以大幅降低超过 50％，同时还包括系统性的研究以展示我们 RL 算法的探索策略。

Jun, 2018

基于语言条件的语义搜索导向的机器人操作任务策略

我们提出了一种基于语言条件的语义搜索方法，从可用的示范数据集中获取在线搜索策略，在 CALVIN 基准测试中超过了基线性能，并展现了强大的零样本适应能力，对于扩展基于在线搜索策略的任务具有巨大的潜力。

Dec, 2023

POMDP 中的策略指导的逻辑规范学习：归纳逻辑编程方法

从 POMDP 执行的痕迹中学习得到高质量的启发式方法，通过转换为逻辑语义并利用数据和时间高效的归纳逻辑编程生成可解释的基于信念的策略规范，以在线方式引导 POMDP 求解器的行动选择过程。使用 Answer Set Programming (ASP) 表达的学习启发式方法展现了性能优于神经网络且与最佳手工设计的任务特定启发式方法相当的特点。

Feb, 2024

无监督从少量样本学习通用政策

此研究提出了一种替代方法来计算更具表现力的通用策略，该方法不需要样本计划或 QNP 计划程序。该方法可以用机器学习中的标准术语来描述，通过定义来自规划示例中的谓词的大但有限的功能池，并寻找用于将 “好” 与 “坏” 状态转换和目标与非目标分开的一小部分功能。然后，这将作为单个组合优化问题一起解决，用加权最大满足问题来表示。

Jan, 2021

神经逻辑强化学习

本文提出了一种名为神经逻辑强化学习（NLRL）的新算法，基于策略梯度方法和可微分归纳逻辑编程，通过一阶逻辑来表示强化学习中的策略，解决了深度神经网络难以解释和学习泛化能力低的问题。实验表明，该算法可以在不同的环境下归纳出解释性强且性能接近最优的策略。

Apr, 2019

语言瓶颈下的政策学习

现代 AI 系统如自动驾驶汽车和游戏代理实现了超人类的表现，但是通常缺乏类似人类的特征，如泛化能力、可解释性和人机互操作性。我们通过受到人类语言和决策之间丰富交互的启发，引入了 Policy Learning with a Language Bottleneck（PLLB）框架，使 AI 代理能够生成捕捉其最有回报行为背后策略的语言规则。通过在双人通信游戏、解迷任务和两个图像重构任务中展示，PLLB 代理不仅能够学习更可解释和具有泛化性的行为，而且还可以与人类用户共享所学规则，实现更有效的人机协调。

May, 2024