通过任务时间逻辑和深度强化学习实现系统化概括

Jun, 2020

通过任务时间逻辑和深度强化学习实现系统化概括

Systematic Generalisation through Task Temporal Logic and Deep Reinforcement Learning

Borja G. León, Murray Shanahan, Francesco Belardinelli

TL;DR介绍了一种将深度强化学习与时间逻辑相结合的神经符号代理，以实现形式化规定指令的系统性零射 (就是指未曾见过的情况)。研究证明，卷积层的架构在泛化新指令时发挥了关键作用，并证明通过学习少量训练样例，可以从抽象操作符中实现系统化的学习。

Abstract

This work introduces a neuro-symbolic agent that combines deep reinforcement learning (DRL) with temporal logic (TL) to achieve systematic zero-shot, i.e., never-seen-before, generalisation of formally specified

neuro-symbolic deep reinforcement learning temporal logic systematic learning convolutional layers

发现论文，激发创造

面向任务驱动的探索，加速具有时态逻辑任务规范的深度强化学习

通过自动机表示 LTL 任务以及部分模拟未知系统动力学的神经网络，我们提出了一种新颖的深度强化学习（DRL）算法，其样本效率得以提高，能够更快速地学习控制策略，以在未知环境中的机器人导航任务中提高效率。

Nov, 2023

多任务深度强化学习中的零样本任务泛化

在强化学习中，我们介绍了一种新的强化学习问题，其中代理需要在学习解决子任务的有用技能后学习执行指令序列。我们考虑到先前未见的指令和更长的指令序列的泛化，为此，我们提出了一种基于类比的新目标和一个层次结构架构，并提出了一个新的神经网络架构来解决延迟奖励问题，实验结果表明这些提议对于泛化到较长指令序列以及未见指令是至关重要的。

Jun, 2017

将公式编码为深度网络：强化学习用于零摆脱地执行 LTL 公式

该论文介绍了一种使用组合递归神经网络、输入为 LTL 公式的强化学习智能体，能够确定满足的行动，并且表现出了零 - shot 泛化的能力，它可以操作不同的任务而无需重新培训。

Jun, 2020

深度符号强化学习

该研究提出了一个神经和符号端到端强化学习架构，能够克服当前深度学习技术的局限性，如需要非常大的数据集工作、难以实现高级认知功能和透明性欠佳等。研究者以简单的视频游戏为例，展示了这个架构的实现原型，结果表明它能够有效地学习，并通过获得一组符号规则，可将性能提高到比传统完全神经强化学习系统更好的水平。

Sep, 2016

具有时态逻辑奖励的强化学习

本文提出了 Truncated Linear Temporal Logic (TLTL) 以及与之相应的鲁棒性度量作为奖励函数的强化学习方法，用以解决机器人应用中复杂任务的学习问题。在仿真实验和 Baxter 机器人的任务中，表现出了优异的鲁棒性能。

Dec, 2016

一阶逻辑中的神经符号强化学习

为了在文本角色扮演游戏中实现快速收敛和可解释的知识表示，我们提出了一种新的基于逻辑神经网络的强化学习方法，该方法可以从文本观察中提取一阶逻辑事实并使用逻辑算子训练策略，实验结果表明该方法比其他基于神经元符号框架的方法更快收敛。

Oct, 2021

从规约中归纳推理的强化学习

我们提出了一个新颖的归纳一般化框架，用于从逻辑规范中进行强化学习。该框架通过利用归纳任务之间的关系，学习生成适应归纳任务实例的策略生成器，以实现对长期任务中未见策略的广义化。

Jun, 2024

神经逻辑强化学习

本文提出了一种名为神经逻辑强化学习（NLRL）的新算法，基于策略梯度方法和可微分归纳逻辑编程，通过一阶逻辑来表示强化学习中的策略，解决了深度神经网络难以解释和学习泛化能力低的问题。实验表明，该算法可以在不同的环境下归纳出解释性强且性能接近最优的策略。

Apr, 2019

基于时间逻辑因果图的强化学习

论文提出了一种基于时序逻辑的因果图 RL 算法，通过识别环境中代理可以确定预期奖励的配置来减少探索，实现更快的收敛。

Jun, 2023

基于时序逻辑奖励塑形的强化学习分布式控制

本文提出了一个基于计算框架的分布式控制策略合成方法，用于处理存在部分观测的异质机器人团队，旨在满足 Truncated Linear Temporal Logic（TLTL）规范，其方法将综合问题表述为一个随机博弈，并采用策略图方法为每个机器人寻找具有内存的控制策略，模拟结果表明其解决方案的有效性和奖励塑形的有效性。

Mar, 2022