内省学习

AAAIFeb, 2019

Introspection Learning

Chris R. Serrano, Michael A. Warren

TL;DR本文介绍了一种基于 Introspection Learning 的反向传播算法，使用该算法可直接向神经网络提问，无需通过与环境的交互，该算法不依赖强化学习算法，其返回的状态可用于检测策略的健康状况或塑造策略以满足安全约束的多种方式，证明了该算法在加速训练和提高安全性方面的有效性。

Abstract

Traditional reinforcement learning agents learn from experience, past or present, gained through interaction with their environment. Our approach synthesizes experience, without requiring an agent to interact with their environment, by asking the policy directly "Are there situations X

introspection learning reinforcement learning neural network policies health indicator safety constraints

发现论文，激发创造

基于反思的可解释强化学习在情节和非情节场景中的应用

通过自省和强化学习代理结合来提高机器人任务的可信度和可解释性。实验表明，在情节性和非情节性机器人任务中，自省方法都是可行的，可以生成对机器人行动的解释。

Nov, 2022

内省学习：神经网络推理的二阶段方法

本文提出了一种神经网络决策过程的两个阶段，分别是前向推理和反思阶段，这两个阶段共同构成了内省学习。我们使用训练好的神经网络梯度来衡量内省反思的程度，并使用多层感知器对反思结果进行预测。我们发现内省网络的鲁棒性更强，在处理嘈杂数据和需要泛化和校准的场景中表现更好。

Sep, 2022

自省行为指导的可解释迁移学习

本篇文章提出了一种基于动作建议的深度强化学习任务之间的迁移学习替代方法，该方法可提高 Gridworld 和 Atari 环境下的收敛速率并提供知识迁移情况的洞见。

Jun, 2023

透过指引提炼的可教授强化学习

本研究提出了一种基于 “可教学” 的决策系统的交互式学习监督范式，能够通过学习外部教师提供的结构化建议，解决复杂任务的学习难度，对拼图、导航和运动等各种任务需求的人工干预也相对较少。

Mar, 2022

Reflexion：具备动态记忆和自我反思能力的自主智能体

Reflexion is a new decision-making approach enhanced with dynamic memory and self-reflection capabilities to complete tasks, including knowledge-intensive search-based question-and-answer tasks in HotPotQA environments, and achieves automation with a heuristic that enables the agent to pinpoint hallucination instances, among other things.

Mar, 2023

内省知觉：学习预测视觉系统中的故障

该文提出了一个自我评估的能力 —— 内省，并基于此提出了一个模型，通过输入的感应器数据可可靠地预测给定任务下系统的失败。该模型在室外自然环境下的视觉自主微型飞行器飞行中表现出效果显著。

Jul, 2016

具有内省修正的神经符号自然逻辑用于自然语言推理

本文介绍了一个基于强化学习和内省修订的神经符号自然逻辑框架，通过策略梯度对特定推断路径进行采样和奖励，并利用外部知识缓解虚假推理和训练低效问题。该模型具有内在的可解释性，在单调性推理、系统泛化和可解释性方面表现出优越能力，相对于先前的模型在现有数据集上表现更好。

Mar, 2022

一种基于内在动机的学习方法，用于学习高度探索和快速运动策略

本文提出一种新的代理与环境相互作用下的探索策略，旨在最小化步骤数、最大化稳态分布熵的下界，并引入三个下界分别对应三个最优化问题，再基于此提出 IDE$^{3}$AL 算法进行模型驱动的强化学习。

Jul, 2019

魔鬼的辩护：面向 LLM 代理的预期反思

我们介绍了一种新颖的方法，为 LLM 智能体提供自省能力，以增强其在解决复杂任务中的一致性和适应性。我们的方法促使 LLM 智能体将给定的任务分解为可管理的子任务（即制定计划），并持续对其行动的适用性和结果进行自省。通过在 Web 环境中使用这种零样本方法进行实际任务的部署和实验，我们的智能体展示了优于现有零样本方法的性能。实验结果表明，我们的自省驱动方法不仅通过稳定的计划执行机制增强了智能体应对意外挑战的能力，而且通过减少试验和计划修订所需的次数，提高了任务的效率。

May, 2024

混合逆强化学习

我们提出使用混合增强学习的方法来减少反向强化学习中不必要的探索，通过专家数据在训练过程中引导学习者，从而缩小小型逆强化学习问题的交互过程，取得了较好的策略表现。

Feb, 2024