内省学习
通过自省和强化学习代理结合来提高机器人任务的可信度和可解释性。实验表明,在情节性和非情节性机器人任务中,自省方法都是可行的,可以生成对机器人行动的解释。
Nov, 2022
本文提出了一种神经网络决策过程的两个阶段,分别是前向推理和反思阶段,这两个阶段共同构成了内省学习。我们使用训练好的神经网络梯度来衡量内省反思的程度,并使用多层感知器对反思结果进行预测。我们发现内省网络的鲁棒性更强,在处理嘈杂数据和需要泛化和校准的场景中表现更好。
Sep, 2022
本篇文章提出了一种基于动作建议的深度强化学习任务之间的迁移学习替代方法,该方法可提高 Gridworld 和 Atari 环境下的收敛速率并提供知识迁移情况的洞见。
Jun, 2023
本研究提出了一种基于 “可教学” 的决策系统的交互式学习监督范式,能够通过学习外部教师提供的结构化建议,解决复杂任务的学习难度,对拼图、导航和运动等各种任务需求的人工干预也相对较少。
Mar, 2022
Reflexion is a new decision-making approach enhanced with dynamic memory and self-reflection capabilities to complete tasks, including knowledge-intensive search-based question-and-answer tasks in HotPotQA environments, and achieves automation with a heuristic that enables the agent to pinpoint hallucination instances, among other things.
Mar, 2023
该文提出了一个自我评估的能力 —— 内省,并基于此提出了一个模型,通过输入的感应器数据可可靠地预测给定任务下系统的失败。该模型在室外自然环境下的视觉自主微型飞行器飞行中表现出效果显著。
Jul, 2016
本文介绍了一个基于强化学习和内省修订的神经符号自然逻辑框架,通过策略梯度对特定推断路径进行采样和奖励,并利用外部知识缓解虚假推理和训练低效问题。该模型具有内在的可解释性,在单调性推理、系统泛化和可解释性方面表现出优越能力,相对于先前的模型在现有数据集上表现更好。
Mar, 2022
本文提出一种新的代理与环境相互作用下的探索策略,旨在最小化步骤数、最大化稳态分布熵的下界,并引入三个下界分别对应三个最优化问题,再基于此提出 IDE$^{3}$AL 算法进行模型驱动的强化学习。
Jul, 2019
我们介绍了一种新颖的方法,为 LLM 智能体提供自省能力,以增强其在解决复杂任务中的一致性和适应性。我们的方法促使 LLM 智能体将给定的任务分解为可管理的子任务(即制定计划),并持续对其行动的适用性和结果进行自省。通过在 Web 环境中使用这种零样本方法进行实际任务的部署和实验,我们的智能体展示了优于现有零样本方法的性能。实验结果表明,我们的自省驱动方法不仅通过稳定的计划执行机制增强了智能体应对意外挑战的能力,而且通过减少试验和计划修订所需的次数,提高了任务的效率。
May, 2024