基于探针的干预措施用于修改代理行为
本研究展示了一种探测自学习算法在训练过程中内部概念的方法,以国际象棋游戏代理为例进行了演示,此方法适用于没有大量计算资源或机器学习模型的研究团体。
Nov, 2022
基于状态和行为观察生成自然语言解释,不依赖于基础模型的表示,能解释智能代理行为,使用户能够与预训练的大型语言模型进行交互并生成有助于解释与推理的解释。
Nov, 2023
AdaptNet 是一种用于修改现有策略的潜在空间,通过在现有任务中快速学习和比较学习从头开始的新行为的方法,通过构建两层层次结构来有效地调整行为,并进一步修改策略网络层以实现更大的改变。该技术在适应基于物理的控制器到各种新的运动风格、新的任务目标、角色形态变化以及环境的广泛变化方面显示出显著的学习效率增加,通过与从头开始训练或使用其他修改现有策略的方法相比,大大减少了训练时间。
Sep, 2023
深度神经网络在学术界和工业界越来越普遍,在各个领域和相关任务上与人类的表现相媲美甚至超越。然而,即使是最大的人工神经网络也会出错,随着时间的推移,曾经正确的预测可能会失效。通过在数据集中增加考虑错误或最新信息的样本,可以解决这个问题。然而,灾难性遗忘现象对于改变神经网络参数中的隐性记忆知识以达到精确变化提出了挑战,通常需要重新训练整个模型才能实现所需的行为。这种方法昂贵、不可靠,并且与大规模自监督预训练的现行趋势不兼容,因此有必要找到更高效和有效的方法来适应变化的数据。为了满足这个需求,知识编辑作为一个新颖的研究领域正在兴起,旨在实现对预训练目标模型的可靠、数据高效和快速的变化,而不影响先前学到的任务上的模型行为。在本综述中,我们对这个最新的人工智能研究领域进行了简要回顾。首先,我们介绍了神经网络编辑的问题,在一个共同框架中对其进行了形式化,并将其与连续学习等更有名的研究分支进行了区分。接下来,我们对迄今为止提出的最相关的知识编辑方法和数据集进行了回顾,并将这些工作分为四个不同的类别:正则化技术、元学习、直接模型编辑和架构策略。最后,我们概述了与其他研究领域的一些交叉点和未来的潜在方向。
Oct, 2023
本研究在 COACH 算法基础上,对代理策略表达进行了修改,运用深度神经网络实现按照高维视觉输入完成任务的学习,并通过 Minecraft 中实时人类反馈,10-15 分钟即可完成任务。
Feb, 2019
通过在自然语言任务描述和生成这些任务的程序中预测表示,并指导它们对更具人类化的归纳偏差进行联合训练,结果表明在下游元增强学习代理中,这些表示的抽象支持是关键。
May, 2022