基于探针的干预措施用于修改代理行为

Jan, 2022

基于探针的干预措施用于修改代理行为

Probe-Based Interventions for Modifying Agent Behavior

Mycal Tucker, William Kuhl, Khizer Shahid, Seth Karten, Katia Sycara...

TL;DR该研究通过更新预先训练的神经网络的表示，以实现人类辅助决策问题，并在实验中展示了如何改善多个领域的人 - 代理团队表现。

Abstract

neural nets are powerful function approximators, but the behavior of a given neural net, once trained, cannot be easily modified. We wish, however, for people to be able to influence neural agents' actions despite the agents never training with humans, which we formalize as a

neural nets human-assisted decision-making model explainability pre-trained neural nets multi-agent reinforcement learning

发现论文，激发创造

关于改变神经网络感知的研究

该研究提出了一种可调整人工神经网络感知特定人工定义概念的方法来理解和调试该神经网络模型，并在合成数据集和 ImageNet 数据集上对其进行了测试。

Mar, 2023

适应性棋局环境中的强化学习用于检测人类可理解概念

本研究展示了一种探测自学习算法在训练过程中内部概念的方法，以国际象棋游戏代理为例进行了演示，此方法适用于没有大量计算资源或机器学习模型的研究团体。

Nov, 2022

用大型语言模型解释代理行为

智能代理通过观察状态和行为生成自然语言解释，以理解其行为，从而促进与用户的互动。

Sep, 2023

可解释化多智能体强化学习的概念学习

本文介绍了一种将领域专家的可解释概念纳入到多智能体强化学习模型中的方法，以提高模型的解释性和稳定性，提高性能和样本效率。

Feb, 2023

重复博弈中预测人类互动的神经网络

使用神经网络预测人类玩家在重复战略互动中的行为，证明神经网络可以通过历史记录的序列预测未来行为，同时比行为经济学模型有更准确的预测和更高的经济价值。

Nov, 2019

理解代理程序：利用大型语言模型进行行为解释

基于状态和行为观察生成自然语言解释，不依赖于基础模型的表示，能解释智能代理行为，使用户能够与预训练的大型语言模型进行交互并生成有助于解释与推理的解释。

Nov, 2023

AdaptNet：基于物理的角色控制的策略适应

AdaptNet 是一种用于修改现有策略的潜在空间，通过在现有任务中快速学习和比较学习从头开始的新行为的方法，通过构建两层层次结构来有效地调整行为，并进一步修改策略网络层以实现更大的改变。该技术在适应基于物理的控制器到各种新的运动风格、新的任务目标、角色形态变化以及环境的广泛变化方面显示出显著的学习效率增加，通过与从头开始训练或使用其他修改现有策略的方法相比，大大减少了训练时间。

Sep, 2023

神经网络知识编辑调查

深度神经网络在学术界和工业界越来越普遍，在各个领域和相关任务上与人类的表现相媲美甚至超越。然而，即使是最大的人工神经网络也会出错，随着时间的推移，曾经正确的预测可能会失效。通过在数据集中增加考虑错误或最新信息的样本，可以解决这个问题。然而，灾难性遗忘现象对于改变神经网络参数中的隐性记忆知识以达到精确变化提出了挑战，通常需要重新训练整个模型才能实现所需的行为。这种方法昂贵、不可靠，并且与大规模自监督预训练的现行趋势不兼容，因此有必要找到更高效和有效的方法来适应变化的数据。为了满足这个需求，知识编辑作为一个新颖的研究领域正在兴起，旨在实现对预训练目标模型的可靠、数据高效和快速的变化，而不影响先前学到的任务上的模型行为。在本综述中，我们对这个最新的人工智能研究领域进行了简要回顾。首先，我们介绍了神经网络编辑的问题，在一个共同框架中对其进行了形式化，并将其与连续学习等更有名的研究分支进行了区分。接下来，我们对迄今为止提出的最相关的知识编辑方法和数据集进行了回顾，并将这些工作分为四个不同的类别：正则化技术、元学习、直接模型编辑和架构策略。最后，我们概述了与其他研究领域的一些交叉点和未来的潜在方向。

Oct, 2023

基于策略相关的人类反馈的深度强化学习

本研究在 COACH 算法基础上，对代理策略表达进行了修改，运用深度神经网络实现按照高维视觉输入完成任务的学习，并通过 Minecraft 中实时人类反馈，10-15 分钟即可完成任务。

Feb, 2019

利用自然语言与程序抽象将人类归纳偏好渗透到机器中

通过在自然语言任务描述和生成这些任务的程序中预测表示，并指导它们对更具人类化的归纳偏差进行联合训练，结果表明在下游元增强学习代理中，这些表示的抽象支持是关键。

May, 2022