序列模型中的妄想：交互和控制

Oct, 2021

Shaking the foundations: delusions in sequence models for interaction and control

Pedro A. Ortega, Markus Kunesch, Grégoire Delétang, Tim Genewein, Jordi Grau-Moya...

TL;DR本研究讲述了如何通过将动作视为因果干预来从根本上解决大型序列模型自我建议错觉问题的难题，并结合事实和反事实误差信号的有监督学习方法，教授系统如何对数据进行调节或干预。

Abstract

The recent phenomenal success of language models has reinvigorated machine learning research, and large sequence models such as transformers

language models sequence models transformers adaptive behavior causal interventions

发现论文，激发创造

预测模型模拟的代理限制

适应预测模型为基础的 AI 助手存在结构上的两个失败原因：自我暗示的错觉和预测 - 策略不一致。通过引入来自环境的反馈循环可以解决这两个问题，并验证了理论和实证分析的一致性。

Feb, 2024

序列建模中应对乐观主义策略的强化学习

本研究提出了一种解决优化偏差的方法，即通过显式分离策略和世界模型，并在测试时寻找能够应对多种可能未来环境的策略，以更好地完成多种自动驾驶任务。

Jul, 2022

解释黑盒序列到序列模型预测的因果框架

采用黑盒结构化输入输出模型进行预测并通过干扰输入生成相关性图和解决分割问题来解释黑盒模型预测，着重于序列生成问题并采用变分自编码器来产生有意义的干扰，我们在多个 NLP 序列 - 生成任务中测试了该方法。

Jul, 2017

为修改模型决策综合行动序列

该研究通过程序综合的方式，结合测试中的敌对攻击和特定领域的操作序列，构建可行的、最简便的操作序列，以帮助人们改变分类结果，实验表明该方法对于深度神经网络具有较好的效果。

Sep, 2019

在芝麻街上摇动句法树：使用可控扰动进行多语言探索

探究了文本扰动对 Transformer-based 语言模型的影响，发现换序对模型下游任务性能影响不大，且证实模型对位置编码的使用。研究使用三种印欧语言建立九个 probing 数据集，发现句法敏感度取决于语言和预训练目标，在层数和扰动粒度上敏感度增加且模型几乎不用位置信息产生句法树。

Sep, 2021

语言模型可通过少量示例引入推理，从而提高事件预测能力

本文研究了大型语言模型在实际事件中实现推理的能力，设计了一个建模和预测框架，其中大型语言模型执行推断，以协助事件序列模型提高预测准确性，并通过在 Amazon Review 和 GDELT 两个具有挑战性的实际数据集上进行的广泛实验，展示了我们的框架的性能优势。

May, 2023

通过学习自我纠正生成序列

本文介绍了一种称为 Self-Correction 的方法，该方法可以用于解决序列生成应用中存在的语义约束问题，该方法通过将完美的基本生成器与学习逐步纠正其输出的单独的纠正器分离来实现。我们证明，即使纠正器比基本生成器小得多，在数学程序合成、词汇约束生成和毒性控制等三个不同的生成任务上，Self-Correction 仍然优于基本生成器。

Oct, 2022

基础模型是否能够探讨因果关系？

研究基础模型对因果关系表示的能力，并探讨其与 AGI 进展之间的关系及其可解释性和推理能力，以帮助解决该领域的哲学争议。

Jun, 2022

基于接地模型指导机器人控制的文本生成

本论文提出了一种利用大型语言模型进行机器人交互的方法，用于解决理解语义知识和实现机器人任务之间的矛盾问题，其中引入了基于概率过滤的策略来采用语言模型和基于物理环境的模型两者的优势，通过指导解码策略可以实现复杂的机器人长视程任务。

Mar, 2023

使用干预学习自主代理端因果模型

本篇论文介绍了一种基于 agent assessment module 的 AI 系统执行高级指令序列并回答用户问题的方法，通过不同类别的查询来比较这种方法的计算要求和正确模型的学习所需的努力，并介绍了动态因果决策网络来捕捉 STRIPS-like 领域的因果结构。

Aug, 2021