SiT: 对称不变 Transformer 在强化学习中的泛化

ICMLJun, 2024

SiT: 对称不变 Transformer 在强化学习中的泛化

SiT: Symmetry-Invariant Transformers for Generalisation in Reinforcement Learning

Matthias Weissenbacher, Rishabh Agarwal, Yoshinobu Kawahara

TL;DR一项关于使用自监督方法改进泛化性能、处理图形对称注意力及展示改进结果的研究，使用 Symmetry-Invariant Transformer (SiT) 扩展 Vision Transformer (ViT) 的方法在 MiniGrid、Procgen RL 基准测试上展示了优于 ViTs 的泛化能力，并在 Atari 100k 和 CIFAR10 上体现了更高的样本效率。

Abstract

An open challenge in reinforcement learning (RL) is the effective deployment of a trained policy to new or slightly different situations as well as semantically-similar environments. We introduce symmetry-invariant tran

reinforcement learning symmetry-invariant transformer generalization self-supervised latent representations

发现论文，激发创造

SiT: 基于可扩展插值变换器的流与扩散生成模型探索

SiT 是一种建立在 DiT 基础之上的生成模型，通过插值框架实现了对各种设计选择的模块化研究，从离散和连续时间学习到模型学习的目标选择，插值连接分布以及确定性或随机采样器等。在相同的基础、参数数量和 GFLOPs 下，通过精心引入上述因素，SiT 在条件 ImageNet 256x256 基准测试中表现出色，并通过探索各种可以单独调整的扩散系数，达到了 2.06 的 FID-50K 分数。

Jan, 2024

SiT：自监督视觉 Transformer

本文提出了一种名为 Self-supervised vIsion Transformers (SiT) 的模型，使用多种自监督训练机制进行预训练，通过线性分类器对其学习特征进行评估，并在小规模数据集上进行下游分类任务，结果表明这种模型在自我监督学习上有很好的效果。

Apr, 2021

SiRi: 一个用于基于 Transformer 的视觉定位的简单选择性微调机制

本文研究如何使用现代视觉语言转换器实现更好的视觉定位，并提出一种简单而强大的选择性重新训练（SiRi）机制。使用 SiRi 可以显着优于以前的方法，在三个受欢迎的基准测试中表现出更好的性能，即使在有限的训练数据下也表现出惊人的优越性。同时，我们也将它扩展到基于 transformer 的视觉定位模型和其他视觉语言任务中以验证其有效性。

Jul, 2022

自瘦身视觉 Transformer

该研究提出了一种基于 Token Slimming Module 和 Feature Recalibration Distillation 的自我瘦身学习方法（SiT），能够大幅减少 Vision Transformers 的计算负担，同时不会对其分类性能产生太大影响，并在 ImageNet 数据集上实现了新的最佳性能。

Nov, 2021

基于预训练表示的可推广模仿学习

利用自我监督的视觉变换模型及其新出的语义能力，通过聚类外观特征来形成稳定的关键点，从而改善模仿学习策略的泛化能力。本论文介绍了 BC-ViT，一种利用富含 DINO 预训练视觉变换器（ViT）补丁级嵌入的模仿学习算法，以通过示范获取更好的泛化效果。通过对一个多样化的物体操作任务数据集进行模仿学习的评估，证明了这种表示方式能够实现广义行为。为了促进对于模仿学习中泛化问题的进一步研究，我们提供了我们的方法、数据和评估方法。

Nov, 2023

INViT：具有不变嵌套视图变换器的通用路由问题求解器

基于深度强化学习的新型架构 INViT，通过在编码器中嵌套设计和不变视角，利用改进的策略梯度算法和数据增强，提高了学习的求解器的泛化能力，并在不同分布和问题规模上展现了显著的泛化性能。

Feb, 2024

视觉 Transformers 是强大的学习器

本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性，并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较，通过一系列六个系统设计的实验，提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。

May, 2021

使视觉 Transformer 真正具有 Shift-Equivariant 性质

提出改进的模块设计，使得 Vision Transformers 在图像分类和语义分割任务中具有真正的平移不变性，并在三个不同数据集上实现了有竞争力的性能表现。

May, 2023

无 Softmax 的线性变换器

提出 SOftmax-Free Transformer (SOFT)，其采用高斯核函数替代点积相似度，从而能够通过低秩矩阵分解逼近完整的自注意力矩阵，该模型能够明显提高现有 ViT 变体的计算效率，同时具有线性复杂度，且能够容纳更长的令牌序列，优化了准确率和复杂度之间的权衡。

Jul, 2022

使用通用强化学习实现图像变换序列检索

本文介绍了图像变换序列检索（ITSR）任务，提出一种基于强化学习的解决方案，即 Monte Carlo 树搜索（MCTS）和深度神经网络相结合的模型训练方法，并通过实验结果证明其效果优于监督训练。

Jul, 2023