- RGB2Point: 单个 RGB 图像生成 3D 点云
该论文提出了 RGB2Point,一种基于 Transformer 的无人体姿态单视图 RGB 图像生成 3D 点云的方法。RGB2Point 利用预训练的 Transformer 层生成高质量的点云,并在实际数据集和合成数据集上达到了更好 - GoldFinch:高性能 RWKV/Transformer 混合加线性预填充和极限 KV-Cache 压缩
我们介绍了 GoldFinch,一种混合线性注意力 / Transformer 序列模型,它使用一种新技术以线性时间和空间相对于序列长度高效生成高度压缩和可重用的 KV-Cache。
- ECCV关系 DETR: 探索目标检测中的显式位置关系先验
本文提出了一种用于增强 DET R(Detection Transformer)的收敛性和性能的通用方案,通过探索将位置关系先验作为注意力偏置来增强对象检测。该方法引入编码器来构建位置关系嵌入,以逐步改进注意力,进一步将 DET R 传统的 - ECCVGTPT: 基于组别的令牌修剪变换器用于高效的人体姿势估计
通过引入逐步引入关键点的粗到细操作,Group-based Token Pruning Transformer (GTPT) 有效降低了计算负担并确保高性能的有效人体姿态估计方法。通过将关键点令牌分组和修剪视觉令牌来提高模型性能并减少冗余, - 基于 Transformer 和统计特征嵌入的制造传感器数据预测模型
本研究提出了一种基于 Transformer 的新型预测模型,利用统计特征嵌入和窗口位置编码。该模型在故障检测和虚拟计量两个问题上的表现优于基准模型,通过有效利用参数,提升了对传感器数据的处理性能,显示出了在各种制造业中提高过程管理和产量的 - 可扩展的视觉语言建模单一变压器
SOLO 是一种用于可伸缩视觉 - 语言建模的单一 Transformer,其在扩展性上有效地解决了视觉 - 语言模型中的瓶颈问题,尤其在视觉数学推理方面表现出色。
- IJCAI大规模合成数据的三维视觉和语言预训练
3D 视觉语言预训练(3D-VLP)旨在提供一个可以将 3D 场景与自然语言联系起来的预训练模型,这是一种重要的体验式智能技术。通过构建 SynVL3D,我们克服了有限的场景多样性和不足的细粒度注释的障碍,在室内场景中创建了一个包含 10K - STMR:螺旋变压器用于手部网格重建
通过将螺旋采样方法与 Transformer 架构相结合,提高手部网格重建的性能,并引入多尺度姿势特征提取和预定义姿势到顶点提取方法,以增强模型表征和重建性能,实现了与相似方法相比的最先进性能和出色的推理速度。
- 公平 PFN: Transformers 可以实现反事实公平
通过使用合成公平数据预训练的 FairPFN 模型,可以消除保护属性对观察数据的因果影响,为因果和反事实公平性提供了新的研究领域:变压器。
- 基于深度学习的计算机网络异常检测与日志分析
计算机网络异常检测和日志分析是网络安全领域的重要课题,本文提出了一种创新的融合模型,将孤立森林、生成对抗网络(GAN)和 Transformer 相互整合,通过对时间序列数据进行建模和上下文提取,实现更准确和稳健的异常检测和日志分析。实验结 - CLIPVQA: 通过 CLIP 进行视频质量评估
本文提出了一种基于 CLIP 的 Transformer 方法(CLIPVQA),用于视频质量评估(VQA)问题,该方法在充分利用质量语言描述和视频帧信息的基础上,实现了新的 VQA 性能,比现有的基准方法的泛化能力提高了 37%。
- 学会(在测试时)学习:具有表达性隐藏状态的 RNN
利用自我关注机制在长上下文任务中表现良好,但复杂度为二次方。我们提出了一种具有线性复杂度和表达能力隐藏状态的新型序列建模层,以隐藏状态本身作为一个机器学习模型,并将更新规则作为一个自监督学习的步骤进行训练。我们考虑了两个实例化模型:TTT- - 通过双重条件的扩散修正提升多类异常检测
本文提出了一种创新的多类异常检测方法,通过将扩散模型和变换器相结合,利用扩散获取高频信息以解决模糊重建问题,引入双重调节以保证准确性,采用时空融合以提升性能,实验证明该方法在多类异常检测方面表现卓越。
- KDDHypformer:在双曲空间完全探索高效的双曲变换器
在超几何模型中使用洛伦兹模型,我们提出了 Hypformer,这是一种新型的超几何变压器,它有效地处理了大规模数据表示和大型模型的问题。
- 通用逼近理论:大型语言模型的基础理论
利用通用逼近理论(UAT)作为理论背景,研究了语言模型的理论基础和技术策略,探讨了 Transformer 的有效性、In-Context Learning、精调和修剪的实用性。
- 探索稀疏专家混合模型在多领域神经机器翻译中的潜力
我们关注多领域神经机器翻译,旨在开发能够处理训练期间见过的各种领域数据并对未见过的领域具有鲁棒性的高效模型。我们假设稀疏专家混合(SMoE)模型非常适合这个任务,因为它们能够实现高效的模型扩展,有助于适应各种多领域数据,并允许领域间参数的灵 - 通过 N-gram 统计理解 Transformer
该论文描述了一种通过使用简单的 N-gram 基于训练数据的统计规则集来近似 Transformer 模型预测,从而帮助理解和解释 Transformer 的工作原理,包括检测训练期间的过拟合方法、计量 Transformer 从学习简单到 - 基于级联 KV 缓存的无需训练的滑动窗口上下文的指数扩展
在基于 transformer 的大型语言模型(LLMs)中,通过使用一个保存了初始 token 和固定大小的滑动窗口的键值(KV)缓存,以线性复杂度实现稳定的流式生成,并能够在总缓存大小不变的情况下存储更远过去的 token,取得了 5. - 探索未知领域:从 Transformer 到 Mamba 的导航指南
综述了一种名为 Mamba 的机制,讨论了其在深度神经网络(例如 Transformer)和自然语言处理领域中的潜力、改进以及与其他网络的集成等相关研究方向。
- 多元变压器增强太阳能驱动器预测
我们开发了一个使用时间序列 Transformer(PatchTST)的全面框架来预测 F10.7、S10.7、M10.7 和 Y10.7 太阳驱动因子。我们构建了一个定制的损失函数来加权样本,以确保太阳驱动因子的历史分布和训练集之间的距离