- ACL面向上下文的多变动字幕中的差异提取
该研究提出了一种新颖的上下文感知差异提取(CARD)网络,用于描述自然语言中图像对中的复杂和耦合变化,通过捕捉所有真实的变化来生成句子,并在三个公共数据集上展示了优于现有方法的性能。
- CVPRReGenNet:走向人类行为反应综合
提出了一种异步、动态、同步和详细的人 - 人互动综合基准方法,利用 ReGenNet 模型和 Transformer 解码器体系结构生成人的反应,结果显示我们的方法可以产生即时且可信的人的反应。
- 基于逐像素密度分布建模的半监督计数
本文提出了一种半监督人群计数模型,通过将像素密度值建模为概率分布,设计了像素密度分布匹配损失、增强变压器解码器以及交错一致性自监督学习机制,并在四个数据集上进行了广泛实验,结果表明该方法明显优于竞争模型。
- SportsNGEN: 多人体育游戏持续生成
我们提出了一种基于 Transformer 解码器的模型 SportsNGEN,通过训练运动员和球的追踪序列,能够生成逼真且持续的游戏场景。我们使用大量职业网球追踪数据来训练和评估 SportsNGEN,并证明通过将生成的模拟结果与射击分类 - GraphGPT:使用生成式预训练 Transformer 进行图学习
我们介绍了一种名为 GraphGPT 的自我监督建模方法,该方法通过将图或抽样子图转化为表示节点、边和属性的可逆令牌序列,并使用欧拉路径优先进行预训练,最后通过监督学习任务进行微调,该模型在大规模分子数据集 PCQM4Mv2、蛋白质相互作用 - 遮挡下的人物再识别学习中的部件表征学习
提出了一种利用人体解析辅助的 Transformers 解码器构成的 “师生解码器” 框架,用于解决遮挡下的人员重新识别问题,并提出了一个新的基准测试集,该测试集使用非遮挡查询样本,实验证明了该方法的优越性。
- SequencePAR: 通过序列生成范例理解行人属性
基于 CLIP 模型的预训练特征提取和序列生成模式,提出一种新的行人属性识别方法 SequencePAR,利用生成模型更好地建模人体属性之间的依赖和复杂性,有效通过多个数据集实验证明了该方法的有效性。
- 临床准确且可解释的双向字幕模型
本研究通过双向字幕法对放射学报告进行预训练,与对比性训练方法相比,表明字幕法预训练不仅可以产生具有竞争力的视觉编码器,还可以生成具有临床相关性的报告和针对性的交互性输出。
- ASTormer: 文本到 SQL 的 AST 结构感知 Transformer 解码器
通过 ASTormer 结构化解码器,本研究旨在将用户语句和相应的数据库架构转化为可执行的 SQL 程序,以确保输出 SQL 的格式正确性和高效性,相比竞争性基准,在五个 Text-to-SQL 基准测试中显示了其有效性和效率。
- 多尺度记忆比较器变压器用于少样本视频分割
我们提出了一种元学习的多尺度记忆比较器,用于少样本视频分割,该方法在不同任务中进行尺度间的信息交换,保护细节特征以达到最先进的性能表现。
- 基于开放世界的文本特定目标计数
提出了 CounTX,一种基于 transformer decoder 的单阶段模型,可对任何类别的目标物体进行计数并能够针对使用文本描述任务的方法在 FSC-147 基准测试上超越现有技术。
- CVPRStepFormer:自监督下的指导视频步骤发现和定位
介绍了一种自监督方法,叫做 StepFormer,用于从无需人类监督的大规模教学视频中发现和定位关键步骤。该方法使用 transformer 解码器关注视频,以生成一系列包含视频关键步骤的槽。通过使用文本形式的指导并采用顺序感知损失过滤掉无 - DynaMITe: 多对象交互分割转换器的动态查询引导
DynaMITe 是一种更有效率的交互式分割网络方法,采用 Transform 器解码器将用户交互表示为时空查询,从而在单个迭代中分割多个目标实例,不需要重新计算图像特征,可在较少的交互次数下在单个图像中分割多个实例,并在多个现有互动分割基 - DiffTAD: 带有提案去噪扩散的时间动作检测
本文提出了一种使用扩散去噪的新时域动作检测(TAD)方法,名为 DiffTAD。该方法采用生成建模方法,而非以往判别式学习方法,借助 Transformer decoder 中引入的时间位置查询设计来建立去噪过程,通过交叉步选择性调节算法来 - CVPR人 - 物交互分类的类别查询学习
通过使用类别查询学习来学习人 - 物相互作用分类任务中的交互类别,并通过转换器解码器将其转换为图像特定的类别表示,通过辅助的图像级分类任务来实现有效分类,最终实现了两个基准测试的最先进结果。
- AAAIDQ-DETR: 双查询检测 Transformer 用于短语提取和基础定位
本论文探讨了通过考虑短语提取和定位对象来解决视觉 grounding 问题,提出了一种新颖的 DQ-DETR 模型,通过引入双重查询并设计共享位置部分而不同内容部分,使 Transformer 解码器借助短语掩码引导注意力以提高性能。
- 自动胸部 X 光报告生成中图像编码的重要性
该论文主要研究了自动放射学报告生成的技术,重点关注了图像编码组件的相对重要性,并在 MIMIC-CXR 数据集上比较了四种不同的图像编码方法,结果表明 fine-grained 编码优于其他编码方法。
- CVPRSC-Transformer++:用于通用事件边界检测的结构化上下文变换器
该论文提出了一种关于 Generic Event Boundary Detection 的算法,通过增加 transformer decoder 模块、引入多类分类器分支和光流等来改进现有的 SC-Transformer 方法,并使用模型集 - 修补 Charformer 中的漏洞,以实现高效的字符级生成
本研究提出了一种解决 Charformer 在 Transformer 解码器中信息泄漏问题的方法,从而实现字符分组。研究发现 Charformer 的下采样在 NMT 中的翻译质量没有明显的优势,但训练速度可以提高 30%,在英––土耳其 - BinsFormer: 重温自适应分组用于单目深度估计
本文提出了一种适用于基于分类 - 回归的深度估算任务的新框架 BinsFormer,该框架主要关注该任务中的两个关键组件:适应性 bins 的恰当生成和概率分布及 bins 预测之间的足够交互。