- ACL基于同源 Transformer 的自动同源检测作为有监督的链接预测任务
基于转换器的架构用于自动认知检测任务,在一定程度的监督下,该方法比现有方法表现更好,证明了利用标记信息的效果,并且通过接受多个序列对齐作为输入和具有链接预测头的端到端架构可以节省大量计算时间并同时产生更好的性能。
- 基于计算的论证聊天机器人:调查
该研究综述论述了基于计算论证的聊天机器人,在比较标准聊天机器人的优缺点的基础上,展望了其可能的未来发展和与基于 Transformer 架构和最先进的大型语言模型的整合。
- 视频文本对齐的强基准
通过建立一个简单而强大的基于 Transformer 的模型,本研究考虑了视频和文本在时间上的对齐问题,并通过考虑语音识别误差的减少、选择不同的视觉 - 文本骨干和将嘈杂的 ASR 转录转化成描述性步骤等关键因素,实现了在叙述对齐和步骤对应 - EipFormer:强调三维实例分割中的实例位置
提出了一种基于 Transformer 的架构 EipFormer,包括渐进聚合和双位置嵌入,用于 3D 实例分割,通过优化实例位置和提案来提高模型性能。
- TCNCA: 多段关注的时间卷积网络用于可伸缩的序列处理
TCNCA 是一种具有切分关注力的时间卷积网络,通过用一种特殊的时间卷积网络替换线性递归操作,在减少计算复杂度的同时提供更大的感受野大小和更浅的网络结构。在多个任务中,TCNCA 表现优于 MEGA,并在处理非常长的序列长度时具有可扩展性。
- 利用 Transformers 進行三維手部重建
从单眼输入中重建 3D 手部,利用基于 Transformer 的 HaMeR 方法,通过大规模数据训练和深度网络容量的扩展,对手部进行精确且鲁棒性增强的分析,并在流行的 3D 手部姿势基准测试中始终优于先前基准线。
- EMNLPDemaFormer:具有能量建模的阻尼指数移动平均变压器用于时序语言基础生成
时序语言定位是为了找出语义上与自然语言查询相对应的视频片段。该研究提出了一种基于能量的模型框架和 DemaFormer,一种新颖的基于 Transformer 的架构,用于有效地学习时序语言定位。实验证明我们的方法在四个公开的时序语言定位数 - 缩小差距:一个统一的视频理解框架用于时刻检索和重点检测
提出了一种统一视频理解框架 (UVCOM),通过深入挖掘内在的本质特点,联合解决视频片段检索和重点片段检测问题。在多粒度的内部和跨模态的进步集成中,通过多方面对比学习,实现了对视频进行全面理解,成功地提高了效果。
- 在时间连续的多模态情感识别中容纳缺失的模态
提出了一种基于 Transformer 的架构,用于识别情绪的正性和负性,即使输入模态缺失,该模型通过交叉关注和自关注机制强调模态之间的关系,提高了对弱显著输入的学习过程,并在 Ul-TSST 数据集上实验,与后期融合基准方法相比,预测唤醒 - 可控主题聚焦抽象摘要
该研究提出了一种基于 Transformer 的架构,能够生成以特定主题为焦点的摘要,并通过修改 Transformer 的交叉注意机制实现主题焦点控制,从而在 NEWTS 数据集上取得了新的最佳表现,并且能够通过微调将该机制应用于不同的 - Hiformer:基于 Transformer 的异构特征交互学习用于推荐系统
借助基于 Transformer 的体系结构和注意力层,自动捕捉特征交互,并通过引入异构自注意层和 extsc {Hiformer} 模型在工业中应用,解决了将 Transformer 体系结构应用于网络规模推荐系统的挑战,证实了 exts - 基于 Transformer 的大气密度预测
2025 年太阳活动周期达到高峰时,单个地磁风暴对居住空间物体轨道的显著影响,大气密度预测技术对空间态势感知至关重要。本研究通过开发基于非线性转换器的架构,改进了以往用于大气密度预测的线性传播方法,通过从历史大气密度数据中学习多层权重,捕捉 - 3M-TRANSFORMER:用于体现式交替预测的多级多轮多模态 Transformer
使用基于 Transformer 的新型多模态架构来预测具有多视角的、同步的交互数据中的轮替情况,在已引入的 EgoCom 数据集上进行实验,与现有的基线和替代基于 Transformer 的方法相比,平均性能显著提升了最高达 14.01% - 人工智能在脑电图预测中的应用:混沌理论
研究通过应用混沌理论和动力系统理论,采用基于 Transformer 的序列预测架构,分析了 32 个脑电图通道上的数据,并展现了其在 EEG 数据序列预测方面的强大可靠性和普适性。
- Sharingan:一种基于 Transformer 的注视跟踪架构
面部注视是人类从小培养起来的一种强大的非语言交流和社交互动方式。因此,对这种行为进行建模是一项重要任务,可以造福于从机器人学到社会学等广泛领域。本文介绍了一种基于变换器的二维注视预测架构,通过两个变种进行实验,并取得了在 GazeFollo - 自助式交叉表格表示学习的扩展实验
为了分析深度表格表示学习模型的扩展潜力,我们引入了一种专门针对表格数据的基于 Transformer 的架构,通过利用表格特定的分词器和共享的 Transformer 主干来进行交叉表格表示学习。我们的训练方法包括单表和交叉表格模型,通过自 - 用于高效物体跟踪的可分离的自注意力与混合注意力变换器
本文提出了一种用于轻量级追踪的高效自适应混合注意力变压器架构,实现了对相关轻量级追踪策略的显著改进,达到了先进的性能,在多个数据集上运行时帧率较高,参数量较小。
- 基于可变形补丁定位的差异性诊断阿尔茨海默病与颞叶前额叶痴呆的 3D Transformer
提出了一种新颖的 3D 变形器架构,利用可变形的补丁定位模块,改善了阿尔茨海默病和额颞型痴呆的差异诊断。通过结合传统的机器学习模型和脑结构体积,以更好地利用现有数据,提出了将基于变压器的模型与传统机器学习模型相结合的方法。我们的实验表明了所 - 字符查询:基于 Transformer 的在线手写字符分割方法
在线手写字符分割与手写识别紧密关联,但仅通过识别模型定位相关位置通常无法产生精确的分割。我们将分割与识别解耦,使得分割结果能进一步被利用。我们专注于已知转录的情况,此时字符分割变成了笔迹轨迹的采样点与文本中字符的匹配问题。受 $k$-mea - ViLTA:通过文本增强增强视觉语言预训练
本文提出了一种名为 ViLTA 的新方法,由两个组件组成,旨在进一步促进模型在图像和文本对之间学习细粒度表示,采用交叉蒸馏方法生成软标签以提高模型的稳健性,并利用上下文合成硬负样本来增加图像 - 文本匹配的难度,从而在各种视觉语言任务上取得