- SEDMamba: 加强选择性状态空间建模,利用瓶颈机制和细粗时间融合实现机器人辅助手术的高效错误检测
研究表明,使用名为 SEDMamba 的新颖分层模型,通过将选择性状态空间模型 (SSM) 与外科手术错误检测相结合,可以有效地进行长序列建模和定位手术错误,从而提高机器辅助手术的自动错误检测性能。
- 评估时间背景对自动鼠标睡眠分期的影响:应用人类模型进行评估
本研究通过使用两个能够考虑长期依赖关系的高效人类睡眠分级模型,对三组老鼠的睡眠分级进行了长时间段上下文的扩充研究,发现增加睡眠分级模型的时间窗口对睡眠阶段的分类有积极影响,特别是快速动眼期睡眠,但在更长的时间窗口上影响有限,因此认为当前的老 - 朝有效时间感知的语言表示:探索语言模型中增强的时间理解
本研究探讨了在自然语言处理领域中理解文本的时间背景的方法,并介绍了一种新型语言模型 BiTimeBERT 2.0,该模型通过预训练在一个时间新闻文章集合上,利用三种创新的预训练目标以有效地获得时间感知的语言表示,从而在与时间相关的任务中实现 - 基于聚类的视频摘要与时序上下文感知
提出了 TAC-SUM,一种新颖且高效的无需训练的视频摘要方法,它通过融入时间上下文来解决现有基于聚类模型的局限性。该方法将输入视频分割为具有聚类信息的时间连续片段,使时间感知得以注入到聚类过程中,以突出先前的基于聚类的摘要方法。最终,利用 - 无人机跟踪的多步骤时间建模
MT-Track 是一种高效的多步骤时间建模框架,用于增强无人机跟踪任务中的时间上下文,并通过独特的时间相关模块和互补转换模块来提高跟踪准确性。
- DistNet2D:利用远程时间信息进行高效分割和跟踪
利用 DistNet2D 模型进行细胞分割和跟踪的研究,该模型利用长期的时间背景信息来提高分割准确性,取得了在两组实验数据上比现有方法更好的性能,最终将其应用于细胞形态与运输属性的相关性研究。
- 保持时序:为情感分析模型增加时间背景
该研究论文采用先进的方法解决了 LongEval CLEF 2023 Lab 任务 2:LongEval-Classification,提出了一种将时间戳包含在文本中的日期前缀文本输入预训练语言模型的框架,展示了日期前缀样本更好地加强了模型 - 交通流量预测的自适应图卷积网络
该论文提出了一种新颖的自适应图卷积网络(AGC-net),通过自适应图卷积(AGC)和一种上下文关注机制,将空间图表达转换为实时特征,考虑到时间上下文,在公共交通数据集上展现了其明显的优于基础模型的有效性。
- SIGIR关注力混合模型的时间感知序列推荐
本文介绍了一种名为 MOJITO 的改进型 Transformer 序列推荐系统,它使用基于注意力机制的时间上下文和物品嵌入表示的高斯混合来进行序列建模。实验证明,该方法在多个现实世界数据集上优于现有的 Transformer 序列推荐方法 - 基于 METEOR 指导的视频字幕生成技术
提出了一种新颖的双重方法,BMHRL,用于自动视频字幕。使用 BMHRL,该研究展示了基于 HRL 代理的内容完整和语法良好的语句生成,并为用户和开发人员提供了 BMHRL 框架和训练模型的公开功能。
- 基于整体交互 Transformer 网络的动作检测
本文提出了一种新的综合多模式 Holistic Interaction Transformer 网络 (HIT),其利用了大多数人类行动必不可少的手部和姿态信息。该网络是一个包含 RGB 流和姿态流的全面双模式框架,分别建模了人、物和手部互 - 交互级别辅助对比任务的学生建模方法用于知识追踪和辍学预测
本研究提出了一种新的学生建模框架 SAICL:使用辅助交互级对比学习的学生建模,可以利用自监督和监督的交互级对比目标,不受数据增强方法的限制,在不损失推理成本的情况下实现了与其他最先进模型可比拟的知识追踪和退学预测性能。
- Overwatch: 在代码编辑序列中学习模式
介绍了一种基于时间上下文的源代码编辑建议技术,通过分析开发人员最近所执行的编辑序列模式来完善 IDE 工具的支持。实验证明该技术能够较高精确地补全开发人员可能错过的编辑建议,并且能够预测出在 IDE 工具中不具备支持的新编辑建议。
- CVPR音乐和视频的艺术通信时代
本文提出了一种基于自我监督学习的方法,使用 Transformer 网络建模视频和音乐信号的长期时间上下文,以实现音乐和视频之间的艺术语义对应以及它们之间的互相推荐,并在实验中表现出很强的性能优势。
- CVPR基于本地跟踪器集合的全局跟踪
本研究结合了全局追踪和利用时间上下文的优点,通过局部追踪器的集成来全局追踪目标。实验表明我们的方法在六个数据集上表现优异。
- CVPR捕捉运动中的人类:从单目视频中估计时间关注的三维人体姿态和形状
该研究提出了一种运动姿势和形状网络(MPS-Net)来有效地捕捉视频中的运动并从中估计准确的和时间连续的三维人体姿态和形状。MPS-Net 利用运动连续性注意力(MoCA)模块和分层注意特征融合(HAFI)模块以提高运动姿势的精度并使用更少 - CVPR通过帧间关注力实现物体传播的时间稳定视频实例分割
该论文提出了一种通过利用邻帧预测的空间信息并结合时间域中的帧间注意力机制来提高视频实体分割质量的方法,其在 YouTube-VIS 数据集上取得 36.0% 的 mAP,且该方法是完全在线的,不需要使用未来的视频帧。
- 从时间维度出发:多模态自我中心动作识别
利用时间上下文提高了自我中心视频识别能力的基于转换器的多模态模型。
- CVPR基于相关性学习的多目标跟踪
本文提出了基于局部相关性模块的密集对应和可学习相关算子来增强模型的判别能力和对时间上下文的捕捉能力,从而在多目标跟踪方面取得了最先进的效果,并在 MOT17 数据集上实现了 76.5% 的 MOTA 和 73.6% 的 IDF1。
- CVPR情感过程:用于情感和面部表情识别的时间上下文随机建模
该研究提出了一种基于神经过程的方法,使用全局潜在变量模型的概率性语境表示与任务特定预测结合,智能地选择时间上下文,并在四个数据库上进行验证,在情感识别等方面取得了比强基线和现有方法更为一致的进步。