- 设定时钟:预训练语言模型的时间对齐
通过对预训练语言模型进行时间对齐,本研究探索了将内在知识与目标时间对齐的方法,并发现对年份为 2022 的 LLaMa2 模型进行对齐可以将其性能相对提高 62%,此外,该研究还发现对历史时间进行对齐同样是可行的,可以使模型在 2010 年 - DESTINE: 动态目标查询与时间传导对齐在轨迹预测中的应用
在多智能体环境中准确预测道路用户的轨迹是一项具有挑战性的任务,需要建立一种能够在不同粒度进行行为推理的有效机制。本文提出了一种名为 DESTINE 的动态目标查询与时间传导对齐的方法,通过动态预测智能体的目标、生成地图兼容的轨迹预测以及使用 - MeetEval:会议转录系统的词错误率计算工具包
MeetEval 是一个开源工具包,用于评估各种会议转录系统。它提供了一个统一的界面,用于计算常用的词错误率(WER),包括 cpWER、ORC WER 和 MIMO WER 等。我们通过时间约束扩展了 cpWER 的计算,以确保只有当时间 - 针对少样本动作识别的任务特定对齐和多层 transformer
本文提出了一种名为 TSA-MLT 的端到端方法,在多层次特征上使用多层 Transformer 并使用任务特定的 TSA 进行处理,然后使用 L2 和 Optimal transport 距离度量进行融合,并以交叉熵损失进行训练以获得时间 - AAAITransVCL: 带有注意力增强的视频拷贝定位网络及其灵活监督
TransVCL 是一种注意力增强的视频复制定位网络,它通过跨序列特征引入长时序信息,利用自注意力和交叉注意力层直接优化帧级特征来精确定位视频检索应用中一对未剪辑视频内所有复制片段的位置,并在监督或半监督设置下以显著改进性能。
- 时间概念漂移和对齐:比较知识组织系统在时间上的实证方法
该研究探讨了知识组织系统(KOS)中的时间概念漂变和时间对齐。采用 1910 年美国国会图书馆主题词表,2020 年 FAST Topical 和自动索引进行比较分析。使用 90 个 19 世纪《大英百科全书》条目作为案例研究,通过全文索引 - ECCV基于外观和时间对齐的归纳和转导式小样本视频分类
提出了一种新的少样本视频分类方法,该方法通过外貌和时间对齐来进行,采用了原型训练和测试,以及归纳和推导原型细化。此方法在 Kinetics 和 Something-Something V2 数据集上进行了广泛实验,并取得了类似或更好的结果。
- ECCV音视频零样本学习的时间和跨模态注意力
该研究提出了一种多模态和时间交叉注意力框架,可以利用音频和视觉信息的自然语义和时间对齐关系来实现音频 - 视觉广义零样本学习,并在多个基准测试中取得了最先进的性能。
- 强化学习中历史状态的时间对齐
本文提出了一种基于自监督机制的方法 (TempAl),通过自动化的历史状态表示,在 Reinforcement Learning 的非完全可观测环境中取得了比单独使用瞬时状态表示更好的结果,实验证明在 49 个 Atari 游戏中的 35 - IJCAI学习暗示性时间对齐用于小样本视频分类
本文提出了一种新的基于匹配的少样本学习策略,结合隐式时间对齐和上下文编码模块以及多任务损失,用于解决视频分类中在有限标注情况下空间 - 时间表征的学习问题,并在两个具有挑战性的基准测试中证明了其优越性。
- 混合时间域自适应的行动分割
通过将问题描述为域适应问题,该研究提出了混合时间域适应模型,以在帧和视频级别特征空间中对齐嵌入特征,并进一步与域注意力机制相结合,以便更有效地进行域适应。在 GTEA、50Salads 和 Breakfast 数据集上验证了该方法目前的有效 - 分层神经渲染:用于视频人物时间调整
本文介绍了一种通过分层学习视频表示的方法来编辑或操作视频中不同个体的运动和动作,以达到减慢、加速或擦除人物等目的。该技术可以应用于复杂运动或多人参与的真实世界视频中,以生成高质量的效果。
- 全局不变量下的时间序列对齐
本文提出了一种新的距离测量方法,通过学习特征空间的潜在全局转换和时序对齐,以及不同维度间的差异来计算多元时间序列之间的距离,为机器学习等领域提供了新的思路。
- 弱监督时序动作分割的混合 RNN-HMM 方法
提出了一种层次化方法,通过结构化识别来解决从有序动作标签中弱监督学习人类动作的问题,并将一帧 RNN 模型与粗略概率推理相结合,以实现长序列的时间对齐和迭代训练。
- CVPR时间循环一致性学习
本文提出了一种基于自我监督学习的视频时序对齐表征学习方法,其通过训练神经网络使用时间循环一致损失(TCC)来找到多个视频之间在时间上的对应关系,从而得到每一帧的表征,可用于快速地对视频进行对齐和分类。该方法在少量监督数据和其他自监督方法上都 - TDAN:视频超分辨率的时间可变对齐网络
本文提出了一种基于时间变形对齐网络的视频超分辨率模型,它可以在不需要光流计算的情况下,通过学习参考帧和支持帧的特征,动态预测采样卷积核的偏移来对参考帧和支持帧进行自适应对齐,从而获得高质量的超分辨率视频重建结果。
- 基于 RNN 的粗细建模弱监督动作学习
本文提出了一种弱监督学习的方法,结合判别子动作的表示和粗略概率模型,应用于人类行为的动作检测和分类任务中,并在两个基准数据集上进行了评估,展现了在多个弱监督学习任务中的良好性能。
- 用循环时间编码进行视频检索和时间对齐
本文提供了一种特定视频事件检索的方法,它基于帧描述符编码,利用循环矩阵在频域内高效比较和匹配视频,并采用全局时间轴对视频进行同步播放。