- E3 TTS:简易端到端扩散基于文本到语音技术
我们提出了一种简单高效的端到端扩散式文本转语音模型,通过扩散过程直接从纯文本生成音频波形。该模型无需中间表示,能够支持给定音频的灵活潜在结构,从而实现轻松适应零样本任务。实验证明,该模型能够生成高保真音频,接近最先进的神经网络语音合成系统的 - 通过神经扩散反应过程实现动态张量分解
我们提出了一种动态张量分解方法(Dynamic EMbedIngs fOr dynamic Tensor dEcomposition,DEMOTE),该方法利用神经扩散 - 反应过程来估计每种张量模式中实体的动态嵌入。通过构建一个多部分图编 - 行动运动分布(DAM):人体动作识别描述符
通过在数据集中所有可能的运动方向集合上基于关节帧之间运动方向分布的动作描述符(Distribution of Action Movements Descriptor),在保留部分时间结构的情况下,全局表示了一个动作的运动方向分布。该描述符与 - 一个高效的基于 Transformer 的视频问答方法:视频是否能够取代 $n imes n$ 张图像?
本文提出了一种高效的基于现有的视觉 - 语言预训练模型的视频问答方法,该方法将视频帧连接成 $n imes n$ 的矩阵,从而将图像编码器的使用量从 $n^2$ 减少到 1,保持了原始视频的时间结构。实验结果表明,我们的方法在 MSRVTT - 使用预训练音频表征学习检测新颖和细粒度声学序列
该论文调查了用于少样本声音事件检测的预训练音频表示。他们开发了适合此任务的预训练嵌入并评估其在 AudioSet 上的通用性和在现实世界声学序列构造的任务上的效用。
- AAAI从单个演示中发现例程,增强策略学习
本文提出了一种基于模式识别,将演示的动作序列抽象成常见的基元动作组合的技术:routine-augmented policy learning (RAPL),并通过将其与原始级别的政策学习相结合,实现了在多个时间尺度上模仿专家行为的能力,提 - 在线学习因果模型
通过检测和去除虚假特征来间接发现因果模型,以加强预测模型的鲁棒性和泛化能力,并说明问题的时间结构信息对于在线检测虚假特征至关重要。
- 使用 PIC 识别长距离活动的置换不变卷积
介绍了一种新的神经网络层 ——Permutation Invariant Convolution(PIC),它具有三种可取的属性:在其感受野内部特征的时间排列不变,各个区域之间存在本地连接,使用共享权重,这使得它更能够检测噪声较大的视频中的 - 门控图循环神经网络
本文介绍了图递归神经网络 (GRNNs) 作为一种利用递归隐藏状态与图信号处理 (GSP) 相结合的学习框架,以学习来自于图处理中的时空结构。结果表明,GRNNs 在长期依赖问题上的表现优于 GNNs 和 RNNs。
- ICLRCLEVRER:用于视频表示和推理的碰撞事件
介绍了一种新的视频数据集 CLEVRER,以组合描述、解释、预测和假设性问题的方式评估计算模型,结果表明现有的视觉推理模型在因果推理任务(解释性、预测性和假设性)方面表现不佳,需要在模型中融合语言输入和因果关系的理解。
- CVPR高斯时空感知网络用于动作定位
本文提出一种新的视频动作定位框架,使用高斯核实现动作提案的动态时间尺度优化,通过学习一组高斯核对动作的时间结构进行建模,取得了目前最好的检测结果。
- ACL使用神经网络词性标注器检测句法变化
本文通过训练一种跨越时空的长短时记忆词性标注器,分析其在美式英语中语法和词汇变化上的表现,并证明其能够相对精准地预测新句子的创作时间。
- 无监督学习动态成分分析的噪声数据中的时间结构
介绍了一种基于 Dynamical Components Analysis(DCA)的线性降维方法,可以在高维的时间序列数据中提取出最大预测信息的子空间,能有效地提取出动态结构,保留了线性降维方法的计算效率和几何可解释性。
- Videograph:在视频中识别持续数分钟的人类活动
VideoGraph 是一种图形表示方法,它能够代表几分钟长的人类活动并学习其基本的时间结构,成功地在 Epic-Kitchen 和 Breakfast 数据集上提出了相关工作的改进。
- 用克隆的隐马尔可夫模型学习高阶时序结构
本论文提出一个名为 cloned HMM 的稀疏结构的 Hidden Markov Models 模型,通过这一结构,模型可以高效地学习变化顺序序列及处理不确定性,实现了对 n-gram、序列记忆器和 RNN 等方法的超越。
- EMNLP神经网络事件检测:严格实证评估
本文提出了一种基于 GRU 的模型,结合了注意机制,将语法信息和时间结构相结合,具有与其他神经网络架构相当的性能,在 ACE2005 数据集的不同随机初始化和训练验证测试划分下进行了经验评估。
- ECCV向前并讲述:视频描述的渐进式生成器
本研究提出了一种基于序列学习的新方法,通过选择一系列鲜明的视频片段和产生连贯的句子描述来生成对给定视频的一个连贯段落描述。该方法在 ActivityNet Captions 数据集上表现出能够生成高质量段落描述的能力,比其他方法产生的描述更 - 对实时视频分类系统的对抗性扰动
本研究探讨了实时视频分类系统中对抗性干扰的可能性与必要条件,发现在考虑时序结构的情况下,利用生成对抗网络可以产生能够导致高达 80% 有针对性活动误分类的对抗样本,对其他活动几乎没有影响,并且同一扰动可以适用于视频剪辑中的每一帧。
- 利用辅助变量和广义对比学习的非线性 ICA
提出了一种基于辅助变量增广数据的非线性 ICA 的泛化框架,通过对真实的增广数据和随机化辅助变量的模拟数据进行判别式学习,实现了该框架的计算机实现,并证明了该模型的可识别性和一致性。
- CVPR棒球视频中的细粒度活动识别
本文介绍了一个新的细粒度活动检测数据集 MLB-YouTube,研究了利用分类和连续视频中各种识别方法捕捉活动视频中的时间结构,并比较了在难以预测棒球视频中的球速和类型的任务中的模型。发现学习时间结构对于细粒度活动识别非常有价值。