- 可变长度嵌入
本文介绍了一种新的深度学习架构,Variable Length Embeddings (VLEs),一种可以生成由任意数量的标记组成的潜在表示的自回归模型。我们证明了 VLEs 的能力,并在 iNaturalist 和 ImageNet 数 - V2Meow: 通过音乐生成来模拟视觉律动的喵叫
本文介绍了一种名为 V2Meow 的多阶段自回归模型方法,它不需要使用任何平行的象征性音乐数据,通过预训练的可靠视觉特征即可生成与视频语义相对应的高保真音频波形,并支持对音乐风格的高级控制。
- 将口语理解任务与集成对话历史联合建模
该研究旨在构建一种新型的自动预测语音理解系统,该系统利用历史对话信息预测口语意图、对话行为、说话人角色和情感等四种属性,并采用自回归模型和无序训练方法,以应对不同 SLU 任务的高效率和低延迟问题。实验证明,该系统与任务特定的分类器相当,并 - CVPR音频 - 视觉异常检测的自我监督视频取证
提出一种基于异常检测的视频取证方法,通过训练自回归模型使用视频帧和声音的特征集来区分真实视频和人工篡改的视频,具有较强的检测能力。
- 使用有限领域监督训练自回归语音识别模型
本文探索在有限监督数据的情况下,如何使用半监督学习和自学习相结合的自回归编码器 - 解码器模型处理会话性语音领域,结果表明,在在领域内数据较为有限时,通过 XLS-R 模型自伪转录,使用这种自回归模型比微调 XLS-R 模型的效果更好,可以 - SCGG:一种深度结构条件图生成模型
该研究针对图的建模与完整性问题,提出了一种条件深度图生成模型 SCGG,能够自动生成符合特定结构条件的新图样本,并在实验结果中显示该方法在合成数据和实际数据上均具有优异表现。
- TEACH:针对 3D 人体的时间动作组合
利用 BABEL 动作文本集合,设计了一种基于 Transformer 的 TEACH 方法,能够根据自然语言描述生成符合语义的 3D 人体动作,实现由多个动作组成的时间动作构成。
- 少数正样本的多元时间序列异常检测
本文介绍了两种方法来解决实际应用中时间序列异常检测的需要,并结合自回归 (AR) 模型进行代表性学习、鼓励区分常态和少量正样本的表征的损失函数分量,将所提出的方法应用于两个工业异常检测数据集,并与文献中的方法进行了比较。此外,本研究还指出了 - Collocation2Text: 俄语中从指南短语控制生成的文本
该论文探讨了一种用于俄语的自动可控文本生成的插件式方法,不需要微调。基于两个相互作用的模型:自回归语言 ruGPT-3 模型和自编码语言 ruRoBERTa 模型。该方法通过改变自回归模型的输出分布来确保文本中叙事向指南短语的连贯过渡,其有 - ACL$ extit {latent}$-GLAT:关注潜在变量的并行文本生成技术
本文提出了一种使用离散潜在变量和课程学习技术的平行文本生成方法,不需要使用自回归模型训练即可解决数据集中的多模态问题,并在实验中取得优秀的表现,进一步拓宽了平行解码范式的应用场景。
- 面向端到端语音识别系统的上下文拼写纠正定制
本研究提出了一种新方法,通过在端到端自动语音识别系统的顶部加入上下文拼写纠错模型,将上下文信息纳入序列到序列拼写纠正模型中,从而提高了识别速度和准确性。
- HaT5: 使用文本转换转换器进行仇恨语言识别
本研究使用 T5 架构及自回归模型对包含 5 个不同任务的 2 个数据集进行性能比较与错误分析,提出了一种新的数据增强方法以及训练方法并通过解释性人工智能算法提高了预测准确率。
- 决策变压器:通过序列建模的强化学习
本文基于序列建模思路,提出一种将强化学习抽象为序列建模问题的框架,使用 Transformer 架构和相关的语言建模技术(如 GPT-x 和 BERT)来解决增强学习任务,其中提出的 Decision Transformer 模型可以通过自 - 自回归去噪扩散模型用于多元概率时间序列预测
本研究提出了一种基于 TimeGrad 的自回归模型,用于多元概率时间序列预测,该模型在每个时间步长从数据分布中采样,通过估计梯度进行采样,采用扩散概率模型,优化可变界,通过 Langevin 采样将白噪声转换为感兴趣的分布样本,在实验中表 - ICML基于深度生成模型的稀疏图可扩展建模
本研究提出了一种基于自回归模型的图生成方法 (BiGG),其利用稀疏性避免生成完整的邻接矩阵,并将图生成时间复杂度降至 O ((n + m) logn)。实验表明,该方法不仅比之前的自回归图生成模型能够处理更大的图像,而且生成质量更高。
- 基于条件正则流的多元概率时间序列预测
本文介绍了一种基于自回归深度学习模型和有条件归一化流模型的多元时序动态建模方法,该方法通过建模统计依赖关系来提高精度和分析交互效应。实验结果表明,该方法在多个实际数据集上比现有技术表现更好。
- 多维 Transformer 中的轴向注意力
Axial Transformers 是一种基于自注意力的自回归模型,可用于生成高维张量数据,具有全表达能力和易于实现的特点,并在标准生成建模基准测试中取得了最新的成果。
- LSAR:针对大型时间序列数据分析的高效杠杆得分采样算法
该研究应用随机数值线性代数方法来分析大规模时间序列数据,并开发了一种新的算法 LSAR,其在拟合 AR 模型时,能够以高概率找到最大似然估计,并在大数据规模下拥有优异的性能表现。
- Levenshtein Transformer
本文提出了一种部分自回归模型 Levenshtein Transformer,在线性时间复杂度内支持插入和删除操作,实现了互补的拆解和精细化的设计思路,成功地提高了机器翻译和文本自动编辑的效率。
- MoGlow:使用正规化流进行概率和可控的运动合成
本文提出了一种新的基于正则化流的概率、生成和可控运动数据模型,该模型具有高度复杂的分布描述能力,可以使用 ML 精确地进行训练,同时避免了 GANs 或 VAEs 的算法延迟,并在单个输出序列中自动生成每个姿态,评估结果证明其运动质量接近记